Определения. Линейная регрессионная модель для случая одной факторной переменной.

Рассмотрим сначала однофакторную регрессионную модель.

В этом случае имеется n пар наблюдений (x_i,y_i), i=1,2,…,n, над некоторыми случайными величинами Х={x_i} и Y={y_i}. Эти наблюдения можно представить точками на плоскости с координатами (x_i,y_i), получая так называемую диаграмму рассеяния. Задача построения регрессионной модели заключается в том, что необходимо подобрать некоторую кривую (график соответствующей функции) таким образом, чтобы она располагалась как можно “ближе” к этим точкам. Такого рода кривую называют эмпирической или аппроксимирующей кривой. Весьма часто тип эмпирической кривой определяется экспериментальными или теоретическими соображениями (исходя из законов экономической теории), в противном случае выбор кривой осуществить довольно трудно. Иногда точки на диаграмме рассеяния располагаются таким образом, что не наблюдается никакого их группирования, и, соответственно, нет никаких оснований предполагать наличие в наблюдениях какой-либо взаимозависимости.

Таким образом, результатом исследования статистической взаимозависимости на основе выборочных данных является построение уравнений регрессии вида y=f(x).

В самом простом случае предполагается, что f задает уравнение прямой f(x)=a₀+a₁х. Модель в этом случае имеет вид

у_i=a₀+a₁х_i+e_i (i=1,2,…,n). (2)

Здесь e_i являются вертикальными уклонениями точек (x_i,y_i) от аппроксимирующей прямой. Вопрос о нахождении формулы зависимости можно ставить после положительного ответа на вопрос о существования такой зависимости, но эти два вопроса можно решать и одновременно.

Для ответа на поставленные вопросы существуют специальные методы и, соответственно, показатели, значения которых определенным образом свидетельствуют о наличии или отсутствии линейной связи между переменными. Такими показателями являются коэффициент корреляции величин Х и Y, а также коэффициенты линейной регрессии a₀и a₁, их стандартные ошибки и t-статистики, по значениям которых проверяется гипотеза об отсутствии связи величин Х и Y.

Угловой коэффициент a₁прямой линии регрессии Y на X называют коэффициентом регрессии Y на X и обозначают r_yx.

Выражение s_х² = –( )² есть выборочная дисперсия Х (или квадрат выборочного среднего квадратического отклонения).

Выборочный коэффициент корреляции определяется равенством

r_yx =(ху – х× у )/(s_хs_y), (3)

где s_y есть выборочное среднее квадратическое отклонение Y.

(Верхняя черта, как это принято в теории вероятностей и математической статистике, означает среднее значение выборочной совокупности, в данном случае ).

Коэффициент корреляции измеряет силу (тесноту) линейной связи между Y и X. Он является безразмерной величиной, не зависит от выбора единиц измерения обеих переменных. Для него всегда выполняется 0 £ |r_yx| £ 1, и чем ближе его значение к ±1, тем сильнее линейная связь. Коэффициент корреляции будет положительным, если зависимость переменных Х и Y прямо пропорциональная, и отрицательным, – если обратно пропорциональная.

При близости к нулю коэффициента корреляции, например, величин уровней инфляции и безработицы (что имело место фактически в экономике США в 1970-х – 1980-х годах) нужно не говорить сразу о независимости этих показателей, а попытаться построить более сложную (не линейную) модель их связи.

Если формула (1) линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Кейнсом была предложена линейная модель зависимости частного потребления С от располагаемого дохода Х: С=С₀+ С₁Х, где С₀ >0 – величина автономного потребления (при уровне дохода Х=0), 1>C₁>0 – предельная склонность к потреблению (C₁показывает, на сколько увеличится потребление при увеличении дохода на единицу).

В случае парной линейной регрессии имеется только один объясняющий фактор х и линейная регрессионная модель записывается в следующем виде:

у=a₀+a₁х+e, (4)

где e – случайная составляющая с независимыми значениями Мe=0, De= s².