Определения. Парная регрессия. Метод наименьших квадратов (МНК).
Если формула (3) линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Кейнсом была предложена линейная модель зависимости частного потребления С от располагаемого дохода Х: С=С0+ С1Х, где С0 >0 – величина автономного потребления (при уровне дохода Х=0), 1>C1>0 – предельная склонность к потреблению (C1 показывает, на сколько увеличится потребление при увеличении дохода на единицу).
В случае парной линейной регрессии имеется только один объясняющий фактор х и линейная регрессионная модель записывается в следующем виде:
у=a0+a1х+e, (4)
где e – случайная составляющая с независимыми значениями Мe=0, De= s2.
Оценка параметров регрессии a0 и a1 производится по наблюденным значениям зависимой и объясняющей переменным (xi,yi), i=1,2,…,n, где n – число пар наблюдений (объем выборки). Рассматриваются n уравнений уi=a0+a1хi+ei, где уклонения ei является следствием реализации случайной составляющей, и выбирают такие значения a0 и a1, которые минимизируют сумму квадратов этих уклонений, т.е. ищется минимум
Q=åiei2= åi(уi – a0 – a1хi)2 (5)
по отношению к параметрам a0 и a1. Заметим, что указанный метод наименьших квадратов (МНК)может быть применен к любой кривой регрессии f(x). “Наилучшая” по МНК прямая линия всегда существует, но даже наилучшая не всегда является достаточно хорошей. Если в действительности зависимость у= f(x) является, например, квадратичной, то ее не сможет адекватно описать никакая линейная функция, хотя среди всех линейных функций обязательно найдется “наилучшая”.
Для отыскания минимума берутся частные производные Q по искомым параметрам (в данном случае по a0 и a1) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры. Для парной линейной регрессии получаем
a1=( – × )/( – ( )2), (6)
a0= –a1 × =(( ) × – × )/( – ( )2),
где =åxiyi/n, =åxi/n, =åyi/n, =åхi2/n.
Коэффициент a1 называется коэффициентом регрессии и обозначается ryx. Из (2) и (6) следует, что
ryx = ryx sy /sх. (7)
Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученными по данным выборки, в известной степени может быть распространено и на генеральную совокупность, т.е. можно выдвинуть гипотезу об имеющейся линейной связи во всей генеральной совокупности вида у=a0+a1х.