Метод наименьших квадратов (МНК).

Оценка параметров регрессии a и b производится по наблюденным значениям зависимой и объясняющей переменным (xi,yi), i=1,2,…,n, где n – число пар наблюдений (объем выборки). Рассматриваются n уравнений уi=i+b +ei, где уклонения ei является следствием реализации случайной составляющей, и выбирают такие значения a и b, которые минимизируют сумму квадратов этих уклонений, т.е. ищется минимум

Q=åiei2= åi(уii - b)2 (2.4)

по отношению к параметрам a и b. Заметим, что указанный метод наименьших квадратов (МНК)может быть применен к любой кривой регрессии f(x). “Наилучшая” по МНК прямая линия всегда существует, но даже наилучшая не всегда является достаточно хорошей. Если в действительности зависимость у= f(x) является, например, квадратичной, то ее не сможет адекватно описать никакая линейная функция, хотя среди всех линейных функций обязательно найдется “наилучшая”.

Для отыскания минимума берутся частные производные Q по искомым параметрам (в данном случае по a0 и a1) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры. Для парной линейной регрессии получаем

a=( × )/( – ( )2), (2.5)

b= a × =(( ) × × )/( – ( )2),

где xiyi/n, xi/n, yi/n, хi2/n.

Коэффициент a называется коэффициентом регрессии и обозначается ryx. Из (2.1) и (2.5) следует, что

ryx = ryx sy /sх. (2.6)

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученными по данным выборки, в известной степени может быть распространено и на генеральную совокупность, т.е. можно выдвинуть гипотезу об имеющейся линейной связи во всей генеральной совокупности вида у= aх+b.