Оценка параметров регрессионного уравнения

 

Дня оценки параметров регрессионного уравнениянаиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений от модельных значений .

Согласно принципу метода наименьших квадратов, оценки и находятся путем минимизации суммы квадратов

по всем возможным значениям и при заданных (наблюдаемых) значениях . Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производныхфункции по переменным и . Это приводит к системе уравнений

решением которой и является пара , . Согласно правилам вычисления частных производных имеем

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Эта система является системой двух линейных уравнений с двумя неизвестнымии может быть легко решена, например, методом подстановки. В результате получаем

 

 

 

Такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен

Последнее условие называется условием идентифицируемостимодели наблюдений , и означает, что не все значения совпадают между собой. При нарушении этого условия всеточки , лежат на однойвертикальной прямой

Оценки и называют оценками наименьших квадратов. Так как известны выражения для выборочной дисперсии и выборочной ковариации , то выражение для

в этих терминах, можно представить следующим образом

= = =

= .

В матричной форме модель парной регрессии имеет вид:

где - вектор-столбец размерности наблюдаемых значений зависимой переменной;

– матрица размерности наблюдаемых значений факторных признаков. Дополнительный фактор вводится для вычисления свободного члена; - вектор-столбец размерности неизвестных, подлежащих оценке коэффициентов регрессии; - вектор- столбец размерности ошибок наблюдений

.

Решение системы нормальных уравнений в матричной форме имеет вид:

 

Пример 3.2.

Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. $ ) (табл.18):

 

 

Таблица 18

Данные о накоплениях и доходах

Наблюдение Накопления доход
  Y Х
3.5
1.5
4.5

Требуется:

1) построить однофакторную модель регрессии

2) отобразить на графике исходные данные, результаты моделирования.

 

Решение.

1.Найдем параметры модели. Промежуточные расчеты приведены в таблице 19.

Таблица 19

Расчеты параметров модели

Наблюдение Накопления - Y Доход-X 2 * yx X2
-0.643 -0.714 0.510 0.459
2.357 14.286 204.082 33.673
1.357 4.286 18.367 5.816
3.5 -0.143 -10.714 114.796 1.531
1.5 -2.143 -10.714 114.796 22.959
4.5 0.857 9.286 86.224 7.959
-1.643 -5.714 32.653 9.388
сумма 25.5 285.00 0.000 0.000 571.429 81.786
среднее 3.643 40.714         1739.286

,

= 3.643 - 0.143125* 40.714= -2.184.

Построена модель зависимости накопления от дохода:

, график, которой изображен на рис. 4.

 

 

Рис. 4. График модели парной регрессии.

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблю­даемым данным проводится на основе анализа остатков - .

После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих – и ;

Остаток представляет собой отклонение фактического зна­чения зависимой переменной от значения данной перемен­ной, полученное расчетным путем: ( ). Если ( ), то для всех наблюдений фактические значе­ния зависимой переменной совпадают с расчетными (тео­ретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, пост­роенная по функции ) проходит через все точ­ки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак полностью обусловлен влиянием фактора .

На практике, как правило, имеет место некоторое рассеива­ние точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от тео­ретических ( ). Величина этих отклонений и лежит в осно­ве расчета показателей качества (адекватности) уравнения.

При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложе­на на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:

где - расчетные (выровненные) значения y, вычисленные по модели .

Разделив правую и левую часть данного соотношения на , получим

.

 

Коэффициент детерминацииопределяется следующим образом:

 

 

Коэффициент детерминациипоказывает долю вариации результативного признака, находя­щегося под воздействием изучаемых факторов, т. е. определяет, ка­кая доля вариации признака Y учтена в модели и обусловлена влия­нием на него факторов. Чем ближе к 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также ис­пользовать коэффициент множественной корреляции (индекс корреляции) R

= =

Данный коэффициент является универсальным, так как он отра­жает тесноту связи и точность модели, а также может использовать­ся при любой форме связи переменных. При построении однофакторной модели он равен коэффициенту линейной корреляции .

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным.

Для оценки качества регрессионных моделей целесообразно ис­пользовать среднюю относительную ошибку аппроксимации:

.

Чем меньше рассеяние эмпирических точек вокруг теоре­тической линии регрессии, тем меньше средняя ошиб­ка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипо­тезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная ей гипотеза о значимости уравне­ния — гипотеза о неравенстве нулю параметров регрессии.

Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несме­щенной дисперсии остаточной компоненты. Если расчетное значение с n1= k и n2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

Для модели парной регрессии:

.

В качестве меры точности применяют несмещенную оценку дис­персии остаточной компоненты, которая представляет собой отно­шение суммы квадратов уровней остаточной компоненты к величи­не (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины ( ) называется стандартной ошибкой оценки.

.