Оценка параметров регрессионного уравнения
Дня оценки параметров регрессионного уравнениянаиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений от модельных значений .
Согласно принципу метода наименьших квадратов, оценки и находятся путем минимизации суммы квадратов
по всем возможным значениям и при заданных (наблюдаемых) значениях . Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производныхфункции по переменным и . Это приводит к системе уравнений
решением которой и является пара , . Согласно правилам вычисления частных производных имеем
так что искомые значения , удовлетворяют соотношениям
Эту систему двух уравнений можно записать также в виде
Эта система является системой двух линейных уравнений с двумя неизвестнымии может быть легко решена, например, методом подстановки. В результате получаем
Такое решение может существовать только при выполнении условия
что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен
Последнее условие называется условием идентифицируемостимодели наблюдений , и означает, что не все значения совпадают между собой. При нарушении этого условия всеточки , лежат на однойвертикальной прямой
Оценки и называют оценками наименьших квадратов. Так как известны выражения для выборочной дисперсии и выборочной ковариации , то выражение для
в этих терминах, можно представить следующим образом
= = =
= .
В матричной форме модель парной регрессии имеет вид:
где - вектор-столбец размерности наблюдаемых значений зависимой переменной;
– матрица размерности наблюдаемых значений факторных признаков. Дополнительный фактор вводится для вычисления свободного члена; - вектор-столбец размерности неизвестных, подлежащих оценке коэффициентов регрессии; - вектор- столбец размерности ошибок наблюдений
.
Решение системы нормальных уравнений в матричной форме имеет вид:
Пример 3.2.
Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. $ ) (табл.18):
Таблица 18
Данные о накоплениях и доходах
Наблюдение | Накопления | доход |
Y | Х | |
3.5 | ||
1.5 | ||
4.5 | ||
Требуется:
1) построить однофакторную модель регрессии
2) отобразить на графике исходные данные, результаты моделирования.
Решение.
1.Найдем параметры модели. Промежуточные расчеты приведены в таблице 19.
Таблица 19
Расчеты параметров модели
Наблюдение | Накопления - Y | Доход-X | 2 | * | yx | X2 | ||
-0.643 | -0.714 | 0.510 | 0.459 | |||||
2.357 | 14.286 | 204.082 | 33.673 | |||||
1.357 | 4.286 | 18.367 | 5.816 | |||||
3.5 | -0.143 | -10.714 | 114.796 | 1.531 | ||||
1.5 | -2.143 | -10.714 | 114.796 | 22.959 | ||||
4.5 | 0.857 | 9.286 | 86.224 | 7.959 | ||||
-1.643 | -5.714 | 32.653 | 9.388 | |||||
сумма | 25.5 | 285.00 | 0.000 | 0.000 | 571.429 | 81.786 | ||
среднее | 3.643 | 40.714 | 1739.286 |
,
= 3.643 - 0.143125* 40.714= -2.184.
Построена модель зависимости накопления от дохода:
, график, которой изображен на рис. 4.
Рис. 4. График модели парной регрессии.
Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков - .
После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих – и ;
Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем: ( ). Если ( ), то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак полностью обусловлен влиянием фактора .
На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических ( ). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.
При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:
где - расчетные (выровненные) значения y, вычисленные по модели .
Разделив правую и левую часть данного соотношения на , получим
.
Коэффициент детерминацииопределяется следующим образом:
Коэффициент детерминациипоказывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов. Чем ближе к 1, тем выше качество модели.
Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции (индекс корреляции) R
= =
Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной модели он равен коэффициенту линейной корреляции .
Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным.
Для оценки качества регрессионных моделей целесообразно использовать среднюю относительную ошибку аппроксимации:
.
Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.
После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.
Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y
Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная ей гипотеза о значимости уравнения — гипотеза о неравенстве нулю параметров регрессии.
Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с n1= k и n2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.
Для модели парной регрессии:
.
В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины ( ) называется стандартной ошибкой оценки.
.