Коэффициент детерминации

( 3.1 )

Для линейной модели он совпадает с квадратом коэффициента корреляции, но пригоден и для нелинейных моделей. На Рисунке 3.2. показана аппроксимация параболой. Коэффициент корреляции близок к нулю, а коэффициент детерминации – к единице, так как дисперсия Рис.3.2.

остатков существенно меньше дисперсии Y. Это говорит о высоком качестве модели.

Формула ( 3.1 ) легко преобразуется

(3.2)

 

где ДИСП – функция Excel Дисперсия. Вообще говоря, несмещённой оценкой дисперсии остатков парной регрессии является

но функция ДИСП.В делит на (n-1), и в данном случае всё получается правильно. В данном случае r2 = 0,854, что соответствует коэффициенту корреляции 0,924, то есть имеет место сильное влияние переменной X на Y.

Дисперсия суммы двух независимых переменных равна сумме их дисперсий. В Таблице вы видите, что ДИСП(Y)=ДИСП(Y^) + ДИСП(е).

Надо сказать, что S(Y – Ycp)2 обозначают TSS (Total Squared Sum); в российских учебниках S(Y^ – Y^cp)2 обозначают RSS, а 2 ESS (Error Squared Sum; в английских учебниках S(Y^ – Y^cp)2 обозначают ESS (Explained Squared Sum) а 2 RSS (Residual Squared Sum). Поэтому мы не будем пользоваться этими обозначениями.

Оценка значимости уравнения регрессии в целом даётся с помощью F-критерия Фишера. При этом проверяется нулевая гипотеза, что коэффициент регрессии b равен нулю и, следовательно, фактор X не оказывает влияния на результат Y. Давно составлены таблицы критических значений F-статистики в зависимости от числа измерений n, числа степеней свободы, или количества независимых переменных m и уровня значимости a.

Статистика Фишера равна частному от деления дисперсии Y^, или факторной дисперсии, и дисперсии остатков, вычисленных с учётом числа степеней свободы: 1 для Y^ и n-2 для остатков.

Для множественной регрессии и полиномиальной, которую можно преобразовать в множественную, число степеней свободы Y^ равно числу независимых переменных m, а число степеней свободы остатков равно n-m-1. Статистику Фишера удобно вычислять через коэффициент детерминации:

( 3.3 )

Чем больше статистика Фишера, тем лучше прогнозы, сделанные с использованием модели. Из формулы (3.3) следует, что F возрастает с ростом r2 и числа измерений, но уменьшается при увеличении числа влияющих переменных, то есть надо аккуратно подходить к включению в модель новых влияющих переменных, а также не использовать для аппроксимации полиномы высоких степеней. Полезно помнить, что при уровне значимости a=0,05, то есть при доверительной вероятности 95% и количестве замеров более 15 критическое значение F для парной регрессии около 4,5 , а при m=4 около 3. Начиная с этих значений F можно говорить о существовании влияния регрессоров на эндогенную переменную.

Коэффициенты линейного уравнения регрессии bi имеют экономический смысл: это предельные функции, или производные эндогенной переменной по влияющим:

В случае парной регрессии это однозначно, в множественной регрессии всё сложнее из-за взаимного влияния регрессоров. Для оценки погрешностей коэффициентов уравнения парной линейной регрессии Y^= a + bx используются выражения

где S – выборочные оценки стандартных отклонений s. Для принятия гипотезы о влиянии регрессора на эндогенную переменную используются таблицы критических значений t-статистики Стьюдента. Для bt=b/Sb. Предполагается, что при числе измерений больше 20 истинные значения коэффициентов уравнения регрессии aи b лежат в интервалах {a-2Sa , b+2 Sb } и {b-2Sb , b+2 Sa } с доверительной вероятностью 95%.