Линейная модель

ПАРНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

1. Парная регрессия – зависимость между 2-мя переменными х и у, т.е. модель вида

ут = f(х),

где у – зависимая переменная (результат),

х – независимая или объясняющая переменная (фактор),

т означает, что между переменными нет строгой функциональной зависимости

Поэтому в каждом отдельном случае у = ут

где у – фактическое значение результата,

ут – теоретическое значение результата, найденное по уравнению регрессии

Е - случайная величина, характеризует отклонение фактического значения от теоретического Е = у - ут

Присутствие Е в модели обусловлено следующими причинами:

* спецификация модели (т.е. вид), от неправильного выбора вида модели зависит значение Е

* выборочный характер исходных данных, ошибки выборки возникают в силу неоднородных данных в исходной совокупности, если совокупность неоднородна (коэффициент корреляции >33%), то уравнение регрессии не имеет смысла, для получения хорошего результата нужно исключать из совокупности единицы с аномальными значениями

* особенности измерения переменных, ошибки измерения могут возникнуть из за неисправности в измерительных приборах, описок, ошибок, допущенных человеком, ошибки измерения существенно искажают количественную оценку связи между признаками, их можно избежать при правильном сборе данных, подбора квалифицированных исполнителей

Методы выбора вида модели:

· ГРАФИЧЕСКИЙ: является самым наглядным при изучении зависимости между двумя признаками

у

уравнение прямой линии

(линейная модель)

ут = а+вх

 


х

у

полином 2 степени

(парабола 2порядка)

ут = а+вх+сх2

х

у

полином 3 степени

(парабола 3 порядка)

ут = а+вх+сх2+dх3

х

у

равносторонняя гипербола

 

 

 


х

у

степенная модель

ут = ахв

 

х

у

показательная модель

ут = авх

 

х

 

· АНАЛИТИЧЕСКИЙ: основан на изучении материальной природы изучаемых признаков

· ЭКСПЕРИМЕНТАЛЬНЫЙ: осуществляется путем сравнения величины остаточной дисперсии (sост), рассчитанной по разным моделям с помощью специальный компьютерных программ. Выбирается та модель, у которой будет минимальное значение s2ост, так как чем меньше s2ост, тем меньше влияние неучитываемых в уравнении регрессии факторов, тем лучше уравнение регрессии подходит к исходным данным

 

Простейшей моделью считается линейная регрессия, которая широко распространена в эконометрике в виду четкой экономической интерпретации ее параметров.

Линейная регрессия имеет вид ут = а+вх. Построение регрессии сводится к оценке параметров а и в, которые определяют в ходе решения системы уравнений методом наименьших квадратов

n – число наблюдений

Параметры также можно определить по готовым формулам, которые выведены из решения системы уравнений

 

 

параметр а показывает усредненное значение влияния факторов на результат нерассматриваемых моделей,

параметр b называют коэффициентом регрессии, он показывает на сколько единиц изменится результат при увеличении фактора на единицу

 

 

Например, при изучении зависимости расходов на продукты питания (у, тыс. руб.) от доходов (х, тыс. руб.) было получено уравнение регрессии ут = 1,460+0,375х. Параметр b является коэффициентом регрессии и показывает, что расходы на продукты питания увеличатся на 0,375 тыс. руб. при увеличении доходов на 1 тыс. руб.

Теснота связи между показателями определяется при помощи коэффициента корреляции:

r изменяется в пределах от -1 до +1 и больше |1| быть не может

Если r<0 – связь между результатом и фактором обратная, т.е. с увеличением фактора результат уменьшается

r>0 – связь прямая

r=0 – связи нет

Если 0,1≤|r|<0,3 – связь практически отсутствует

0,3≤|r|<0,5 – связь слабая

0,5≤|r|<0,7 – связь средняя

0,7≤|r|<1 – связь тесная (сильная)

r=1 – связь функциональная

 

Например в результате расчетов r=-0,614, следовательно связь обратная средняя.

Коэффициент детерминации показывает на сколько % вариация результата объясняется вариации рассматриваемого фактора.

d=r2*100%

Величина 100-d показывает сколько % приходится на долю влияния факторов нерассматриваемых моделей

 

Например, d=40%, т.е. вариация результата на 40% зависит от данного фактора, а 60% изменения результата зависят от влияния факторов не рассматриваемых моделей.

 

После того как найдено уравнение регрессии проводится оценка зависимости уравнения регрессии в целом, т.е. устанавливается соответствует выбранная модель зависимости экспериментальным данным и достаточно ли включенных в модель факторов для описания изменения результата.

Оценка значимости проводится с помощью F-критерия Фишера (F-статистика)

 

n – число наблюдений

Fфактич. сравнивается с Fтабл., которое определяется при уровне значимости α=0,5 (т.е. вероятность суждения 95%) и коэффициент значимости k1=m, k2=n-m-1, где m-число факторов в модели(парной регрессии m=1).

Если Fфактич. > Fтабл признается статистическая значимость уравнения регрессии

 

Для характеристики модели (для оценки качества модели) –насколько точно модель описывает зависимость между исходными данными используют среднюю ошибку аппроксимации.

 

Модель считается хорошего качества, если менее 8%, чем меньше , тем более качественная модель.