МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
Парная регрессия может дать хороший результат при моделировании, если влиянием др факторов, воздействующих на объект исследования можно пренебречь, если этим влиянием пренебречь нельзя, то следует привести эти факторы в модель – построить уравнение множественной регрессии
у = f (х1, х2, …., хn), где у – результат, х1, х2, хn – факторы
Построение уравнения множественной регрессии начинают с выбора вида уравнения регрессии и отбора факторов. Факторы, включенные во множественную регрессию должны отвечать следующим требованиям:
* д.б. качественно соизмеримы
* факторы не д.б. интеркоррелированы и не должны находиться в точной функциональной зависимости (r = |1|)
Интеркорреляция – корреляция между объясняющими переменными, т.е. когда факторы влияют др на др.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат и параметры уравнения регрессии оказывается бессмысленным.
Включаемые во множественную регрессию факторы должны объяснять изменение результата, если строится модель с набором n-факторов, то для нее рассчитывается показатель детерминации (Дm), который объясняет изменение результата засчет рассматриваемых в регрессии m-факторов. Влияние др, неучтенных в модели факторов оценивается как 100 – Дm, соответствует остаточной дисперсии . При дополнительном включении в регрессию m+1 Дm должен возрастать, а
Дm+1 ≥ Дm
<
Если этого не происходит и данные показатели практически не отличаются др от др, то включаемый в анализ фактор хm+1 не улучшает модель и является лишним фактором. Насыщение модели лишними факторами приводит к статистической незначимости параметров регрессии по Критерию Стьюдента.
Таким образом, теоретические регрессионные модели позволяют учесть любое количество факторов, но практически в этом нет необходимости.
Отбор факторов осуществляется в 2 этапа:
® подбираются факторы исходя из сущности проблемы
® на основе матрицы парных коэффициентов корреляции определяем критерии для параметров регрессии
Коэффициент интеркорреляции позволяет исключить из модели дублирующие факторы, считается, что 2 переменные явно коллинеарны, т.е. находятся в тесной зависимости между собой, если rxixj ≥ 0,7. В этом случае факторы дублируют др др и один из них рекомендуется исключить из модели. Предпочтения при этом отдаются тому фактору, который в предостаточно в тесной связи с результатом имеет наименьшую тесноту связи с др фактором.
При изучении зависимости у = f (х1, х2, х3)
Матрица парных коэффициентов корреляции:
у | х1 | х2 | х3 | |
у | 0,8 | 0,7 | 0,6 | |
х1 | 0,8 | 0,8 | 0,5 | |
х2 | 0,7 | 0,8 | 0,3 | |
х3 | 0,6 | 0,5 | 0,2 |
rxixj ≥ 0,7
Факторы х1, х2 дублируют др др, т.к. rх1х2 = 0,8, что больше 0,7. Один из факторов следует исключить из модели. В модели оставляем тот фактор, который имеет наименьшую тесноту связи с др фактором (х3) в модели.
В модели остается фактор х2, т.к. rх2х3 = 0,2< rх1х3 = 0,5
В уравнении множественной регрессии остаются факторы х2, х3.
Наибольшие трудности в использовании множественной регрессии возникает при наличии мультиколлинеарности факторов, т.е. когда наблюдается совокупное воздействие факторов др на др.
Наличие мультиколлинеарных факторов означает, что некоторые факторы всегда будут действовать совместно и нельзя оценить воздействие каждого фактора в отдельности.
Последствия, включенные в модель мультиколлинеарных факторов:
* параметры линейной регрессии теряют экономический смысл
* оценки параметров ненадежны, обнаруживают большие ошибки, что делает модель непригодной для анализа и прогнозирования