Мультиколлинеарность факторов

Проверим мультиколлинеарность факторов.

 

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной, линейной связанности. Считается, что две переменные явно коллинеарны, т. е. находятся между собой в линейной зависимости, если их парный коэффициент корреляции больше или равен 0,7. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков. В частности, оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой с высоким значением коэффициента детерминации. Для отбора факторов в модель регрессии можно использовать корреляционную матрицу. Однако по величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Поэтому при оценке мультиколлинеарности факторов предполагается использовать определитель Dr матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0, т. е. Dr = 0. Таким образом, чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов. Мультиколлинеарность факторов выявляется проверкой гипотезы H0 : Dr = 1 с помощью статистики хи-квадрат с степенями свободы. Наблюдаемое значение статистики определяется по формуле где n – количество наблюдений; p – число переменных. Если то гипотеза H0 отклоняется и наличие мультиколлинеарности объясняющих факторов считается доказанной.

 

На листе «Исходные данные» найдены парные коэффициенты корреляции и определитель матрицы парных коэффициентов корреляции объясняющих факторов возраст и стаж. Так как парный коэффициент корреляции факторов возраст и стаж rВ,С = 0,75 < 0,8, то зависимость между факторами существует, но она незначительная. Докажем это предположение проверкой гипотезы об отсутствии мультиколлинеарности с помощью статистики хи-квадрат, наблюдаемое и критическое значения которой найдены на листе «Регрессия» (таблица 22).

 

Таблица 22 – Мультиколлинеарность

Мультиколлинеарность
Определитель 0,44
хи-кв набл 19,53
хи-кв кр 223,16

Так как хи-квадрат наблюдаемое равно 19,53 и меньше хи-квадрат критического, равного 223,16, то мультиколлинеарность факторов отсутствует.