Мультиколлинеарность и методы ее устранения

Таблица дисперсионного анализа

Таблица дисперсионного анализа

Таблица 3.4

 

Источник вариации Сумма квадратов отклонений Число степеней свободы Дисперсия на одну степень свободы
k
Остаток n-k-1
Общая вариация n-1  

 

Если F>Fe, то гипотеза об отсутствии связи между переменными и y отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.

Пример (продолжение примера 1). Заполним таблицу дисперсионного анализа:

 

Источник вариации Сумма квадратов отклонений Число степеней свободы Дисперсия
5828,84 2914,42
Остаток 2049,54 120,56
Общая вариация 7878,38  

 

Получаем , .

В нашем примере F>Fe, следовательно, нулевая гипотеза отклоняется, и уравнение множественной регрессии значимо. Ñ

Помимо проверки значимости уравнения в целом, можно проверить статистическую значимость каждого из коэффициентов регрессии в отдельности.

Фактически это означает проверку одной из гипотез:

1); …; k) .

Статистическая значимость каждого из коэффициентов регрессии определяется при помощи t-критерия Стьюдента. Решение о том, что верна нулевая гипотеза, принимается в случае, когда |t|<te, иначе принимается альтернативная гипотеза.

Значение t-статистики Стьюдента в случае множественной регрессии определяется по формуле:

, (3.24)

где - стандартная ошибка коэффициента регрессии , которая определяется по формуле

, (3.25)

здесь - стандартное отклонение y;

- стандартное отклонение xi;

- коэффициент детерминации для зависимости фактора xi от других факторов уравнения множественной регрессии.

Пример (продолжение примера 1). Проверим значимость коэффициентов регрессии. В случае, когда в уравнение регрессии включены две независимые переменные, формула (3.24) упрощается

, .

Таким образом:

=4,69,=4,50,

.

Так как в обоих случаях , то коэффициенты регрессии значимы, следовательно, и вес груза, и расстояние грузовой перевозки оказывают существенное, статистически значимое влияние на стоимость перевозки. Ñ

 

Одним из важнейших этапов построения регрессии является отбор факторов , j=1,..., k, i=1,2,…,n, включаемых в регрессию (3.1). Наибольшее распространение получили следующие методы построения уравнения множественной регрессии: метод исключения, метод включения, шаговый регрессионный анализ. Перечисленные методы дают близкие результаты: отсев факторов из полного их набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый метод).

Наиболее широко используются для решения вопроса об отборе факторов частные коэффициенты корреляции, оценивающие в чистом виде тесноту связи между фактором и результатом.

При включении факторов следует придерживаться правила, согласно которому число включаемых в модель объясняющих переменных должно быть в 5-6 раз меньше объема совокупности, по которой строится регрессия. Иначе число степеней свободы остаточной вариации будет мало, и параметры уравнения регрессии окажутся статистически незначимы.

Иногда при отборе переменных-факторов нарушается предположение (3.5). В этом случае говорят, что объясняющие переменные , j=1,..., k, i=1,2,…,n модели характеризуются свойством полной (строгой) мультиколлинеарности. В этом случае система (3.6) не может быть разрешена относительно неизвестных оценок коэффициентов. Строгая мультиколлинеарность встречается редко, так как ее несложно избежать на предварительной стадии отбора объясняющих переменных.

Реальная (частичная) мультиколлинеарность возникает в случаях достаточно сильных линейных статистических связей между переменными , j=1,..., k, i=1,2,…,n. Точных количественных критериев для проверки наличия мультиколлинеарности не существует, но имеются некоторые практические рекомендации по выявлению мультиколлинеарности.

1. Если среди парных коэффициентов корреляции между объясняющими переменными имеются значения 0,75-0,80 и выше, это свидетельствует о присутствии мультиколлинеарности.

Пример. В примере 2 между переменными K и L коэффициент корреляции равен 0,96, а между lnK и lnL чуть меньше 0,89. Ñ

2. О присутствии явления мультиколлинеарности сигнализируют некоторые внешние признаки построенной модели, являющиеся его следствиями:

- некоторые из оценок , j=1,2,…,k имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине значения,

- небольшое изменение исходной выборки (добавление или изъятие малой порции данных) приводит к существенному изменению оценок коэффициентов модели вплоть до изменения их знаков,

- большинство оценок коэффициентов регрессии оказываются статистически незначимо отличающимися от нуля, в то время как в действительности многие из них имеют отличные от нуля значения, а модель в целом является значимой при проверке с помощью F-критерия.

Методы устранения мультиколлинеарности.

1. Проще всего удалить из модели один или несколько факторов.

2. Другой путь состоит в преобразовании факторов, при котором уменьшается корреляция между ними. Например, при построении регрессий на основе временных рядов помогает переход от первоначальных данных к первым разностям D=Yt-Yt-1. В примере 2 переход от переменных K и L к их логарифмам уменьшил коэффициент корреляции с 0,96 до 0,89.

3. Использование в уравнении регрессии взаимодействия факторов, например, в виде их произведения.

4. Использование так называемой ридж-регрессии (гребневой регрессии). В этом случае к диагональным элементам системы (3.6) добавляется "гребень" t (небольшое число, как правило, от 0,1 до 0,4):

 

Это делает получаемые оценки смещенными, но уменьшает средние квадраты ошибок коэффициентов.

5. Использование метода главных компонент[6].

6. Отбор наиболее существенных объясняющих переменных на основе методов исключения, включения, шаговой регрессии, которые используют для принятия решения F-критерий.