Выделим некоторые наиболее характерные признаки мультиколлинеарности.
1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели.
2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответствующей F-статистики).
3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.
Фиктивные переменные
Некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос: влияет ли на ее размер, и если да, то в какой степени, наличие у работника высшего образования? Существует ли дискриминация в оплате труда между мужчинами и женщинами? Введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.
Покажем, как это можно сделать в примере с зарплатой.
Пусть xt = (xt1, . . . , xtk)' – набор объясняющих (независимых) переменных, т. е. первоначальная модель описывается уравнениями
yt = xt1b1+...+xtkbk+ εt, t =1,..., n,(11.1)
где yt– размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, фиктивную, переменную d, полагая dt = 1, если в t-м наблюдении индивидуум имеет высшее образование, и dt = 0 в противном случае, и рассмотрим новую систему:
yt = xt1b1+...+xtkbk+ dtd+ εt=z' t g+ εt , t =1,...,n,(11.2)гдеz = (x1,..., xk, d)' = (x',d)', g = (bl, .., bk, d)'.
Иными словами, принимая модель (11.2), мы считаем, что средняя зарплата есть х'b при отсутствии высшего образования и х'b + d– при его наличии. Таким образом, величина dинтерпретируется как среднее изменение зарплаты при переходе из одной категории (без высшего образования) в другую (с высшим образованием) при неизменных значениях остальных параметров.
Выводы:
1) для исследования влияния качественных признаков в модель можно вводить фиктивные переменные;
2) способ включения фиктивных переменных зависит от априорной информации относительно влияния соответствующих качественных признаков на зависимую переменную и от гипотез, которые проверяются с помощью модели;
3) от способа включения фиктивной переменной зависит и интерпретация оценки коэффициента при ней.