Регрессионные модели с количественными и качественными переменными

Зачастую в регрессионных моделях в качестве объясняющих переменных приходится использовать не только количественные, но и качественные переменные. Например, спрос на некоторое благо может определяться ценой данного блага, ценой на заменители данного блага, ценой дополняющих благ, доходом потребителей и т. д. (эти показатели определяются количественно). Но спрос может также зависеть от вкусов потребителей, их ожиданий, национальных и религиозных особенностей и т. д. А эти показатели представить в численном виде нельзя. Возникает проблема отражения в модели влияния таких переменных на исследуемую величину. Обычно влияние качественного фактора выражается в виде фиктивной переменной, которая отражает два противоположных состояния качественного фактора. Например, "фактор действует" - "фактор не действует", "курс валюты фиксированный" - "курс валюты плавающий", "сезон летний" - "сезон зимний" и т. д. В этом случае фиктивная переменная может выражаться в двоичной форме. Например, D = 0, если потребитель не имеет высшего образования, D = 1, если потребитель имеет высшее образование; D = 0, если в обществе имеются инфляционные ожидания, D = 1, если инфляционных ожиданий нет.

Такая переменная называется фиктивной (искусственной, двоичной) переменной (индикатором).

Следовательно, кроме моделей, содержащих только количественные объясняющие переменные (обозначаемые Xi), в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые Di), либо и те и другие одновременно.

Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA-моделями (моделями дисперсионного анализа).

Например, пусть Y- начальная заработная плата.

 

 

При этом коэффициент βо определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент γ указывает, на какую величину отличаются средние начальные заработные платы при наличии или отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента γ с помощью t-статистики либо значимость коэффициента детерминации R2 с помощью F-статистики, можно определить, влияет или нет нали­чие высшего образования на начальную заработную плату.

Нетрудно заметить, что ANOVA-модели представляют собой кусочно-постоянные функции. Однако такие модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как качественные, так и количественные переменные.


Модели, в которых объясняющие переменные носят как количественный, так и качественный характер, называются ANCOVA-моделями (моделями ковариационного анализа).

Рассмотрим простейшую ANCOVA - модель с одной количественной и одной качественной переменной, имеющей два альтернативных состояния:

Пусть, например, Y — заработная плата сотрудника фирмы, X -стаж сотрудника, D - пол сотрудника, т. е.

 

 

Тогда ожидаемое значение заработной платы сотрудников при х годах трудового стажа будет:

 

 

Заработная плата в данном случае является линейной функцией от стажа работы. Причем и для мужчин и для женщин заработная плата меняется с одним и тем же коэффициентом пропорциональности β1. А вот свободные члены в моделях отличаются на величину γ. Проверив с помощью t-статистики статистические значимости коэффициентов β0 и (β0 + γ), можно определить, имеет ли место в фирме дискриминация по половому признаку. Если эти коэффициенты окажутся статистически значимыми, то, очевидно, дискриминация есть. Более того, при γ > 0 — она будет в пользу мужчин, при γ < 0 - в пользу женщин.

 

 

В данном случае пол сотрудников имеет два альтернативных значения, и в модели это отражается одной фиктивной переменной. Возникает вопрос, нельзя ли с помощью большего числа фиктивных переменных обрисовать более сложные комбинации? Например, пусть

 

 

Но в этой ситуации между переменными D1 и D2 существует строгая линейная зависимость: D2 = 1 – D1 Мы попадаем в ситуацию совершенной мультиколлинеарности, при которой коэффициенты D1 и D2 однозначно определены быть не могут.

Простейшим способом пре одоления данной проблемы является отбрасывание одной из фиктивных переменных. Общее правило можно сформулировать так: Если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k - 1) фиктивных переменных. Иначе при моделировании исследователь попадает в ситуацию совершенной мультиколлинеарности или так называемую ловушку фиктивной переменной.

Значения фиктивной переменной можно изменять на противоположные. Суть модели от этого не изменится. Однако при этом знак коэффициента γ изменится на противоположный.


Значение качественной переменной, для которого принимается D = 0, называется базовым или сравнительным. Выбор базового значения обычно диктуется целями исследования.

Коэффициент γ в модели иногда называется дифференциальным коэффициентом свободного члена, т. к. он показывает, на какую величину отличается свободный член модели при значении фиктивной переменной, равном единице, от свободного члена модели при базовом значении фиктивной переменной.

Естественно, что техника фиктивных переменных может быть распространена на произвольное число качественных факторов. Для простоты рассмотрим ситуацию с двумя качественными переменными. Пусть Y - заработная плата сотрудников фирмы, X — стаж работы, D1— наличие высшего образования, D2 — пол сотрудника,

 

 

Получим следующую модель: Y = β0 + β 1X + γ1D12D2 +е.

Из этой модели получаются 4 регрессионные зависимости: 1) Средняя заработная плата женщины без высшего образования; 2) Средняя заработная плата женщины с высшим образованием; 3) Средняя заработная плата мужчины без высшего образования; 4) Средняя заработная плата мужчины с высшим образованием:

Мы видим, что все регрессии отличаются лишь свободными членами. Коэффициенты регрессии определяются так же, как и ранее. Дальнейшее определение статистической значимости коэффициентовγ1 и γ2 позволяет убедиться, влияют ли образование и пол сотрудника на его заработную плату.

Естественно, что предложенные выше схемы могут быть распространены на ситуации с произвольным числом количественных и качественных факторов. При этом не следует забывать, что если качественный фактор имеет k альтернативных состояний, то для его описания используется (k - 1) фиктивных переменных.

Использование фиктивных переменных в сезонном анализе

Многие экономические показатели напрямую связаны с сезонными колебаниями. Например, спрос на туристические путевки, охлажденную воду и мороженое существенно выше летом, чем зимой. Спрос на обогреватели, шубы выше зимой. Некоторые показатели имеют существенные квартальные колебания и т. д.

Обычно сезонные колебания характерны для временных рядов. Устранение или нейтрализация сезонного фактора в таких моделях позволяет сконцентрироваться на других важных количественных и качественных характеристиках модели, в частности на общем направлении развития модели, так называемом тренде. Такое устранение сезонного фактора называется сезонной корректировкой. Существует несколько методов сезонной корректировки, одним из которых является метод фиктивных переменных.

Пусть переменная Y определяется количественной переменной X, причем эта зависимость существенно разнится по кварталам. Тогда общую модель в этой ситуации можно представить в виде:

 


 

Заметим, что число кварталов равно четырем, а следовательно число фиктивных переменных должно быть равно трем. В нашем примере в качестве базы выбран I квартал. Если значения Y существенно различаются по кварталам (сезонам), то в уравнении (11.19) коэффициенты при фиктивных переменных окажутся статистически значимыми. Тогда ожидаемое значение Y по кварталам определяется следующими соотношениями:

 

 

Легко видеть, что в модели (11.19) рассматриваются такие ситуа­ции, при которых квартальные различия отражаются лишь в различии свободных членов моделей. Если же различия затрагивают и измене­ния коэффициента пропорциональности, то это может быть отражено следующей моделью:

 

 

Выбор правильной формы модели регрессии является в данной ситуации достаточно серьезной проблемой, т. к. в этом случае вполне вероятны ошибки спецификации. Наиболее рациональной практиче­ской стратегией выбора модели является следующая схема.

Вначале рассматривается модель (11.20). Определяется статистическая значимость коэффициентов. Если дифференциальные угловые коэффициенты оказываются статистически незначимыми, то переходят к модели (11.19). Если в этой модели дифференциальные свободные члены оказываются статистически незначимыми, то делают вы­вод, что квартальные (сезонные) изменения несущественны для рассматриваемой зависимости.