Фиктивные переменные.

Модели ANCOVA (модели ковариационного анализа).

 

Модели, в которых объясняющие переменные носят как качественный, так и количественный характер называются ANCOVA – модели.

Влияние качественного фактора обычно выражают в виде так называемой фиктивной переменной (или переменных, если таких факторов несколько). Такими факторами могут быть: пол, возрастная группа, сезон, национальность. Фиктивная переменная отражает два противоположных состояния качественного фактора: либо фактор действует, либо не действует D=0 или D=1. Фиктивную переменную иногда называют индикатором.

Рассмотрим простейшую модель с одним индикатором, принимающим два значения:

,

D=0, если сотрудник женщина,

D=1, если сотрудник мужчина,

y – размер заработной платы,

x – стаж работы.

Тогда ожидаемое значение заработной платы сотрудников при стаже х будет выражаться так:

что иллюстрируется рис. 6.1.

а+c

рис. 6.1

Если свободные члены окажутся статистически значимыми, то обнаружится дискриминация по поводу полового признака: c > 0 - в пользу мужчин, c < 0 - в пользу женщин. В рассмотренном примере пол сотрудников имеет два альтернативных значения: женщины или мужчины, и в модели это отражается одной фиктивной переменной.

Что будет, если вместо одной возьмём две фиктивные переменные ?

Между фиктивными переменными D1 и D2 существует строгая функциональная (линейная) зависимость, а именно D2 = 1–D1 или D1 = 1–D2. Видно, что в этом случае имеет место совершенная мультиколлинеарность, следовательно с1 и с2 в модели: однозначно не определяются, и следовательно одну переменную нужно отбросить – это простейший способ борьбы с мультиколлинеарностью.

Существует общее правило: если качественная переменная имеет k альтернативных значений, то в модели следует использовать только (k-1) фиктивных переменных. Если этому правилу не следовать, то исследователь попадает в так называемую ловушку мультиколлинеарности (dummy trap).

Значение качественной переменной для которой D = 0 называется базовым или сравнительным.

Рассмотрим модель при наличии у качественной переменной более двух альтернатив:

, где

у – расходы,

х – доходы.

 

Значения переменных в зависимости от альтернатив показаны в табл. 6.1.

таблица 6.1

  D1 D2
Дошкольник  
Младший школьник  
Старший школьник  

 

 

Образуются следующие зависимости:

Первое уравнение – это средний расход на дошкольника,

второе уравнение – это средний расход на младшего школьника,

третье уравнение – это средний размер расходов на старшего школьника.

Здесь три альтернативы одного качественного признака (возрастная группа) моделируются 3–1=2 фиктивными переменными.

Возможен случай, когда в модель включается более первого признака.

Рассмотрим модель:

у – заработная плата, х– стаж, D1 – пол сотрудника, D2 – наличие высшего образования (в/о).

 

Фиктивные переменные удобно использовать в сезонных моделях.

Пример:

Номер квартала – это качественный признак, имеющий k = 4 альтернативы, следовательно, для его моделирования может потребоваться k – 1 = 4 –– 1 = 3 фиктивных переменных.

 

Значения переменных в зависимости от альтернатив показаны в табл. 6.2.

таблица 6.2

Квартал D1 D2 D3
I II III IV  

I – 000

II – 100

III – 010

IV – 001

 

В этой модели присутствуют ситуации, в которых квартальное различие отражается лишь в различии свободных членов. Если различия затрагивают также изменения коэффициентов пропорциональности, то может быть составлена модель следующего вида:

Вообще говоря, вначале целесообразно рассмотреть эту модель (**) и, если коэффициенты f1, f2, f3 окажутся статистически незначимыми, то можно перейти к упрощённой модели (*).