Фиктивные переменные.
Модели ANCOVA (модели ковариационного анализа).
Модели, в которых объясняющие переменные носят как качественный, так и количественный характер называются ANCOVA – модели.
Влияние качественного фактора обычно выражают в виде так называемой фиктивной переменной (или переменных, если таких факторов несколько). Такими факторами могут быть: пол, возрастная группа, сезон, национальность. Фиктивная переменная отражает два противоположных состояния качественного фактора: либо фактор действует, либо не действует D=0 или D=1. Фиктивную переменную иногда называют индикатором.
Рассмотрим простейшую модель с одним индикатором, принимающим два значения:
,
D=0, если сотрудник женщина,
D=1, если сотрудник мужчина,
y – размер заработной платы,
x – стаж работы.
Тогда ожидаемое значение заработной платы сотрудников при стаже х будет выражаться так:
что иллюстрируется рис. 6.1.
|
рис. 6.1
Если свободные члены окажутся статистически значимыми, то обнаружится дискриминация по поводу полового признака: c > 0 - в пользу мужчин, c < 0 - в пользу женщин. В рассмотренном примере пол сотрудников имеет два альтернативных значения: женщины или мужчины, и в модели это отражается одной фиктивной переменной.
Что будет, если вместо одной возьмём две фиктивные переменные ?
Между фиктивными переменными D1 и D2 существует строгая функциональная (линейная) зависимость, а именно D2 = 1–D1 или D1 = 1–D2. Видно, что в этом случае имеет место совершенная мультиколлинеарность, следовательно с1 и с2 в модели: однозначно не определяются, и следовательно одну переменную нужно отбросить – это простейший способ борьбы с мультиколлинеарностью.
Существует общее правило: если качественная переменная имеет k альтернативных значений, то в модели следует использовать только (k-1) фиктивных переменных. Если этому правилу не следовать, то исследователь попадает в так называемую ловушку мультиколлинеарности (dummy trap).
Значение качественной переменной для которой D = 0 называется базовым или сравнительным.
Рассмотрим модель при наличии у качественной переменной более двух альтернатив:
, где
у – расходы,
х – доходы.
Значения переменных в зависимости от альтернатив показаны в табл. 6.1.
таблица 6.1
D1 | D2 | |
Дошкольник | ||
Младший школьник | ||
Старший школьник |
Образуются следующие зависимости:
Первое уравнение – это средний расход на дошкольника,
второе уравнение – это средний расход на младшего школьника,
третье уравнение – это средний размер расходов на старшего школьника.
Здесь три альтернативы одного качественного признака (возрастная группа) моделируются 3–1=2 фиктивными переменными.
Возможен случай, когда в модель включается более первого признака.
Рассмотрим модель:
у – заработная плата, х– стаж, D1 – пол сотрудника, D2 – наличие высшего образования (в/о).
Фиктивные переменные удобно использовать в сезонных моделях.
Пример:
Номер квартала – это качественный признак, имеющий k = 4 альтернативы, следовательно, для его моделирования может потребоваться k – 1 = 4 –– 1 = 3 фиктивных переменных.
Значения переменных в зависимости от альтернатив показаны в табл. 6.2.
таблица 6.2
Квартал | D1 | D2 | D3 |
I II III IV |
I – 000
II – 100
III – 010
IV – 001
В этой модели присутствуют ситуации, в которых квартальное различие отражается лишь в различии свободных членов. Если различия затрагивают также изменения коэффициентов пропорциональности, то может быть составлена модель следующего вида:
Вообще говоря, вначале целесообразно рассмотреть эту модель (**) и, если коэффициенты f1, f2, f3 окажутся статистически незначимыми, то можно перейти к упрощённой модели (*).