Фиктивные переменные множественной регрессии

До сих пор мы рассматривали в качестве факторов количественные признаки (признаки, принимающие числовые значения).

Вместе с тем, может оказаться необходимым включить в модель качественный (атрибутивный) фактор (факторы). Примером качественных признаков может служить пол, образование, климатические условия.

Чтобы ввести такие признаки в модель, они должны быть преобразованы в количественные, т. е. им должны быть присвоены цифровые метки. Сконструированные на основе качественных факторов числовые переменные называют фиктивными переменными.

Рассмотрим применение фиктивных переменных на примере. Пусть по данным о 20 рабочих цеха оценивается регрессия заработной платы рабочего за месяц у ($) от количественного фактора х1 – возраст рабочего (лет) и качественного фактора х2 – пол. Мы предполагаем, что у мужчин зарплата выше, чем у женщин. Введем в модель: фиктивную переменную z, которая принимает 2 значения: 1 — если пол рабочего мужской; 0 — если пол женский.

Построим модель:

(2.3)

Исходные данные приведены в табл. 2.4.

Таблица 2.4

№ наблюдения у – заработная плата рабочего за месяц, $ Х – возраст рабочего, лет Пол, м/ж
ж
м
ж
ж
м
м
ж
м
м
м
ж
м
м
м
ж
м
м
м
ж
м

Для оценки параметров модели (2.3) используем обычный МНК. Построим систему нормальных линейных уравнений:

В результате решения системы получим оценки: ; 4; .

(1,63) (6,14) (0,541);

; ; .

В скобках указаны значения t-критерия.

Результаты анализа регрессии свидетельствуют, что коэффициент при фиктивной переменной незначимо отличается от нуля, т. к.

.

Это можно объяснить малым размером выборки (20 наблюдений). Возможно, если мы рассмотрим регрессию на реальных данных, то результаты будут иными.

Интерпретация параметра с = 10,32 при фиктивной переменной: у мужчин-рабочих зарплата в среднем выше, чему женщин-рабочих при одном и том же возрасте мужчины и женщины на $10,32.

Сравним полученные результаты с результатами оценивания однофакторной модели:

(4,29) (4,104)

; ; .

Из модели, включающей фиктивную переменную, можно вывести частные уравнения регрессии для различных частей полной совокупности. Всю совокупность наблюдений можно разделить на 2 части: одна из них представляет те наблюдения, у которых
z = 1; другая — те наблюдения, у которых z = 0.

В случае нашего примера совокупность рабочих можно разбить на 2 части (по полу) и построить для них частные уравнения регрессии:

а) при z=1 (рабочий – мужчина);

б) при z=0 (рабочий – женщина).

Сопоставляя эти частные уравнения регрессии, видим, что модели, описывающие заработную плату рабочего для мужчин и женщин, различаются значениями свободного члена. В случае а) (рабочий – мужчина) свободный член больше, чем в случае б) (рабочий – женщина). Если изобразить эти уравнения графически в системе координат (x1; у), то данные уравнения будут представлять собой параллельные линии, сдвинутые относительно друг друга по оси ординат. График частного уравнения регрессии для; мужчин будет располагаться выше, чем график частного уравнения регрессии для женщин.

В рассмотренном примере качественный признак принимает только 2 значения. Если же число градаций (значений) качественного фактора больше 2, в модель вводится несколько фиктивных переменных. Их число должно быть на 1 меньше числа градаций качественного фактора. Например, введем в модель регрессии заработной платы рабочего (у) от возраста (х1), качественный фактор – образование, принимающий 3 градации (значения): «до 8 классов»; «среднее»; «специальное». Для придания этому фактору численных значений введем 2 фиктивные переменные z1 и z2. Их возможные значения приведены в табл. 2.5.

Таблица 2.5

Образование z1 z2
до 8 классов
среднее
специальное

 

Модель регрессии будет иметь вид:

'.

В результате оценивания с помощью МНК получим уравнение:

.

Частные уравнения регрессии, соответствующие различным значениям качественного признака «образование»:

• «до 8 классов»: ;

• «среднее»: ;

• «специальное»: .

Значение качественного фактора, для которого все фиктивные переменные равны нулю (z1 = z2 = 0), называют базовым значением.

В нашем примере базовым значением фактора «образование» является образование «до 8 классов».

Параметр при фиктивной переменной z1с1 означает, что при одном и том же возрасте рабочие со средним образованием получают заработную плату на с1 долларов выше по сравнению с рабочими, имеющими образование «до 8 классов».

Параметр при фиктивной переменной z2 – с2 означает, что при одном и том же возрасте рабочие со специальным образованием получают заработную плату на с2 долларов выше по сравнению с рабочими, имеющими образование «до 8 классов».

Графически частные уравнения регрессии представляют собой прямые линии, сдвинутые по оси ординат.