Фиктивные переменные множественной регрессии
До сих пор мы рассматривали в качестве факторов количественные признаки (признаки, принимающие числовые значения).
Вместе с тем, может оказаться необходимым включить в модель качественный (атрибутивный) фактор (факторы). Примером качественных признаков может служить пол, образование, климатические условия.
Чтобы ввести такие признаки в модель, они должны быть преобразованы в количественные, т. е. им должны быть присвоены цифровые метки. Сконструированные на основе качественных факторов числовые переменные называют фиктивными переменными.
Рассмотрим применение фиктивных переменных на примере. Пусть по данным о 20 рабочих цеха оценивается регрессия заработной платы рабочего за месяц у ($) от количественного фактора х1 – возраст рабочего (лет) и качественного фактора х2 – пол. Мы предполагаем, что у мужчин зарплата выше, чем у женщин. Введем в модель: фиктивную переменную z, которая принимает 2 значения: 1 — если пол рабочего мужской; 0 — если пол женский.
Построим модель:
(2.3)
Исходные данные приведены в табл. 2.4.
Таблица 2.4
№ наблюдения | у – заработная плата рабочего за месяц, $ | Х – возраст рабочего, лет | Пол, м/ж |
ж | |||
м | |||
ж | |||
ж | |||
м | |||
м | |||
ж | |||
м | |||
м | |||
м | |||
ж | |||
м | |||
м | |||
м | |||
ж | |||
м | |||
м | |||
м | |||
ж | |||
м |
Для оценки параметров модели (2.3) используем обычный МНК. Построим систему нормальных линейных уравнений:
В результате решения системы получим оценки: ; 4; .
(1,63) (6,14) (0,541);
; ; .
В скобках указаны значения t-критерия.
Результаты анализа регрессии свидетельствуют, что коэффициент при фиктивной переменной незначимо отличается от нуля, т. к.
.
Это можно объяснить малым размером выборки (20 наблюдений). Возможно, если мы рассмотрим регрессию на реальных данных, то результаты будут иными.
Интерпретация параметра с = 10,32 при фиктивной переменной: у мужчин-рабочих зарплата в среднем выше, чему женщин-рабочих при одном и том же возрасте мужчины и женщины на $10,32.
Сравним полученные результаты с результатами оценивания однофакторной модели:
(4,29) (4,104)
; ; .
Из модели, включающей фиктивную переменную, можно вывести частные уравнения регрессии для различных частей полной совокупности. Всю совокупность наблюдений можно разделить на 2 части: одна из них представляет те наблюдения, у которых
z = 1; другая — те наблюдения, у которых z = 0.
В случае нашего примера совокупность рабочих можно разбить на 2 части (по полу) и построить для них частные уравнения регрессии:
а) при z=1 (рабочий – мужчина);
б) при z=0 (рабочий – женщина).
Сопоставляя эти частные уравнения регрессии, видим, что модели, описывающие заработную плату рабочего для мужчин и женщин, различаются значениями свободного члена. В случае а) (рабочий – мужчина) свободный член больше, чем в случае б) (рабочий – женщина). Если изобразить эти уравнения графически в системе координат (x1; у), то данные уравнения будут представлять собой параллельные линии, сдвинутые относительно друг друга по оси ординат. График частного уравнения регрессии для; мужчин будет располагаться выше, чем график частного уравнения регрессии для женщин.
В рассмотренном примере качественный признак принимает только 2 значения. Если же число градаций (значений) качественного фактора больше 2, в модель вводится несколько фиктивных переменных. Их число должно быть на 1 меньше числа градаций качественного фактора. Например, введем в модель регрессии заработной платы рабочего (у) от возраста (х1), качественный фактор – образование, принимающий 3 градации (значения): «до 8 классов»; «среднее»; «специальное». Для придания этому фактору численных значений введем 2 фиктивные переменные z1 и z2. Их возможные значения приведены в табл. 2.5.
Таблица 2.5
Образование | z1 | z2 |
до 8 классов | ||
среднее | ||
специальное |
Модель регрессии будет иметь вид:
'.
В результате оценивания с помощью МНК получим уравнение:
.
Частные уравнения регрессии, соответствующие различным значениям качественного признака «образование»:
• «до 8 классов»: ;
• «среднее»: ;
• «специальное»: .
Значение качественного фактора, для которого все фиктивные переменные равны нулю (z1 = z2 = 0), называют базовым значением.
В нашем примере базовым значением фактора «образование» является образование «до 8 классов».
Параметр при фиктивной переменной z1 – с1 означает, что при одном и том же возрасте рабочие со средним образованием получают заработную плату на с1 долларов выше по сравнению с рабочими, имеющими образование «до 8 классов».
Параметр при фиктивной переменной z2 – с2 означает, что при одном и том же возрасте рабочие со специальным образованием получают заработную плату на с2 долларов выше по сравнению с рабочими, имеющими образование «до 8 классов».
Графически частные уравнения регрессии представляют собой прямые линии, сдвинутые по оси ординат.