Множественная линейная регрессия

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Но существует обычно несколько факторов, которые оказывают существенное влияние (например, на потребление того или иного товара влияют такие факторы, как цена товара, размер семьи, её состав, доход и т.д.). В этом случае следует попытаться выявить влияние этих факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлениями о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

- Факторы должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность. Например, если анализируется спрос на мороженое летом и зимой, то фактор сезонности можно учесть бинарной переменной, принимающей значения 1 и 0. Аналогичным образом учитывается наличие балкона, этаж, тип здания (кирпичный или блочный дом) на рынке недвижимости и т. п.

- Факторы не должны быть коррелированы и, тем более, находиться в строгой функциональной зависимости.

В случае учета влияния нескольких факторов линейная зависимость величины y от m переменных x1, x2,…, xm примет вид:

y=q1x1+ q2x2+…+ qmxm , (5.1)

где q= (q1, q2,…, qm) — вектор параметров функции регрессии.

Конкретные значения независимых переменных будем отмечать двумя индексами: xi1, xi2, … , xim, (i = 1,2,…,n). Тогда можно записать уравнения

(5.2)

где m — число рассматриваемых факторов. В матричном виде имеем формулу

y=Xq+e , (5.3)

где

Аналогичная модель получается, если зависимость величины y от одной переменной x имеет вид

(5.4)

в частности, это может быть

- квадратичная функция: y=a+bx+cx2 ,

- полином третьей степени: y=a+bx+cx2 +dx3 ,

- тригонометрический полином: y=q1 sinx+q2 sin2x+…+qm sin mx

и др.

Для конкретных значений xi имеем

(5.5)

i=1,2,…,n. Обозначение xik=fk(xi) сводит формулу (5.5) к формуле (5.2).

Для определения коэффициентов qk в формулах (5.2) или (5.5) воспользуемся методом наименьших квадратов:

Необходимое условие экстремума функции F=F (q1,q2,…,qт)

дает систему уравнений

Переставляя порядок суммирования, получим систему

В матричной форме система уравнений относительно неизвестных значений переменной qk имеет вид

XTXq=XTy. (5.6)

Полагая, что матрица XTX неособенная, получим решение системы

q=( XTX)-1XTy . (5.7)

В случае парной регрессии вектор параметров q имеет вид

переменную x1 следует принять равной 1, а переменную x2=x; тогда матрица X принимает вид

Произведение матриц

(5.8)

представляет собой матрицу коэффициентов системы (4.4), а свободный член в формуле (5.6)

совпадает со свободными членами уравнений (4.4).

Точно также в случае множественной линейной регрессии для уравнения y=q0+q1x1+q2x2 первый столбец матрицы X состоит из единиц, второй столбец — из заданных значений переменной x1, а третий — из значений x2:

Вектор параметров принимает вид

На практике все рассмотренные выше регрессионные задачи удобно решать, используя готовые компьютерные программы из пакетов MS Excel, Statistica и др. В частности, функция ЛИНЕЙН из Excel позволяет оценить параметры парной линейной регрессии a и b. Не останавливаясь на методике работы в Excel с функцией ЛИНЕЙН (ее описание можно найти, например, в книге [7]), отметим только, что результаты вычислений представляются таблицей:

Значение параметра b Значение параметра a
Стандартное отклонение Sb Стандартное отклонение Sa
Коэффициент детерминации R2 Стандартное отклонение S
F-статистика Число степеней свободы n-2
Регрессионная сумма квадратов RSS Остаточная сумма квадратов ESS

 

В следующих параграфах мы разъясним смысл величин, приведенных в таблице. Начнем с коэффициента детерминации.