Множественная регрессия

Однофакторные модели не всегда позволяют получить приемлемые результаты, поскольку любое экономическое явление подвержено влиянию значительного числа факторов. Поэтому возникает необходимость использования моделей множественной регрессии. Построение и анализ модели множественной регрессии имеет много общего с рассмотренным ранее эконометрическим моделированием парных зависимостей. Однако есть и специфические особенности. Они связаны с определением числа факторов, которые необходимо включить в модель.

Напомним, что модель множественной линейной регрессии имеет вид:

Y=b0+b1x1+b2x2+…bmxm, (15)

где m - количество независимых переменных.

Одно из важнейших требований при построении модели множественной регрессии – отсутствие тесно взаимосвязанных (коррелирующих) друг с другом объясняющих переменных. Если это условие не выполнено, то параметры регрессии становится невозможно интерпретировать. Так, при отсутствии тесной корреляционной связи между x1 и x2 коэффициент b1 будет показывать изменение результативного признака при изменении x1 на единицу при фиксированном значении всех других факторов. Если же условие о независимости x1 и x2 не выполняется, при изменении x1 на единицу x2 также изменится и общепринятая интерпретация коэффициента b1 потеряет смысл. Коэффициенты корреляции между объясняющими переменными называют коэффициентами корреляции.

Определить наличие корреляции можно при помощи матрицы парных коэффициентов корреляции.

, (16)

где xi, xj - значения i-го и j-го фактора, , - среднеквадратическое отклонение значений i-го и j-го фактора.

(17)

Результаты вычислений удобно представить в виде таблицы:

факторы x1 x2 ... xn
x1 r11 r12 ... r1n
x2 r21 r22 ... r2n
... ... ... ... ...
xn rn1 rn2 ... rnn

Так как rij=rji, можно заполнять только верхнюю правую или нижнюю левую половины таблицы.

Коэффициент корреляции rij изменяется в интервале [-1;1]. При rij=0 связь между изучаемыми факторами отсутствует, а при ôrijô=1 она становится не стохастической, а функциональной, т. к. каждому значению xi соответствует единственное значение xj. Наличие тесной связи между факторами приводит к тому, что определитель матрицы приближается к нулю и коэффициенты регрессии становятся неустойчивыми.

Если ôrijô>0,8, один из изучаемых факторов должен быть исключен. Обычно исключают фактор, который при достаточно сильной связи с результативным признаком не имеет сильной связи с другими факторами. Например, в приведенном ниже примере будет исключен фактор x2, поскольку он сильно коррелирован с фактором x1 и при этом слабее связан с зависимой переменной.

y x1 x2 x3
y      
x1 0.8    
x2 0.5 0.9  
x3 0.3 0.5 0.2

 

Еще одной проблемой, специфической для моделей множественной линейной регрессии, является определение оптимального числа независимых переменных. С одной стороны, добавление новых переменных делает модель точнее. С другой стороны, начиная с некоторого момента введение дополнительной переменной лишь незначительно улучшает результат, в то время как затраты на сбор, обработку и анализ информации возрастают весьма существенно. Поэтому, хотя теоретически на явление влияет множество факторов, в практических расчетах не требуется учитывать их полностью. Достаточно ограничиться наиболее информативными.

Недостатком коэффициента детерминации является то, что введение новых переменных всегда увеличивает его значение, даже если качество регрессионной модели при этом не улучшается.

Кроме того, добавление новой переменной не только увеличивает коэффициент детерминации, но и одновременно снижает число степеней свободы и значимость параметров регрессии. Поэтому для оценка качества модели вместо коэффициента детерминации R2 используют исправленный коэффициент детерминации R2adj :

(18)

В отличие от обычного коэффициента детерминации, исправленный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную.

Именно на основе исправленного коэффициента детерминации можно сделать выбор в пользу той или иной модели, если количество независимых переменных в них неодинаково.

Существуют различные процедуры отбора факторов в модель, многие из которых реализованы в статистических пакетах. Среди них: метод последовательного включения факторов в модель, метод исключения факторов из первоначального набора, пошаговое включение и пошаговое исключение переменных из модели.