Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев

Приводимая ниже таблица 5.1 содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.):

Y –объем импорта товаров и услуг во Францию;

X₁–валовой национальный продукт;

X₂–потребление семей.

Таблица 5.1

год	Y	X₁	X₂	год	Y	X₁	X₂
	15.9	149.3	4.2		22.7	202.1	2.1
	16.4	161.2	4.1		26.5	212.4	5.6
	19.0	171.5	3.1		28.1	226.1	5.0
	19.1	175.5	3.1		27.6	231.9	5.1
	18.8	180.8	1.1		26.3		0.7
	20.4	190.7	2.2		31.1		5.6

Выберем модель наблюдений в виде

где – значение показателя в i-м наблюдении (i-му наблюдению соответствует год. Будем, как обычно, предполагать что нормально распределенные случайные величины с параметрамии что значение нам не известно. Регрессионный анализ дает следующие результаты: и

Переменная	Коэф-т	Ст. ошибка	t-статист.	P-знач.
	–8.570	2.869	-2.988	0.0153
X₁	0.029	0.110	0.267	0.7953
X₂	0.177	0.166	1.067	0.3136

Обращают на себя внимание выделенные курсивом -значения. В соответствии с ними, проверка каждой отдельной гипотезы , (даже при уровне значимости ) приводит к решению о ее неотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр или признается статистически незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации.

По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы

конкретизирующей значения не какого-то одного, а сразу двух коэффициентов.

И вообще, как проверить гипотезу

(гипотеза значимости регрессии) в рамках нормальной линейной модели множественной регрессии

Соответствующий статистический критерий основывается на так называемой F-статистике

Здесь – остаточная сумма квадратов, получаемая при оценивании полной модели (с объясняющими переменными, включая тождественную единицу), а – остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой ограничениями на параметры. Но последняя (редуцированная) модель имеет вид

и применение к ней метода наименьших квадратов приводит к оценке

так что

Следовательно,

В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты – Mean Squares).

Если нормально распределенные случайные величины с параметрами, то указанная -статистика, рассматриваемая как случайная величина, имеет при гипотезе H₀(т. е. когда действительно α₁=¼= α_m= 0) стандартное распределение , называемое F-распределением Фишера с m и (n-m-1) степенями свободы.

Чем больше отношение , тем больше есть оснований говорить о том, что совокупность переменных действительно помогает в объяснении изменчивости объясняемой переменной .

В соответствии с этим, гипотеза

отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня распределения , обозначаемая символом .

Итак, гипотеза Н₀отвергается, если выполняется неравенство

При этом вероятность ошибочного отвержения гипотезы равна .

Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также значение указанной -статистики и соответствующее ему P-значение (P-value), т. е. вероятность

В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию вычисленное (наблюдаемое) значение -статистики равно , в то время как критическое значение

Соответственно, -значение крайне мало – в распечатке результатов приведено значение . Значит, здесь нет практически никаких оснований принимать составную гипотезу , хотя каждая из частных гипотез

и ,

рассматриваемая сама по себе, в отрыве от второй, не отвергается.

Подобное положение встречается не так уж и редко и связано с проблемой мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание.

Пример 5.5.Анализ данныхоб уровнях безработицы среди белого и цветного населения США приводит к следующим результатам:

, , -значение = , так что при выборе гипотеза не отвергается, а при выборе отвергается.

Пример 5.6. Анализ зависимости спроса на куриные яйца от цены приводит к значениям

, , -значение = , так что гипотеза отвергается, а регрессия признается статистически значимой.

Пример 5.7. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом:

, , -значение = , регрессия признается статистически значимой.

Пример 5.8.Потребление свинины в США в зависимости от оптовых цен:

, , -значение = , так что гипотеза не отвергается даже при выборе .

Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели простой (парной) линейной регрессии (m=1) вычисленные -значения -статистик совпадают с -значениями -статистик, используемых для проверки гипотезы . Факт такого совпадения отнюдь не случаен и может быть доказан с использованием алгебраических преобразований.

Применение критериев, основанных на статистиках, имеющих при нулевой гипотезе -распределение Фишера (F-критерии), отнюдь не ограничивается только что рассмотренным анализом статистической значимости регрессии. Такие критерии широко применяются в процессе подбора модели.

Пусть мы находимся в рамках множественной линейной модели регрессии

c объясняющими переменными, и гипотеза состоит в том, что в модели последние коэффициентов равны нулю, т. е.

Тогда при гипотезе (т. е. в случае, когда она верна) мы имеем редуцированную модель

уже с объясняющими переменными.

Пусть - остаточная сумма квадратов в полной модели , а – остаточная сумма квадратов в редуцированной модели . Если гипотеза верна и выполнены стандартные предположения о модели (в частности, нормально распределенные случайные величины с параметрами ), то тогда F-статистика

рассматриваемая как случайная величина, имеет при гипотезе H₀(т. е. когда действительно α_m = α_m_-₁= ¼= α_m_-q+₁= 0) F-распределение Фишера F (q, n-m-1) с q и (n-m-1) степенями свободы.

F-статистика измеряет, в соответствующем масштабе, возрастание объясненной суммы квадратов вследствие включения в модель дополнительного количества объясняющих переменных.

Естественно считать, что включение дополнительных переменных существенно, если указанное возрастание объясненной суммы квадратов достаточно велико. Это приводит нас к критерию проверки гипотезы

основанному на F-статистике и отвергающему гипотезу , когда наблюдаемое значение этой статистики удовлетворяет неравенству

где – выбранный уровень значимости критерия (вероятность ошибки 1-го рода).

Пример 5.9.В таблице 5.2. приведены данные по США о следующих макроэкономических показателях:

–годовой совокупный располагаемый личный доход;

–годовые совокупные потребительские расходы;

–финансовые активы населения на начало календарного года

(все показатели указаны в млрд. долларов, в ценах 1996 г.).

Таблица 5.2

год C DPI A

1300.5 1433.0 1641.6

1339.4 1494.9 1675.2

1405.9 1551.1 1772.6

1458.3 1601.7 1854.7

1491.8 1668.1 1862.2

1540.3 1730.1 1902.8

1622.3 1797.9 2011.4

1687.9 1914.9 2190.6

1672.4 1894.9 2301.8

1710.8 1930.4 2279.6

1804.0 2001.0 2308.4

Рассмотрим модель наблюдений

где индексу соответствует год. Это модель с 3 объясняющими переменными:

символ обозначает переменную, значения которой запаздывают на одну единицу времени относительно значений переменной, . Оценивание этой модели дает следующие результаты:

— статистика критерия проверки значимости регрессии в целом

Регрессия имеет очень высокую статистическую значимость. Вместе с тем, каждый из коэффициентов при двух последних переменных статистически незначим, так что, в частности, не следует придавать особого значения отрицательности оценок этих коэффициентов.

Используя – критерий, мы могли бы попробовать удалить из модели какую-нибудь одну из двух последних переменных, и если оставшиеся переменные окажутся значимыми, то остановиться на модели с 2 объясняющими переменными; если же и в новой модели окажутся статистически незначимые переменные, то произвести еще одну редукцию модели.

Рассмотрим, в этой связи, модель

с удаленной переменной . Для нее получаем:

F-статистика критерия проверки значимости регрессии в этой модели

Поскольку здесь остается статистически незначимым коэффициент при переменной , можно произвести дальнейшую редукцию, переходя к модели

Для этой модели

-статистика критерия проверки значимости регрессии в этой модели

и эту модель в данном контексте можно принять за окончательную.

С другой стороны, обнаружив при анализе модели (посредством применения t-критериев) статистическую незначимость коэффициентов при двух последних переменных, мы можем попробовать выяснить возможность одновременного исключения из этой модели указанных объясняющих переменных, опираясь на использование соответствующего F-критерия.

Исключение двух последних переменных из модели соответствует гипотезе

при которой модель редуцируется сразу к модели . Критерий проверки гипотезы основывается на статистике

где – остаточная сумма квадратов в модели , – остаточная сумма квадратов в модели , – количество зануляемых параметров, .

Для наших данных получаем значение

которое следует сравнить с критическим значением Поскольку , мы не отвергаем гипотезу и можем сразу перейти от модели к модели .

Замечание. В рассмотренном примере мы действовали двумя способами:

Дважды использовали -критерии, сначала приняв (не отвергнув) гипотезу в рамках модели , а затем приняв гипотезу в рамках модели .

Однократно использовали F-критерий, приняв гипотезу в рамках модели .

Выводы при этих двух альтернативных подходах оказались одинаковыми. Однако, из выбора модели

Переходи и прокачайся на 5+