Проверка гипотез о значимости параметров регрессии, коэффициента корреляции и уравнения регрессии в целом

С помощью метода наименьших квадратов мы получили лишь оценки параметров уравнения регрессии. Чтобы проверить, значимы ли эти параметры (т. е. значимо ли ониотличаются от нуля в «истинном» уравнении регрессе y =b₀ + b₁∙x + u), используют статистические методы проверки гипотез. С помощью статистических методов проверки гипотез можно также проверить значимость коэффициента парной линейной корреляции (т. е. значимо ли он отличается от нуля в генеральной совокупности).

В качестве основной гипотезы (H₀) выдвигают гипотезу о незначимом отличии от нуля «истинного» параметра регрессии или коэффициента корреляции. Альтернативой гипотезой (Н₁) при этом является гипотеза обратная, т.е. о неравенстве нулю «истинного» параметра или коэффициента корреляции. Мы заинтересованы в том, чтобы основная гипотеза была отвергнута. Для проверки этой гипотезы; используется t-статистика критерия проверки гипотезы, имеющая распределение Стьюдента.

Найденное по данным наблюдений значение t-статистики (его еще называют наблюдаемым или фактическим) сравнивается с критическим значением t -статистики, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Критическое значение определяется в зависимости от уровня значимости ( ) и числа степеней свободы, которое равно (n – h), n — число наблюдений, h — число оцениваемых параметров в уравнении регрессии. В случае линейной парной регрессии h= 2, а число степеней свободы равно (n – 2). Критическое значение может быть также вычислено на компьютере с помощью встроенной функции СТЬЮДРАСПОБР пакета Ехcеl.

Если фактическое значение t-статистики, взятое по модулю, больше критического, то основную гипотезу отвергают и считают, что с вероятностью ( ) «истинный» параметр регрессии (либо коэффициент корреляции) значимо отличается от нуля.

Если фактическое значение t-статистики (по модулю) меньше критического, то нет оснований отвергать основную гипотезу, т. е. «истинный» параметр регрессии (либо коэффициент корреляции) незначимо отличается от нуля при уровне значимости .

Для проверки гипотезы: b₁=0 статистика критерия проверки имеет вид:

где — оценка коэффициента регрессии b₁ полученная по наблюдаемым данным;

— стандартная ошибка оценки коэффициента регрессии .

Для линейного парного уравнения регрессий стандартная ошибка коэффициента вычисляется по формуле:

Числитель в этой формуле может быть легко рассчитан через коэффициент детерминации и общую дисперсию признака-результата:

Для проверки гипотезы: b₀=0 статистика критерия проверки гипотезы имеет вид:

где — оценка параметра регрессии b₀, полученная по наблюдаемым данным;

— стандартная ошибка оценки параметра .

Для линейного парного уравнения регрессии:

Для проверки гипотезы о незначимом отличии от нуля «истинного» коэффициента линейной парной корреляции используют статистику критерия:

– оценка коэффициента корреляции, полученная по наблюдаемым данным (выборочный коэффициент корреляции);

– стандартная ошибка выборочного коэффициента корреляции .

Для линейного парного уравнения регрессии:

В парной линейной регрессии между наблюдаемыми значениями статистик критериев существует взаимосвязь: .

Рассмотренная формула статистики критерия проверки гипотезы о незначимом отличии от нуля коэффициента корреляции рекомендуется к применению, если:

1) число наблюдений (n) большое;

2) величина не близка к единице.

Если же величина выборочного коэффициента корреляции по модулю близка к 1, то распределение его оценок отличается от распределения Стьюдента. В данном случае используют подход, предложенный Р. Фишером, а именно, для оценки значимости линейного парного коэффициента корреляции r вводится вспомогательная величина z, связанная c данным коэффициентом следующим отношением:

Величину z можно не рассчитывать, а воспользоваться готовыми таблицами z-преобразования, в которых приведены значения z для соответствующих значений .

При изменении от –1 до +1 величина z изменяется от –¥ до +¥, что соответствует нормальному распределению. Математический анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значениях коэффициента корреляции.

Тогда гипотеза о том, что «истинный» коэффициент корреляции незначимо отличается от нуля, сводится к гипотезе о незначимом отличии от нуля величины z. Для проверки данной гипотезы используют статистику критерия: .Стандартная ошибка определяется по формуле:

где п — число наблюдений.

Критическое значение t-статистики — t_крнаходят по таблицам стандартного нормального распределения по доверительной вероятности ( ). Основную гипотезу отвергают, если .

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) илинет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что тоже самое, о равенстве нулю коэффициента детерминации R²=0. Альтернативная ей гипотеза о значимости уравнения – гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации:

Для ее проверки используют F-статистику критерия проверки гипотезы: , где n –число наблюдений; h – число оцениваемых параметров. Данная статистика имеет распределение Фишера-Снедоккора.

По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия в зависимости от уровня значимости (обычно его берут равным 0,05) и двух чисел степеней свободы k1=h – 1 и k2 = n – h.

Сравнивают значение F-критерия, рассчитанное по данным выборки — F_набл с критическим значением . Если , то гипотезу о незначимости уравнения регрессии не отвергают. Если , то выдвинутую гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии.

В случае линейной парной регрессии существует взаимосвязь между статистиками критериев проверки гипотез: .