Проверка гипотез о значимости параметров регрессии, коэффициента корреляции и уравнения регрессии в целом
С помощью метода наименьших квадратов мы получили лишь оценки параметров уравнения регрессии. Чтобы проверить, значимы ли эти параметры (т. е. значимо ли ониотличаются от нуля в «истинном» уравнении регрессе y =b0 + b1∙x + u), используют статистические методы проверки гипотез. С помощью статистических методов проверки гипотез можно также проверить значимость коэффициента парной линейной корреляции (т. е. значимо ли он отличается от нуля в генеральной совокупности).
В качестве основной гипотезы (H0) выдвигают гипотезу о незначимом отличии от нуля «истинного» параметра регрессии или коэффициента корреляции. Альтернативой гипотезой (Н1) при этом является гипотеза обратная, т.е. о неравенстве нулю «истинного» параметра или коэффициента корреляции. Мы заинтересованы в том, чтобы основная гипотеза была отвергнута. Для проверки этой гипотезы; используется t-статистика критерия проверки гипотезы, имеющая распределение Стьюдента.
Найденное по данным наблюдений значение t-статистики (его еще называют наблюдаемым или фактическим) сравнивается с критическим значением t -статистики, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Критическое значение определяется в зависимости от уровня значимости ( ) и числа степеней свободы, которое равно (n – h), n — число наблюдений, h — число оцениваемых параметров в уравнении регрессии. В случае линейной парной регрессии h= 2, а число степеней свободы равно (n – 2). Критическое значение может быть также вычислено на компьютере с помощью встроенной функции СТЬЮДРАСПОБР пакета Ехcеl.
Если фактическое значение t-статистики, взятое по модулю, больше критического, то основную гипотезу отвергают и считают, что с вероятностью ( ) «истинный» параметр регрессии (либо коэффициент корреляции) значимо отличается от нуля.
Если фактическое значение t-статистики (по модулю) меньше критического, то нет оснований отвергать основную гипотезу, т. е. «истинный» параметр регрессии (либо коэффициент корреляции) незначимо отличается от нуля при уровне значимости .
Для проверки гипотезы: b1=0 статистика критерия проверки имеет вид:
где — оценка коэффициента регрессии b1 полученная по наблюдаемым данным;
— стандартная ошибка оценки коэффициента регрессии .
Для линейного парного уравнения регрессий стандартная ошибка коэффициента вычисляется по формуле:
.
Числитель в этой формуле может быть легко рассчитан через коэффициент детерминации и общую дисперсию признака-результата:
.
Для проверки гипотезы: b0=0 статистика критерия проверки гипотезы имеет вид:
,
где — оценка параметра регрессии b0, полученная по наблюдаемым данным;
— стандартная ошибка оценки параметра .
Для линейного парного уравнения регрессии:
.
Для проверки гипотезы о незначимом отличии от нуля «истинного» коэффициента линейной парной корреляции используют статистику критерия:
– оценка коэффициента корреляции, полученная по наблюдаемым данным (выборочный коэффициент корреляции);
– стандартная ошибка выборочного коэффициента корреляции .
Для линейного парного уравнения регрессии:
! |
В парной линейной регрессии между наблюдаемыми значениями статистик критериев существует взаимосвязь: .
Рассмотренная формула статистики критерия проверки гипотезы о незначимом отличии от нуля коэффициента корреляции рекомендуется к применению, если:
1) число наблюдений (n) большое;
2) величина не близка к единице.
Если же величина выборочного коэффициента корреляции по модулю близка к 1, то распределение его оценок отличается от распределения Стьюдента. В данном случае используют подход, предложенный Р. Фишером, а именно, для оценки значимости линейного парного коэффициента корреляции r вводится вспомогательная величина z, связанная c данным коэффициентом следующим отношением:
.
Величину z можно не рассчитывать, а воспользоваться готовыми таблицами z-преобразования, в которых приведены значения z для соответствующих значений .
При изменении от –1 до +1 величина z изменяется от –¥ до +¥, что соответствует нормальному распределению. Математический анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значениях коэффициента корреляции.
Тогда гипотеза о том, что «истинный» коэффициент корреляции незначимо отличается от нуля, сводится к гипотезе о незначимом отличии от нуля величины z. Для проверки данной гипотезы используют статистику критерия: . Стандартная ошибка определяется по формуле:
,
где п — число наблюдений.
Критическое значение t-статистики — tкрнаходят по таблицам стандартного нормального распределения по доверительной вероятности ( ). Основную гипотезу отвергают, если .
Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) илинет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что тоже самое, о равенстве нулю коэффициента детерминации R2=0. Альтернативная ей гипотеза о значимости уравнения – гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации:
Для ее проверки используют F-статистику критерия проверки гипотезы: , где n –число наблюдений; h – число оцениваемых параметров. Данная статистика имеет распределение Фишера-Снедоккора.
По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия в зависимости от уровня значимости (обычно его берут равным 0,05) и двух чисел степеней свободы k1=h – 1 и k2 = n – h.
Сравнивают значение F-критерия, рассчитанное по данным выборки — Fнабл с критическим значением . Если , то гипотезу о незначимости уравнения регрессии не отвергают. Если , то выдвинутую гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии.
! |
В случае линейной парной регрессии существует взаимосвязь между статистиками критериев проверки гипотез: .