И их статистическая значимость

Помимо определения качества уравнения регрессии в целом, также проводится оценка отдельных его параметров. Так для линейного уравнения парной регрессии параметры, определенные по формуле (1.5), естественно содержат некоторую ошибку, поскольку рассчитываются на основе выборочных данных.

Возможный разброс значений параметров уравнения регрессии характеризуют их доверительные интервалы, в границах которых с определенной вероятностью находятся действительные значения параметров. Доверительные интервалы для параметров (i=1,2) задаются следующим образом:

, (1.9)

где - рассчитанные по МНК оценки параметров.

Уровень значимости a определяет вероятность нахождения фактического значения параметра вне построенного доверительного интервала. Значение a выбирают близким к нулю: 0,1; 0,05; 0,01. Значения и называют соответственно верхней и нижней границами доверительного интервала.

Величина , определяющая длину доверительного интервала, в целом зависит от многих показателей: от объема выборки n (при увеличении n значение естественно уменьшается), от уровня значимости a (при приближении a к нулю увеличивается), от величины стандартной ошибки se регрессии (одновременное увеличение или уменьшение). Наконец, само выражение для зависит как от вида регрессионной зависимости, так и от свойств случайной компоненты e..

Как было указано выше, одна из предпосылок классической линейной модели регрессии МНК основывалась на предположении о нормальном распределении случайных отклонений e. Нетрудно показать, что оценки параметров регрессии, полученные с помощью МНК, также будут нормально распределенными случайными величинами. Это дает возможность записать конкретные выражения для границ доверительных интервалов параметров:

 

, i=0, 1, (1.10)

где tтабл=t(a, n-2) - критическая точка распределения Стьюдента с заданным уровнем значимости a и числом степеней свободы k=n–2. Стандартные ошибки и параметров a0 и a1 определяются по формулам:

(1.11)

Одновременно с построением доверительных интервалов обычно производится проверка статистической значимости параметров уравнения регрессии. При этом выдвигаются нулевые гипотезы о равенстве нулю действительных значений параметров ( , i=1, 2).

Имеет место следующее правило: если рассчитанные границы доверительного интервала имеют разные знаки, т.е. интервал включает в себя нуль, то соответствующий параметр уравнения регрессии незначим. Напротив, если доверительный интервал не содержит нуля, то соответствующий параметр статистически значим.

 

Другой способ проверки статистической значимости параметров регрессии непосредственно не связан с построением доверительных интервалов. Проверка гипотезы осуществляется с помощью критерия Стьюдента. На основе полученных оценок и параметров, а также рассчитанных по формулам (1.11) их стандартных ошибок и находим эмпирические значения t-статистик:

, (1.12)

Далее полученные значения сравниваются с упоминавшемся выше критическим значением tтабл=t(a, n-2). Если расчетное значение превышает по абсолютной величине табличное значение, то нулевая гипотеза отвергается, и соответствующий коэффициент является статистически значимым.

Отметим, что в случае парной линейной регрессии статистическая значимость коэффициента a1 при переменной х определяет статистическую значимость регрессии в целом, т.е существенность влияния переменной х на переменную у.

 

Пример 1.3. По 15 статистическим наблюдениям построено следующее уравнение регрессии . Стандартные ошибки параметров регрессии соответственно равны =2,1, =1,2. Проверить статистическую значимость параметров регрессии при уровне значимости a=0,05.

Решение. Определим значения t-статистики параметров:

.

Табличное значение tтабл=t(a, n-2)=t(0,05;13)=2,16 (см. табл.П.2 приложения). Получим: и . Следовательно, коэффициент a0 не является статистически значимым, а a1 является значимым при заданном уровне.