Обнаружение гетероскедастичности.
Не существует какого-либо однозначного метода определения гетероскедастичности. При этом разработано большое число различных тестов и критериев. Рассмотрим наиболее популярные из них.
3.1. Тест ранговой корреляции Спирмена. Выдвигается Ho об отсутствии гетероскедастичности случайного члена. Предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения Х, и поэтому в регрессии по МНК абсолютные величины остатков и значения Х будут коррелированны. Схема теста:
1) данные по Х и остатки ранжируются по Х и определяются их ранги;
2) коэффициент ранговой корреляции Спирмена определяется по формуле
, где Di - разность между рангами Х и ;
3) Статистический критерий имеет распределение Стьюдента, т.к. .
Если , H0 об отсутствии гетероскедастичности будет отклонена.
Если в модели регрессии имеется более одной объясняющей переменной, то проверка гипотезы может выполняться с использованием любой из них.
Пример.Исследуется зависимость между доходом (Х) домохозяйства и его расходом (Y) на продукты питания. Выборочные данные по 40 домохозяйствам даны в таблице.
x | 25,5 | 26,5 | 27,2 | 29,6 | 35,7 | 38,6 | 39,3 | 41,9 | ||
y | 14,5 | 11,3 | 14,7 | 10,2 | 13,5 | 9,9 | 12,4 | 8,6 | 10,3 | 13,9 |
x | 42,5 | 44,2 | 44,8 | 45,5 | 45,5 | 48,3 | 49,5 | 52,3 | 55,7 | |
y | 14,9 | 11,6 | 21,5 | 10,8 | 13,8 | 18,2 | 19,1 | 16,3 | 17,5 |
x | 61,7 | 62,5 | 64,7 | 69,7 | 71,2 | 73,8 | 74,7 | 75,8 | 76,9 | |
y | 10,9 | 16,1 | 10,5 | 10,6 | 8,2 | 14,3 | 21,8 | 26,1 |
x | 79,2 | 81,5 | 82,4 | 82,8 | 85,9 | 86,4 | 86,9 | 88,3 | ||
y | 19,8 | 21,2 | 17,3 | 23,5 | 18,3 | 13,7 | 14,5 | 27,3 |
Решение
1. Строим уравнение регрессии и определяем остатки.
ВЫВОД ИТОГОВ | ||||||||||
Регрессионная статистика | ||||||||||
Множественный R | 0,564649 | |||||||||
R-квадрат | 0,318828 | |||||||||
Нормированный R-квадрат | 0,300903 | |||||||||
Стандартная ошибка | 4,672041 | |||||||||
Наблюдения | ||||||||||
Дисперсионный анализ | ||||||||||
df | SS | MS | F | Значимость F | ||||||
Регрессия | 388,2371 | 388,2371 | 17,786 | 0,0001 | ||||||
Остаток | 829,4627 | 21,82796 | ||||||||
Итого | 1217,7 | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |||
Y-пересечение | 7,040019 | 2,322793 | 3,030842 | 0,0044 | 2,3378 | 11,742 | 2,3378 | 11,74 | ||
х | 0,156883 | 0,037199 | 4,217372 | 0,0001 | 0,0816 | 0,2322 | 0,0816 | 0,232 | ||
ВЫВОД ОСТАТКА | |||
Наблюдение | Предсказанное у | Остатки | |
11,04054 | 3,459461 | ||
11,19742 | 0,102578 | ||
11,30724 | 3,39276 | ||
11,68376 | -1,48376 | ||
12,64075 | 0,859253 | ||
13,09571 | -3,19571 | ||
13,15846 | -0,75846 | ||
13,20553 | -4,60553 | ||
13,31534 | -3,01534 | ||
13,61342 | 0,286578 | ||
13,70755 | 1,192448 | ||
13,97425 | -2,37425 | ||
14,06838 | 7,431617 | ||
14,1782 | -3,3782 | ||
14,1782 | -0,3782 | ||
14,61747 | 1,382526 | ||
14,80573 | 3,394266 | ||
15,24501 | 3,854994 | ||
15,77841 | 0,521591 | ||
16,29612 | 1,203877 | ||
16,60989 | -5,70989 | ||
16,71971 | -0,61971 | ||
16,84521 | -6,34521 | ||
17,19036 | -6,59036 | ||
17,97477 | 11,02523 | ||
18,2101 | -10,0101 | ||
18,61799 | -4,31799 | ||
18,75919 | 3,040812 | ||
18,93176 | 7,16824 | ||
19,10433 | 0,895669 | ||
19,46516 | 0,334838 | ||
19,82599 | 1,374006 | ||
19,96719 | 9,032812 | ||
20,02994 | -2,72994 | ||
20,06132 | 3,438682 | ||
20,51628 | 1,483721 | ||
20,59472 | -2,29472 | ||
20,67316 | -6,97316 | ||
20,8928 | -6,3928 | ||
21,00262 | 6,297383 |
2. Значения хi уже упорядочены по возрастанию, поэтому определяем ранги хi и ранги соответствующих остатков.
х | ABS(e) | ранг х | ранг е | D |
25,5 | 3,459461 | -25 | ||
26,5 | 0,102578 | |||
27,2 | 3,39276 | -20 | ||
29,6 | 1,48376 | -11 | ||
35,7 | 0,859253 | -3 | ||
38,6 | 3,195708 | -15 | ||
0,758461 | ||||
39,3 | 4,605526 | -21 | ||
3,015344 | -10 | |||
41,9 | 0,286578 | |||
42,5 | 1,192448 | |||
44,2 | 2,374253 | -5 | ||
44,8 | 7,431617 | -24 | ||
45,5 | 3,378201 | -8 | ||
45,5 | 0,378201 | |||
48,3 | 1,382526 | |||
49,5 | 3,394266 | -7 | ||
52,3 | 3,854994 | -9 | ||
55,7 | 0,521591 | |||
1,203877 | ||||
5,70989 | -9 | |||
61,7 | 0,619708 | |||
62,5 | 6,345214 | -9 | ||
64,7 | 6,590357 | -10 | ||
69,7 | 11,02523 | -15 | ||
71,2 | 10,0101 | -13 | ||
73,8 | 4,317994 | -1 | ||
74,7 | 3,040812 | |||
75,8 | 7,16824 | -7 | ||
76,9 | 0,895669 | |||
79,2 | 0,334838 | |||
81,5 | 1,374006 | |||
82,4 | 9,032812 | -5 | ||
82,8 | 2,729942 | |||
3,438682 | ||||
85,9 | 1,483721 | |||
86,4 | 2,294721 | |||
86,9 | 6,973162 | |||
88,3 | 6,392799 | |||
6,297383 |
3. Определяем коэффициент корреляции Спирмена и t-статистику
4. Т.к. tкр(0,05;38)=2,021 < , то гетероскедастичность доказана.
3.2. Метод Голдфелда-Квандта. При проведении проверки по этому тесту предполагается, что стандартное отклонение случайного члена пропорционально значению независимой переменной Х. Схема теста:
1) все n наблюдений упорядочиваются по возрастанию переменной Х;
2) оцениваются отдельные регрессии для первых m и для последних m наблюдений. Средние (n-2m) наблюдений отбрасываются ();
3) составляется статистика , где S1, S2 – суммы квадратов остатков для первых и последних наблюдений;
4) Если , Ho об отсутствии гетероскедастичности отклоняется (если обратно пропорционально Х, то ).
Пример. Воспользуемся условием предыдущего примера и определим наличие гетероскедастичности остатков с помощью теста Голдфелда-Квандта.
Решение.
1) Упорядоченные по возрастанию х данные хi и уi разбиваются на три приблизительно равные части. Для первой и последней строятся уравнения регрессии и рассчитывается F-статистика.
1-я часть 2-я часть
х | у | x | y | |
25,5 | 14,5 | 73,8 | 14,3 | |
26,5 | 11,3 | 74,7 | 21,8 | |
27,2 | 14,7 | 75,8 | 26,1 | |
29,6 | 10,2 | 76,9 | ||
35,7 | 13,5 | 79,2 | 19,8 | |
38,6 | 9,9 | 81,5 | 21,2 | |
12,4 | 82,4 | |||
39,3 | 8,6 | 82,8 | 17,3 | |
10,3 | 23,5 | |||
41,9 | 13,9 | 85,9 | ||
42,5 | 14,9 | 86,4 | 18,3 | |
44,2 | 11,6 | 86,9 | 13,7 | |
44,8 | 21,5 | 88,3 | 14,5 | |
45,5 | 10,8 | 27,3 | ||
ВЫВОД ИТОГОВ | ||||||||||||||||||||||||||||
Регрессионная статистика | ||||||||||||||||||||||||||||
Множественный R | 0,11 | |||||||||||||||||||||||||||
R-квадрат | 0,012 | |||||||||||||||||||||||||||
Нормированный R-квадрат | -0,07 | |||||||||||||||||||||||||||
Стандартная ошибка | 3,335 | |||||||||||||||||||||||||||
Наблюдения | ||||||||||||||||||||||||||||
Дисперсионный анализ | ||||||||||||||||||||||||||||
df | SS | MS | F | Значимость F | ||||||||||||||||||||||||
Регрессия | 1,6285 | 1,628 | 0,146 | 0,7087 | ||||||||||||||||||||||||
Остаток | 133,5 | 11,12 | ||||||||||||||||||||||||||
Итого | 135,12 | |||||||||||||||||||||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |||||||||||||||||||||
Y-пересечение | 10,87 | 4,926 | 2,206 | 0,048 | 0,1351 | 21,6 | 0,135078 | 21,60065 | ||||||||||||||||||||
х | 0,05 | 0,1304 | 0,383 | 0,709 | -0,234 | 0,334 | -0,23415 | 0,3339 | ||||||||||||||||||||
ВЫВОД ИТОГОВ | ||||||||||||||||||||
Регрессионная статистика | ||||||||||||||||||||
Множественный R | 0,039 | |||||||||||||||||||
R-квадрат | 0,002 | |||||||||||||||||||
Нормированный R-квадрат | -0,082 | |||||||||||||||||||
Стандартная ошибка | 4,992 | |||||||||||||||||||
Наблюдения | ||||||||||||||||||||
Дисперсионный анализ | ||||||||||||||||||||
df | SS | MS | F | Значимость F | ||||||||||||||||
Регрессия | 0,4598 | 0,46 | 0,018 | 0,8942 | ||||||||||||||||
Остаток | 299,09 | 24,92 | ||||||||||||||||||
Итого | 299,55 | |||||||||||||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |||||||||||||
Y-пересечение | 23,63 | 22,15 | 1,067 | 0,307 | -24,63 | 71,89 | -24,6287 | 71,89183 | ||||||||||||
x | -0,037 | 0,27 | -0,136 | 0,894 | -0,625 | 0,552 | -0,62485 | 0,551522 | ||||||||||||
2) Т.к. , то нет оснований отвергать Н0 об отсутствии гетероскедастичности.
3.3. Тест Глейзера. Тест Глейзера основывается на более общих представлениях о зависимости стандартной ошибки случайного члена от значений объясняющей переменной. Предположение о пропорциональности и Х снимаем и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например, . Чтобы использовать этот метод:
1) оценивают регрессию Y по Х и вычисляют – абсолютные значения остатков;
2) оценивают регрессию по для нескольких значений : ;
3) если Н0: b = 0 отклоняется (т.е. b значим), то гипотеза об отсутствии гетероскедастичности будет отклонена.
Если при оценивании более чем одной функции получается значимая оценка b, то ориентиром при определении характера гетероскедастичности может служить лучшая из них.
Пример. Воспользуемся расчетами предыдущего примера и проверим наличие гетероскедастичности с помощью теста Глейзера.
Решение
1) Рассчитаем уравнения регрессии еi от при .
х | ABS(e) | x^(-1) | x^(-0,5) | x^0,5 | x^1,5 |
25,5 | 3,459461 | 0,039216 | 0,19803 | 5,049752 | 128,7687 |
26,5 | 0,102578 | 0,037736 | 0,194257 | 5,147815 | 136,4171 |
27,2 | 3,39276 | 0,036765 | 0,191741 | 5,215362 | 141,8578 |
29,6 | 1,48376 | 0,033784 | 0,183804 | 5,440588 | 161,0414 |
35,7 | 0,859253 | 0,028011 | 0,167365 | 5,974948 | 213,3056 |
38,6 | 3,195708 | 0,025907 | 0,160956 | 6,21289 | 239,8175 |
0,758461 | 0,025641 | 0,160128 | 6,244998 | 243,5549 | |
39,3 | 4,605526 | 0,025445 | 0,159516 | 6,268971 | 246,3706 |
3,015344 | 0,025 | 0,158114 | 6,324555 | 252,9822 | |
41,9 | 0,286578 | 0,023866 | 0,154487 | 6,473021 | 271,2196 |
42,5 | 1,192448 | 0,023529 | 0,153393 | 6,519202 | 277,0661 |
44,2 | 2,374253 | 0,022624 | 0,150414 | 6,648308 | 293,8552 |
44,8 | 7,431617 | 0,022321 | 0,149404 | 6,69328 | 299,859 |
45,5 | 3,378201 | 0,021978 | 0,14825 | 6,745369 | 306,9143 |
45,5 | 0,378201 | 0,021978 | 0,14825 | 6,745369 | 306,9143 |
48,3 | 1,382526 | 0,020704 | 0,143889 | 6,94982 | 335,6763 |
49,5 | 3,394266 | 0,020202 | 0,142134 | 7,035624 | 348,2634 |
52,3 | 3,854994 | 0,01912 | 0,138277 | 7,231874 | 378,227 |
55,7 | 0,521591 | 0,017953 | 0,13399 | 7,463243 | 415,7026 |
1,203877 | 0,016949 | 0,130189 | 7,681146 | 453,1876 | |
5,70989 | 0,016393 | 0,128037 | 7,81025 | 476,4252 | |
61,7 | 0,619708 | 0,016207 | 0,127309 | 7,854935 | 484,6495 |
62,5 | 6,345214 | 0,016 | 0,126491 | 7,905694 | 494,1059 |
64,7 | 6,590357 | 0,015456 | 0,124322 | 8,043631 | 520,4229 |
69,7 | 11,02523 | 0,014347 | 0,11978 | 8,348653 | 581,9011 |
71,2 | 10,0101 | 0,014045 | 0,118511 | 8,438009 | 600,7863 |
73,8 | 4,317994 | 0,01355 | 0,116405 | 8,590693 | 633,9931 |
74,7 | 3,040812 | 0,013387 | 0,115702 | 8,642916 | 645,6258 |
75,8 | 7,16824 | 0,013193 | 0,114859 | 8,70632 | 659,939 |
76,9 | 0,895669 | 0,013004 | 0,114035 | 8,769265 | 674,3564 |
79,2 | 0,334838 | 0,012626 | 0,112367 | 8,899438 | 704,8355 |
81,5 | 1,374006 | 0,01227 | 0,11077 | 9,027735 | 735,7604 |
82,4 | 9,032812 | 0,012136 | 0,110163 | 9,077445 | 747,9814 |
82,8 | 2,729942 | 0,012077 | 0,109897 | 9,099451 | 753,4345 |
3,438682 | 0,012048 | 0,109764 | 9,110434 | 756,166 | |
85,9 | 1,483721 | 0,011641 | 0,107896 | 9,268225 | 796,1406 |
86,4 | 2,294721 | 0,011574 | 0,107583 | 9,29516 | 803,1018 |
86,9 | 6,973162 | 0,011507 | 0,107273 | 9,322017 | 810,0833 |
88,3 | 6,392799 | 0,011325 | 0,106419 | 9,396808 | 829,7381 |
6,297383 | 0,011236 | 0,106 | 9,433981 | 839,6243 |
ВЫВОД ИТОГОВ | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,347879 | |||||
R-квадрат | 0,12102 | |||||
Нормированный R-квадрат | 0,097889 | |||||
Стандартная ошибка | 2,732943 | |||||
Наблюдения | ||||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 39,07716 | 39,07716 | 5,23193 | 0,027833 | ||
Остаток | 283,8211 | 7,468976 | ||||
Итого | 322,8983 | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 8,7119 | 2,294002 | 3,797686 | 0,000512 | 4,067936 | 13,35586 |
x^(-0,5) | -37,7515 | 16,50452 | -2,28734 | 0,027833 | -71,1631 | -4,33981 |
ВЫВОД ИТОГОВ | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,35414 | |||||
R-квадрат | 0,125415 | |||||
Нормированный R-квадрат | 0,1024 | |||||
Стандартная ошибка | 2,726101 | |||||
Наблюдения | ||||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 40,49641 | 40,49641 | 5,449198 | 0,024963 | ||
Остаток | 282,4019 | 7,431628 | ||||
Итого | 322,8983 | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | -2,15816 | 2,486641 | -0,8679 | 0,390897 | -7,1921 | 2,875785 |
x^0,5 | 0,754429 | 0,323186 | 2,334352 | 0,024963 | 0,100174 | 1,408685 |
ВЫВОД ИТОГОВ | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,351385 | |||||
R-квадрат | 0,123472 | |||||
Нормированный R-квадрат | 0,100405 | |||||
Стандартная ошибка | 2,729129 | |||||
Наблюдения | ||||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 39,8688 | 39,8688 | 5,35285 | 0,026194 | ||
Остаток | 283,0295 | 7,448144 | ||||
Итого | 322,8983 | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 0,58244 | 1,356838 | 0,429263 | 0,670156 | -2,16433 | 3,329215 |
х | 0,050274 | 0,02173 | 2,313623 | 0,026194 | 0,006285 | 0,094263 |
ВЫВОД ИТОГОВ | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,345728 | |||||
R-квадрат | 0,119528 | |||||
Нормированный R-квадрат | 0,096358 | |||||
Стандартная ошибка | 2,735261 | |||||
Наблюдения | ||||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 38,59537 | 38,59537 | 5,158668 | 0,02888 | ||
Остаток | 284,3029 | 7,481655 | ||||
Итого | 322,8983 | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 1,504832 | 1,002367 | 1,501278 | 0,141548 | -0,52435 | 3,534019 |
x^1,5 | 0,004324 | 0,001904 | 2,27127 | 0,02888 | 0,00047 | 0,008178 |
ВЫВОД ИТОГОВ | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,338157 | |||||
R-квадрат | 0,11435 | |||||
Нормированный R-квадрат | 0,091044 | |||||
Стандартная ошибка | 2,743292 | |||||
Наблюдения | ||||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 36,92349 | 36,92349 | 4,906351 | 0,032827 | ||
Остаток | 285,9748 | 7,525652 | ||||
Итого | 322,8983 | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 5,973455 | 1,173304 | 5,091141 | 9,98E-06 | 3,598226 | 8,348684 |
x^(-1) | -124,996 | 56,43102 | -2,21503 | 0,032827 | -239,235 | -10,7577 |
2) Т.к. коэффициент b статистически значим во всех уравнениях, то гетероскедастичность доказана. Наилучший коэффициент детерминации (R2 = 0,1254) при , поэтому примем зависимость: (см. далее).
3.4. Тест Парка.Тест относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функцией . Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t-критерию Стьюдента. Если коэффициент регрессии окажется статистически значимым, то, следовательно, имеет место гетероскедастичность.
Пример. По данным предыдущего примера построим регрессию .
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,343033 | ||||||
R-квадрат | 0,117672 | ||||||
Нормированный R-квадрат | 0,094453 | ||||||
Стандартная ошибка | 2,097694 | ||||||
Наблюдения | |||||||
Дисперсионный анализ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 22,30024 | 22,30024 | 5,067869 | 0,030238 | |||
Остаток | 167,2121 | 4,400319 | |||||
Итого | 189,5124 | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | ||
Y-пересечение | -6,49359 | 3,634358 | -1,78672 | 0,081962 | -13,851 | 0,863782 | |
lnx | 2,027965 | 0,90084 | 2,251193 | 0,030238 | 0,204309 | 3,851621 |
Так как коэффициент регрессии статистически значим, то гетероскедастичность доказана.
3.5. Тест Уайта. Предполагается, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора , или при р факторах
.
О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера. Если фактическое значение критерия выше табличного, то, следовательно, существует корреляционная связь дисперсии ошибок от значений факторов, и имеет место гетероскедастичность остатков.
Пример. Определим квадратичную функцию для нашего примера . Пусть х1 = х, х2 = х2, построим уравнение множественной регрессии
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,353257 | ||||||
R-квадрат | 0,12479 | ||||||
Нормированный R-квадрат | 0,077482 | ||||||
Стандартная ошибка | 27,61916 | ||||||
Наблюдения | |||||||
Дисперсионный анализ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 4024,315 | 2012,157 | 2,637794 | 0,084932 | |||
Остаток | 28224,27 | 762,8181 | |||||
Итого | 32248,59 | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | ||
Y-пересечение | -38,76 | 44,00045 | -0,8809 | 0,384058 | -127,913 | 50,39338 | |
х | 1,674985 | 1,618236 | 1,035069 | 0,307355 | -1,60387 | 4,953843 | |
х^2 | -0,01017 | 0,013621 | -0,74683 | 0,459886 | -0,03777 | 0,017426 |
Так как уравнение статистически не значимо по F-критерию, то гетероскедастичность остатков отсутствует.