Результаты воздействия гетероскедастичности и автокорреляции, оценённые методом Монте Карло.
Во всех учебниках по эконометрике написано, что, в соответствии с теоремой Гаусса-Маркова, линейное преобразование В=(ХТХ)-1ХТY обеспечивает несмещённую, эффективную и состоятельную оценку компонент вектора B, состоящего из коэффициентов линейного уравнения регрессии
Y = BX +U
если возмущения ui ÎU подчиняются закону нормального распределения, их ожидаемые величины равны нулю, отсутствуют гетероскедастичность и автокорреляции. Здесь Х – матрица значений влияющих переменных, Y – вектор зависимых переменных. Но насколько изменятся коэффициенты уравнения регрессии и прогнозируемые величины, если возмущения U будут гетероскедастичны и коррелированны? В этом случае рекомендуется применять взвешенный и обобщённый методы наименьших квадратов, но оправдано ли усложнение методов решения задачи? Ответ может дать оценка погрешностей коэффициентов уравнения регрессии и прогнозных значений методом Монте Карло.
Расчёты методом Монте Карло проводились следующим образом.
1. Задана “идеальная” зависимость y = 5 + x; х=1 . . . 20.
2. Созданы массивы ожидаемых значений возмущений V(v(x)):
1. v(x)=Const = 4.
2. V= 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6.
3. V= 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2.
4. V= 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 10, 10, 9, 3, 3, 3.
5. V= 3, 3, 10, 10, 9, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3.
6. V= 4, сдвиг 4, -4,- 4, 4, 4, -4, -4, 4, 4, -4, - 4, 4, 4, -4, -4, 4, 4, -4, -4, 4.
7. V= 4, сдвиг 4, 4, 4, -4, -4, -4, -4, -4, 4, 4, 4, 4, 4, -4, -4, -4, -4, -4, 4, 4.
8. V= 4, сдвиг 4, -4, 4, -4, 4, -4, 4, -4, 4, -4, 4, -4, 4, -4, 4, -4, 4, -4, 4, -4.
Массивы 2-5 обеспечивают гетероскедастичность, массивы 6-7 автокорреляцию.
3. Разработан программный модуль на языке Visual Basic, обеспечивающий создание случайных величин q, имеющих нормальное распределение с E(q)=0, E(s(q))=1, а также случайных величин yимит i = 5+хi+qvi+сдвиг. Кроме того, программный модуль обеспечивает сохранение вычисляемых параметров модели при каждой имитации.
4. Имитация yимит i , вычисление с использованием функции ЛИНЕЙН() коэффициентов уравнения регрессии y=a+bx, коэффициента детерминации R2 и статистики Фишера F, прогнозного значения y(30). По вычисленным a и b строится вектор оценённых значений y^(x) и вектор остатков e=y-y^, по которому вычисляются тесты Голдфелда-Квандта
GQ = МАКС(s2(Е1),s 2 (Е2))/МИН(s2 (Е1),s 2 (Е2))
и Дарбина-Уотсона DW = 2(1-Rавт). Здесь s2(E1), s2(E2) – дисперсии остатков в диапазонах е(1)…е(10) и е(11)…е(20), Rавт = КОРРЕЛ(е(1):е(19); е(2):е(20)).
Используются функции Excel ДИСП() и КОРРЕЛ().
5. Сохранение вычисленных a, b, y(30), R2, F, GQ, DW.
6. Повторение п.п.3-5 много раз. В данном примере каждый опыт (имитации и расчёты с заданными возмущениями) повторялись 10000 раз.
7. Статистическая обработка и интерпретация накопленных результатов с использованием функций Excel СРЗНАЧ (средние значения), СТАНДОТКЛОН (стандартные отклонения). Использован также сервис “Гистограмма” из пакета “Анализ данных” для построения гистограмм частотных распределений.
На рисунках 1-2 представлены примеры уидеал = 5+х, yимит i , y^=a+bx, соответствующие восьми массивам ожидаемых значений возмущений п.2.
Рис.1.
3. Рис. 4.
Рис. 5.
.
Рис.5.2.
Результаты статистической обработки накопленных данных представлены в Таблице 5.2: средние значения (Ср), стандартные отклонения S, относительные погрешности (%) и процент аномальных значений. Аномальными считались значения параметров: F>4,35; GQ>5; DW<1,2 - DW>2,8.
Таблица 5.2.
№ | Возмущения | b | a | у(30) | R | F | GQ | DW | |
4 4 4. . . 4 4 4 | Cр | 0,9988 | 5,018 | 34,98 | 0,699 | 48,38 | 1,937 | 2,207 | |
(нет искажений) | S | 0,152 | 1,833 | 3,098 | 0,093 | 23,62 | 1,196 | 0,43 | |
% | 8,8 | ||||||||
% аномальных | 2,42 | 1,04-8,4 | |||||||
2 2 2 . . . 6 6 6 | Cр | 1,001 | 5,002 | 35,031 | 0,65 | 42,05 | 10,75 | 2,204 | |
S | 0,172 | 1,328 | 4,121 | 0,118 | 25,55 | 8,68 | 0,50 | ||
% | 11,7 | ||||||||
% аномальных | 0,02 | 2,35-12 | |||||||
6 6 6 . . . 2 2 2 | Cр. | 0,9977 | 5,049 | 34,982 | 0,65 | 41,61 | 10,86 | 2,203 | |
S | 0,172 | 2,596 | 2,758 | 0,119 | 25,07 | 9,34 | 0,506 | ||
% | 7,88 | 22,9 | |||||||
% аномальных | 0,05 | 2,4-13 | |||||||
3 3 ... 3 10 10 9 3 3 3 | Cр. | 0,9992 | 5,0144 | 34,990 | 0,64 | 41,57 | 4,966 | 2,206 | |
S | 0,174 | 1,510 | 4,077 | 0,137 | 27,01 | 5,06 | 0,498 | ||
% | 11,6 | ||||||||
% аномальных | 0,23 | 32,7 | 1,9-13 |
№ | Возмущения | b | a | у(30) | R | F | GQ | DW | |
3 3 10 10 9 3 3 … 3 3 | Cр | 0,9981 | 5,0322 | 34,975 | 0,645 | 42,48 | 4,775 | 2,231 | |
S | 0,193 | 2,784 | 3,261 | 0,145 | 28,20 | 4,78 | 0,48 | ||
% | 9,32 | 21,9 | |||||||
% аномальных | 0,46 | 30,91 | 1,4-14 | ||||||
4 -4 -4 4 4 -4 -4 4 4 -4 -4 4 4 -4 -4 4 4-4-4 4 | Cр. | 1,0005 | 5,0314 | 35,046 | 0,527 | 22,10 | 1,738 | 2,159 | |
S | 0,153 | 1,835 | 3,118 | 0,102 | 9,81 | 0,81 | 0,23 | ||
% | 10,7 | ||||||||
% аномальных | 0,09 | 0,76 | 0-0,46 | ||||||
4 4 4 -4 -4 -4 -4 -4 4 4 4 4 4 -4-4-4-4-4 4 4 | Cр. | 0,9379 | 5,6602 | 33,797 | 0,497 | 19,63 | 1,748 | 1,513 | |
S | 0,154 | 1,840 | 3,138 | 0,106 | 9,127 | 0,864 | 0,364 | ||
% | 9,3 | ||||||||
% аномальных | 0,24 | 1,07 | 20-0,15 | ||||||
4-4 4 -4 4 4 -4 -4 4-4 4-4 4-4 -4 4-4 4 -4 4 | Cр. | 0,9398 | 5,6531 | 33,8226 | 0,497 | 19,60 | 1,739 | 3,122 | |
S | 0,151 | 1,834 | 3,080 | 0,106 | 8,998 | 0,857 | 0,327 | ||
% | 9,1 | 10,5 | |||||||
% аномальных | 0,21 | 0,98 | 0-83,7 |
Гистограмма DW и частоты GQ по опыту 1 (u(x)=4) представлены на рисунке 3 и в таблице 5.3.
Таблица 5.3.
Интервал GQ | Частота |
1-2 | |
2-3 | |
3-4 | |
4-5 | |
5-6 | |
6-7 | |
7-8 | |
8-9 | |
9-10 | |
10-11 | |
11-12 | |
12-13 | |
13-14 | |
14-15 | |
15-16 | |
>16 |
Рис. 5.3.
ВЫВОДЫ. 1. Теоретическое значение погрешности коэффициента bравно 0,155; точечная оценка статистической погрешности прогнозного значения y^(30) равна 3,22; интервальная 5,14. При 10000 имитаций погрешность среднего значения bдолжна быть 0,00155, а y^(30) 0,0322. В Опытах 1, 2, 4 погрешности средних значений bукладываются в интервал 1 СКО, в Опытах 3 и 5 в 2 СКО. В Опытах 1-5 погрешности средних значений y^(30) укладываются в интервал 1 СКО, в Опыте 6 в 2 СКО. Можно сказать, что при разнице СКО остатков в 3 раза гетероскедастичность не приводит к значимым ошибкам, которые остаются в пределах статистических погрешностей оценок средних значений параметров. В связи с этим теряет смысл Взвешенныйметод наименьших квадратов (ВМНК), предполагающий искусственную корректировку остатков путём деления на их ожидаемые СКО. Результаты Опытов 2-5 показали, что погрешность прогноза зависит не от GQ, а близости больших возмущений к точке прогноза. Значит, СКО y^ без корректировки правильнее отражает истинную погрешность прогноза.
2. Во всех опытах обнаружена нулевая корреляция y^(30)и bсGQ и DW. Это видно и на Рисунке 5.4 (Опыт 2).
3. В Опытах 7 и 8 с положительной и отрицательной автокорреляцией обнаружено существенное смещение средних значений bиy^(30), в отличие от Опыта 6, где положительные и отрицательные сдвиги чередуются через 2 и DW близок к 2. Сильная отрицательная автокорреляция – экзотика, не характерная для реальной жизни. Положительная автокорреляция отклонений от тренда проявляется во временных рядах цен на фондовом рынке и означает, что надо применять другие методы и модели: авторегрессии (см. Раздел ), технический анализ фондового рынка и др. Возникает вопрос о целесообразности изучения и применения Обобщённого метода наименьших квадратов, основанного на преобразовании матриц (см. раздел 3.3), но с учётом корреляций остатков.
4. Относительная погрешность у^(30) меньше погрешностей a и b. Это связано с тем, что
s2(y^(30)= s2(a)+302s2(b)+2Cov(a,bx) = s2(a)+302s2(b)+2*30*s(a)*s(b)*Rab
где Rab коэффициент корреляции a и b. В наших опытах Rab = - 0,82… -0,96, формула близка к формуле квадрата разности, и s(y^(30) близок к модулю разности s(a) и 30s(b).
5. Случайное сочетание результатов измерений может имитировать гетероскедастичность и автокорреляцию, даже если нет порождающей их закономерности: в Опыте 1 2,42% тестов GQ превысили 5; 1% DW показал положительную автокорреляцию (<1,2) и 8,4% отрицательную (>2,8). На Рис.4 (Опыт 2) видны большие значения GQ. Были обнаружены огромные величины GQ, не коррелирующие с y^(30): 90 (y=40), 93 (y=39), 97 (y=34), 101 (y=33), 111 (y=35), 135 (y=35).
Рис. 5.4.
Контрольные вопросы.