ГЕТЕРОСКЕДАСТИЧНОСТЬ

Рисунок

Предлагается выбрать в качестве оптимального числа объясняющих переменных то число, для которого достигает своего максимума. Теоретическое обоснование этому мы здесь не приводим.

Однако реализация метода всех возможных регрессий требует значительных вычислительных трудностей, поскольку число регрессий, которые необходимо оценить, большое (равное 2р-1, для p = 20 число возможных переборов будет больше миллиона (вспомнить байку про шахматы)). Есть несколько выходов из этой ситуации. Мы рассмотрим

 

II. Пошаговая процедура отбора переменных (в двух реализациях).

Здесь мы на каждом шаге учитываем результаты предыдущего шага, и в этом состоит отличие этого метода от предыдущего.

Первый шаг такой же, как и в предыдущем случае:

1) Среди имеющихся р переменных выбираем ту, для которой коэффициент корреляции с объясняемой переменной наибольший.

2) а) Теперь мы перебираем не все возможные пары переменных, а лишь те, в которых участвует переменная, полученная на первом шаге. Число переборов в этом случае существенно уменьшится

б) среди оставшихся переменных выбираем ту, которая имеет с объясняемой переменной наибольший коэффициент частной корреляции, очищенный от влияния переменной, полученной на первом шаге.

3)…

Число переборов для а) - , т. е. для р = 20 число переборов будет 209.

Опять остается вопрос – когда же остановится. Ответ может быть такой, например, когда новый коэффициент частной корреляции будет уде незначимо отличаться от нуля и др. Здесь так же можно сконструировать величину и остановится тогда, когда она достигнет максимума.

Вообще говоря, пошаговые процедуры не гарантируют получения оптимального с точки зрения «всех пошаговых регрессий» набора, но в большинстве ситуаций, наборы переменных, получаемых методами пошагового отбора, будут близки к ним.

Кроме описанных, существуют различные методы пошаговые: другой метод пошагового присоединения, метод присоединения-удаления, метод удаления и др.


 

Как было сказано выше, гетероскедастичность – ситуация, когда нарушено пятое условие Гаусса-Маркова: ошибки для разных наблюдений имеют разную дисперсию (). Пример с фирмами, работающими в одной сфере. Естественно ожидать, что ошибки для больших фирм будут иметь большую дисперсию, чем ошибки маленьких фирм. Объем продаж, например.

 

1. Последствия гетероскедастичности.

a. МНК-оценки, хотя останутся несмещенными, уже не будут являются эффективными, т. е. не будут обладают наименьшей дисперсией. Мы сможем построить оценки с меньшей дисперсией при помощи другого метода.

b. МНК-оценки стандартных ошибок будут неверны (). Дело в том, что только в случае выполнения условия Гаусса-Маркова. т. е. дисперсия в условиях гетероскедастичности будет другой, что же на самом деле оценивают - ? В этом случае говорят, что МНК-оценки стандартных ошибок смещены. Скорее всего, они занижают истинное значение дисперсии. Теперь мы с вами уже не сможем для оценки гипотезы о значимости коэффициентов пользоваться t-статистиками., поскольку в них фигурируют неверные (смещенные) оценки стандартного отклонения оценки коэффициента, заниженное. Следовательно, t-статистики будут завышены. Это значит, что мы можем принять неверное решение о значимости коэффициента, хотя он будет незначим.

Для случая парной модели .

Интуиция неэффективности. Наблюдение, дисперсия ошибки которого будет меньше, обычно будет находиться ближе к линии регрессии, поэтому будет служить хорошим ориентиром, указывающим место этой линии. Наблюдение же, которое имеет большую дисперсию, будет обычно находится дальше от линии и не сможет существенно помочь в определении местоположения этих линий.

 

2. Тесты на гетероскедастичность.

Мы по-прежнему рассматриваем модель

Нулевая гипотеза - отсутствие в модели гетероскедастичности, т. е. гомоскедастичность:

Вид альтернативной гипотезы специфичен для каждого теста, т. е зависит от теста, при помощи которого мы проверяем наличие гетероскедастичности. Не смотря на то, что таких тестов существует несколько, все они базируются на одном: анализе квадратов остатков исходной регрессии. Поскольку остатки регрессии снабжают нас информацией об ошибках регрессии, мы можем проанализировать остатки для того, чтобы посмотреть, отличается ил разброс остатков (вокруг нуля) или разброс наблюдений вдоль линии регрессии от наблюдения к наблюдению разброс остатков вокруг нуля будет отражать разброс ошибок вокруг нуля. Эти рассуждения должны навести нас на мысль, что ситуацию гетероскедастичности можно отследить графически. Если наши данные представляют собой временной ряд, то отсортировав остатки или квадраты остатков по времени и изобразив их на графике мы можем заметить, что остатки растут во времени. Если же мы анализируем пространственные данные, изобразив остатки на графике в зависимости от одной из объясняющих переменных, можно заметить разницу в разбросе остатков.

Это эвристический, опытный подход. Теперь приведем несколько формальных тестов. Все тесты предполагают, что дисперсии ошибок наблюдений зависят от некоторой переменной, которая может входить в модель, а может и не входить.

1. Тест Голфилда-Квандта.

2. Тест ранговой корреляции Спирмена.

3. Тест Бреуш-Пагана.

4. Тест Уайта.

Исходная модель:

Н0: . Предположим, что нулевая гипотеза неверна и в нашей модели присутствует гетероскедастичность и . Предположим также, что , где Zi – может быть одной из объясняющих переменных, группой объясняющих переменных, или вообще переменной, не участвующей в модели. Форма f(Z) может быть различной – линейной, логарифмической, квадратичной.

Тест Уайта заключается в следующем:

1) Оцениваем имеющуюся модель и получаем величины остатков ei

2) Осуществляем регрессию

В этой регрессии мы учитываем больше форм зависимостей от независимых переменных. Если нулевая гипотеза справедлива и не зависит никак ни от одной из независимых переменных, то наша регрессия практически ничего не объясняет, следовательно, ее R2 мал. Если же есть гетероскедастичность, то R2 «большой». Границы «малости»: при справедливости нулевой гипотезы статистика имеет распределение «хи-квадрат» с числом степеней свободы q, где q – число переменных в регрессии пункта 2 вместе со свободным членом.