Гетероскедастичность остатков.
Оценка точности регрессионных моделей.
Для оценки точности чаще всего используют два показателя, которые для линейных, так и для нелинейных моделей имеют вид:
1. Средняя ошибка аппроксимации
2. Среднеквадратическая ошибка аппроксимации
8.1. Сущность и причины гетероскедастичности
Второе условие Гаусса – Маркова о гомоскедастичности, то есть равноизменчивости остатков – это одно из важнейших предпосылок МНК.
Так как математическое ожидание остатков в каждом наблюдении равно нулю, то квадраты остатков могут служить оценками их дисперсий.
Эти квадраты остатков входят в ESS (которая минимизируется в МНК) с одинаковыми единичными весами, а это не всегда правомерно, так как на практике гетероскедастичность не так уж редко встречается.
Например, с ростом дохода растёт не только средний уровень потребления, но и разброс в потреблении. Он более присущ субъектам с высоким доходом, так как они имеют больший простор для распределения доходов. Проблема гетероскедастичности более характерна для пространственных выборок. Очевидно, что при наличии гетероскедастичности наблюдениям с большей дисперсией следует в ESS придавать меньший вес и наоборот, а не учитывать их равновзвешенными, как это делается в классическом МНК.
Точка на диаграмме рассеяния, полученная из наблюдения с меньшей дисперсией, более точно определяет направление линии регрессии, чем точка из наблюдения с большей дисперсией.
Последствия гетероскедастичности таковы:
1. Оценки параметров не будут эффективными, то есть не будут иметь наименьшую дисперсию по сравнению с другими оценками; при этом они будут оставаться несмещенными.
2. Дисперсии оценок будут смещены, так как будет смещена дисперсия на одну степень свободы которая используется при вычислении оценок дисперсий всех коэффициентов.
3. Выводы, получаемые на основе завышенных F и t статистик, и интервальные оценки будут ненадёжны.
8.2. Выявление гетероскедастичности
Это достаточно непростая задача; дисперсию σ2(εi) обычно определить не удаётся, так как для конкретного значения объясняющей переменой хi или конкретного значения вектора x при множественной регрессии мы располагаем лишь единственным значением зависимой переменой уi и можем вычислить единственное модельное значение переменной
Тем не менее, в настоящее время разработан ряд методов и тестов для обнаружения гетероскедастичности:
1. Графический – мы уже говорили, что М(εi)=0; это значит что дисперсию остатка можно заменить её оценкой, а в качестве этой оценки можно взять величину . В таком случае можно построить график в координатах: есть функция от хi и по нему изучить характер указанной зависимости. Если объясняющих переменных несколько, то проверяется зависимость по каждой переменной хj , то есть изучается зависимость
Можно также исследовать зависимость , так как переменная у является линейной комбинацией всех объясняющих переменных.
2. Тест ранговой корреляции Спирмена
Значения xi и εi упорядочиваются по возрастанию, и для каждого наблюдения в ряду х и в ряду ε устанавливается свой ранг (номер) в соответствии с этим упорядочением. Разность di между рангами x и ε для каждого номера наблюдения рассчитывается как
Затем вычисляется коэффициент ранговой корреляции:
.
Известно, что если остатки не коррелируют с объясняющими переменными, то статистика
имеет распределение Стьюдента с числом степеней свободы
df = n−2.
Если вычисленное значение t – статистики превышает табличное критическое значение при назначенном уровне значимости γ гипотезы Н0, то гипотеза об отсутствии гетероскедастичности отвергается и гетероскедастичность признаётся существенной. Критическое значение t– статистики определяется по таблице как
В том случае, если модель регрессии множественная, проверка гипотезы Н0 выполняется для каждой объясняющей переменной.
3. Тест Гольдфельда–-Квандта
Предполагается, что дисперсия остатков в каждом наблюдении пропорциональна или обратно пропорциональна интересующему нас регрессору, также предполагается, что остатки распределены нормально и нет автокорреляции в остатках.
В случае множественной регрессии тест целесообразно проводить по каждому регрессору отдельно.
Последовательность проведения теста:
а) наблюдения (строки таблицы) упорядочиваются по возрастанию интересующего нас регрессора;
б) упорядоченная таким образом выборка разбивается на 3 подвыборки объемами , , , при этом Можно считать, что Авторы теста предлагают следующие значения: n = 30, k = 11; n = 60, k = 22; n = 100, k = 36…38; n = 300, k = 110 и так далее (см. табл. 8.1).
таблица 8.1
I | k | k > p+1 k ≈ n/3 |
II | n–2k | |
III | k |
в) выполняется регрессия объясняемой переменной y на интересующую объясняющую переменную xj в выборках I и III и вычисляются ESSI и ESSIII.
г) рассчитывается F–статистика , если
, если
Эта статистика имеет распределение Фишера с числом степеней свободы .
Выдвигается гипотеза об отсутствии гетероскедастичности и назначается уровень значимости гипотезы γ. По таблице Фишера – Снедекора находится критическое значение .
Если расчетное значение , то гипотеза отклоняется и признается наличие гетероскедастичности.
4. Тест Уайта
При проведении данного теста вначале составляется вспомогательное уравнение, которое в целях демонстрации запишем для трех объясняющих переменных:
Здесь ─ значение остатка в модели исходного ряда. Далее проверяется статистика по критерию , где ─ коэффициент множественной детерминации вспомогательного уравнения регрессии. Число степеней свободы df для отыскания по таблице критического значения равно числу регрессоров во вспомогательном уравнении. Если , то гипотеза о гомоскедастичности остатков отвергается. Тест не требует нормальности распределения остатков в основной модели.
8.3. Устранение гетероскедастичности
Для устранения гетероскедастичности или смягчения этой проблемы можно использовать так называемый взвешенный МНК (ВМНК). Рассмотрим ВМНК на примере парной регрессии:
.
Предполагается, что дисперсии остатков в каждом наблюдении нам известны. В качестве оценок дисперсии можно взять квадраты остатков в наблюдениях (единичных реализациях), так как математическое ожидание остатков в каждом наблюдении нулевое.
Разделим левую и правую часть уравнения на среднеквадратическое отклонение (СКО) остатка
Это уравнение регрессии без свободного члена, но с дополнительной объясняющей переменной zi. Покажем, что для выполняется условие гомоскедастичности:
Если рассмотреть матричную форму записи модели множественной регрессии, то ВМНК будет сообразован с теоремой Айткена: В классе линейных несмещенных оценок вектора β для обобщенной линейной модели наиболее эффективна оценка
Если остатки гомоскедастичны, то есть Ωε = σ2I, то эффективной будет оценка
Ковариационную матрицу остатков при их гомоскедастичности (равноизменчивости) можно записать:
В случае с гетероскедастичностью эта матрица будет иметь вид:
Ковариационные матрицы оценок для гомоскедастичного и гетероскедастичного случаев будут иметь вид:
К сожалению, в большинстве случаев матрица Ωε точно не известна.
Иногда по результатам графического анализа гетероскедастичности можно увидеть, что Рассмотрим эти случаи на примере парной регрессии.
Для остатков будет выполняться условие гомоскедастичности и можно будет к уравнению применить классический МНК. Поясним это:
Для остатков будет выполняться условие гомоскедастичности и можно будет к уравнению применить классический МНК.
Действительно:
Для множественной регрессии можно рассмотреть версии , так как y есть линейная комбинация всех объясняющих переменных, и далее рассмотреть регрессию