Свойство 6.

МЛРМ.

СТАТИСТИЧЕСКИЕ СВОЙСТВА ОЦЕНОК КОЭФФИЦИЕНТОВ

 

Полученные оценки неизвестных коэффициентов регрессионного уравнения мы с вами можем рассматривать как случайные величины. Действительно, при повторении наблюдений над экономическим объектом – получении выборок того же самого объема N при тех же самых значениях объясняющей переменной X значение результирующего параметра Y будет варьироваться за счет случайного члена e, а, следовательно, будут варьироваться зависящие от y1,…,yN значения оценок. Если же X – случайная величина, то тогда вариация оценок будет зависеть и от вариации X. Таким образом, свойства коэффициентов регрессии будут существенным образом зависеть от свойств случайного члена e и от свойств X, если X- случайная величина.

Для того чтобы оценки, полученные по МНК, давали «наилучшие» результаты, мы потребуем от остаточного члена или ошибки e и от X выполнения следующих условий (предположения относительно того, как генерируются наблюдения):

1. - спецификация модели;

2. X1,…,Xk – детерминированные вектора, линейно независимые в Rn, т. е. матрица X имеет максимальный ранг k (в повторяющихся наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора e);

3. ;

4. , дисперсия ошибки не зависит от номера наблюдения;

5. при i ¹ k, т. е. некоррелированность ошибок разных наблюдений;

6. , т. е. . ei –нормально распределенная случайная величина со средним 0 и дисперсией .

В матричной форме:

, - матрица ковариаций вектора e;

, т. е. имеют совместное нормальное распределение со средним 0 и матрицей ковариаций (разьяснение про матрицу ковариаций)

1-5 - КЛРМ, 1-6 - НЛРМ, условия 1-6 - условия Гаусса-Маркова.

В случае НЛРМ условие 5. эквивалентно условию статистической независимости ошибок для разных наблюдений. Действительно, если две нормально распределенные величины не коррелированны, то они независимы.

Обсудим эти условия.

1. Спецификация модели отражает наше представление о механизме зависимости Y и X и выбор объясняющей переменной X.

2. Мы будем предполагать, что Хi – детерминированные константы, т. е. значения Хi (значение объясняющей переменной в каждом наблюдении) считается экзогенным, полностью определяемым внешними причинами. Такое предположение подразумевает то, что переменная Х полностью контролируется исследователем, который может изменять ее значение в целях эксперимента. Это предположение нереалистично во многих экономических и бизнес моделях. Позже мы посмотрим, сохранятся ли свойства оценок в случае, если X – случайная величина.

3. В матричной форме это условие выглядит так: .

Это условие состоит в том, что математическое ожидание случайного члена равно нулю в любом наблюдении. Иногда случайный член бывает положительным, иногда отрицательным, но он не должен иметь смещения ни в одном возможном направлении.

Надо сказать, что если в уравнение включается постоянный член, то бывает разумным предположить, что первое условие выполняется автоматически, т. к. роль константы и состоит в определении любой систематической составляющей в Y, которую не учитывают объясняющие переменные (если спецификация модели выбрана правильно).

Иллюстрация: предположим, что , тогда

Таким образом, исходная модель эквивалентна новой модели с ошибкой, имеющей нулевое математическое ожидание и другим свободным членом.

4. Второе условие говорит нам о том, что дисперсии ошибок постоянны для всех наблюдений. Иногда случайный член будет больше, иногда меньше, иногда больше, но не должно быть априорной причины для того, чтобы он порождал большую ошибку в одних наблюдениях, чем в других. Условие независимости ошибок от номера наблюдения называют гомоскедастичностью. Случай, когда условие гомоскедастичности нарушается, называется гетероскедастичностью. Этот случай можно иногда наблюдать графически:

Рисунок 1.

 

рисунок про гомо и гетероскедастичность.

 

5. Условие указывает на некоррелированность ошибок для разных наблюдений. Условие предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях. Это условие почти всегда нарушается, если наши данные представляют собой временные ряды. В случае если это условие не выполняется, говорят об автокорреляции остатков. Для простейшего случая - автокорреляционный процесс первого порядка – типичный вид данных представлен на рисунке 2.

Рисунок 2.

рисунок про r > 0 и r < 0

 

6. Это предположение не является чем-то сверхъестественным и высосанным из теоретического пальца. Действительно, как мы отмечали на прошлом занятии, ei включает в себя много факторов, которые, в принципе, можно считать независимыми. Отсюда, как следует из центральной предельной теоремы Ляпунова, ei будут иметь почти нормальное распределение.

Отметим, что в случае КЛРМ условие 6 эквивалентно условию статистической независимости ошибок для разных наблюдений. Действительно, если две нормально распределенные величины не коррелированны, то они независимы. В общем случае это не выполняется. А поскольку они независимы, то вектор ошибок e имеет множественное нормальное распределение или величины ei будут иметь совместное нормальное распределение с вектором средних 0 и ковариационной матрицы .

 

Итак, мы с вами находимся в условиях КЛРМ. Посмотрим, какими свойствами обладают в этом случае наши оценки

Желаемые свойства оценок следующие - несмещенность, эффективность, состоятельность. По имеющейся выборке мы можем построить несколько оценок одного и того же параметра. Нас будут интересовать не все возможные оценки, а лишь оценки, обладающие определенными свойствами. Вот эти свойства:

1) Несмещенность. Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно истинному значению оцениваемого параметра, т. е. M(Q*) = Q, Оценку, которая не удовлетворяет этому свойству, называют смещенной. Смещенность оценки означает присутствие в оценке систематических ошибок (ошибок одного знака), т. е. смещенная оценка завышает или занижает истинное значение параметра. Если оценка смещена, то Q-M(Q*) есть смещение.

2) Эффективность. Эффективной называют оценку, которая при заданном объеме выборки N имеет наименьшую возможную дисперсию. Теперь вспомним, что такое дисперсия. Эта мера разброса св вокруг среднего значения. Следовательно, у эффективной оценки разброс вокруг среднего значения самый небольшой, т. е. возможные значения эффективной оценки в среднем лежат ближе к своему среднему значению (если оценка еще и несмещена, то, следовательно, к истинному значению оцениваемого параметра), чем возможные значения других оценок. Таким образом, эффективная несмещенная оценка обеспечивает наилучшую точность оценивания. Доказательство эффективности оценки и нахождение эффективной оценки дело довольно трудоемкое. Если мы имеем две оценки одного и того же параметра, то говорят, что первая оценка более эффективна, чем другая, если дисперсия первой оценки меньше, чем дисперсия второй оценки.

3) Состоятельность. Теперь мы хотим, чтобыс ростом выборки наша оценка была все ближе и ближе к истиному значению оцениваемсого параметра. Мы надеемся, что если выборка станет достаточно большой, то вероятность того, что оценка Q* будет отличатся от Q станет маленькой. Иными словами, мы хотим, чтобы оценка была состоятельной. Оценка Q* называется состоятельной, если при увеличении объема выборки значения оценки стремятся по вероятности к истинному значению оцениваемого параметра. Стремление по вероятности означает, что с ростом объема выборки вероятность того, что |Q*-Q| будет меньше любого положительного числа, стремится к 1.

Как правило, эконометристов более интересует состоятельность оценки, чем ее Несмещенность. Смещенная, но состоятельная оценка может не равняться истинному значению в среднем, но с ростом выборки будет приближаться к истинному значению параметра. Пример несмещенной, но неэффективной оценкой и смещенной, но эффективной на рисунке.

Свойства (с доказательствами для парного случая:

Свойство 1.Линейная зависимость оценок от наблюдаемых значений Y.

поскольку в силу того, что

, если X - детерминированный вектор, то w – детерминированный вектор (при повторении выборок значения не меняются).

Легко убедится, что

Аналогично преобразовывая выражение для , мы получим

Свойство 2.

, т. е. - несмещенная оценка b.

,

Для доказательства мы использовали 2 и 3.

Свойство 3. Матрица ковариаций оценок:

.

Аналогично выводится формула для

.

Подобным образом можно отыскать ковариацию:

.

- из предыдущего пункта.

(пользовались тем, что матрица, обратная к симметричной, так же симметричная) посмотреть, что еще здесь надо

пользовались 3, 4 и 5.

, где aii - i-й диагональный элемент матрицы

Свойство 4. Теорема Гаусса-Маркова.

В условиях 1-5 МНК-оценки МЛРМ представляют собой наилучшие линейные несмещенные оценки, т. е. в классе линейных несмещенных оценок МНК-оценки обладают наименьшей дисперсией.

Best Linear Unbaised Estimation (BLUE)

Важность теоремы Гаусса-Маркова. Мы можем придумать много оценок возможных для коэффициентов b, в частности, можем придумать много линейных оценок, т. е. таких оценок, которые выражаются в виде взвешенного среднего наблюдений объясняемой переменной. Некоторые из этих оценок могут быть несмещенными как, например, «наивная» оценка. Так вот, оценки коэффициентов уравнения по методу наименьших квадратов в случае классической парной модели – это наилучшие оценки в том смысле, что среди всех возможных линейных несмещенных оценок эти оценки имеют наименьшую дисперсию. Best Linear Unbiased Estimator – BLUE Вопрос нахождения такой оценки будет возникать в нашем курсе снова и снова, т. к. мы увидим, что при нарушении условий Гаусса-Маркова МНК-оценки уже не будут «BLUE». В этом случае наша цель будет заключатся в построении других оценок, не МНК, которые уже будут «BLUR».

 

Обратите внимание, что в выражении матрицы ковариаций фигурирует дисперсия остаточного члена. Однако на практике мы эту дисперсию не знаем, поскольку не знаем ei, поэтому не можем вычислить теоретическую матрицу ковариаций . Мы сможем построить оценку этой матрицы, если сможем оценить s2 по результатам наблюдений. Никакой информацией об остаточном члене ei мы не располагаем. Единственно, на что мы можем опираться - на остатки или невязки ei. Разброс остатков относительно линии регрессии будет отражать разброс e относительно истиной неизвестной прямой. В общем случае остаток и ошибка в любом данном наблюдении неравны друг другу. Для оценки используем :

Свойство 5. - несмещенная оценка

Итак, оценка является несмещенной оценкой дисперсии . Тогда оценки матрицы ковариаций оценок будут следующими:

Для парной модели

,

Стандартные отклонения коэффициентов регрессии, вычисленные на основе предыдущей формулы, приводятся в результатах регрессии практически во всех статистических пакетах.

 

До сих пор мы нигде не использовали свойство 6, т. е. не делали никаких предположений о распределении вероятностей ошибок ei. Что будет, если мы запостулируем нормальную форму этого распределения.

В предположениях НЛРМ

Свойство 7. В случае НРЛМ

- без доказательства.

Свойство 8. В условиях НЛРМ оценки независимы. - без доказательства.


ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО КОЭФФИЦИЕНТОВ РЕГРЕССИИ.

 

Предположим, что мы находимся в условиях НМЛРМ.

1. H0: b = b0, или учитывая, что - несмещенная оценка b, можем переписать гипотезу:

H0: M= b0.

Поскольку , то или , где . Поэтому . Далее, и оценки и независимы, следовательно,

.

Вычисляем наблюдаемое значение критерия tнабл/.

Для проверки нулевой гипотезы при различных альтернативных гипотезах:

Hа: bi ¹ bi0.

tкр находим из таблиц критических точек распределения Стьюдента с N-k-1 степенями свободы для выбранного уровня значимости a и учитывая, что критическая область двусторонняя - . Далее, если

, то мы говорим, что у нас нет оснований отвергнуть нулевую гипотезу, если же

, то мы нулевую гипотезу отвергаем.

Если же у нас критерий односторонний, то все сохраняется, за исключением критического значения статистики. Его мы ищем по таблицам критических точек распределения Стьюдента с N-k-1 степенями свободы для выбранного уровня значимости a и учитывая, что критическая область односторонняя - . Выполняется следующее соотношение между односторонними и двусторонними критическими точками:

=

Особенно просто критерий выглядит в случае, когда bi0 = 0, т. е. в случае, когда мы хотим убедиться в значимости этого коэффициента и таким образом убедиться в наличии связи между Y и Xi: - t-статистика i-го коэффициента МЛРМ. Значение этой статистики приводятся почти всеми статистическими пакетами.

Если мы теперь рассмотрим неравенство

Разрешим это неравенство относительно b:

- доверительный интервал для параметра bi с уровнем надежности g. В этом случае говорят, что доверительный интервал с вероятностью g покрывает истинное значение параметра bi.

Не говорят, что доверительный интервал содержит с вероятностью g содержит истинное значение параметра b. Поскольку истинное значение параметра существует независимо от нас, а доверительный интервал мы строим, т. о. не b попадает в доверительный интервал, а доверительный интервал с той или иной вероятностью попадает на b.

 

2. Тестирование регрессионного уравнения.

Пусть константа включена в число регрессоров.

Процедура разделения вариации переменной Y на две составляющие позволяет провести нам тест на существование линейной зависимости между переменной Y и переменными X1,…,Xk.

Н0:

Таким образом, справедливость нулевой гипотезы означает, что ни одна из переменных X1,…,Xk не помогает нам объяснить вариацию Y. Эта гипотеза позволяет нам судить о значимости регрессии в целом. Эта гипотеза об отсутствии линейной связи между Y и X1,…,Xk.

Проверка нулевой гипотезы осуществляется при помощи следующего критерия:

При справедливости нулевой гипотезы данная статистика имеет распределение Фишера с числом степеней свободы числителя k и знаменателя N-k-1.

Если нулевая гипотеза верна, то следует ожидать, что RSS, R2 и, следовательно, F, близки к нулю. Таким образом, если значение F-статистики велико, мы нулевую гипотезу отвергаем. Граничное значение, начиная с которого мы отвергаем гипотезу, находится из таблиц распределения Фишера для выбранного уровня значимости n и числу степеней свободы числителя k и знаменателя N-k-1 - . Таким образом, если , мы нулевую гипотезу отвергаем, делаем вывод о том, что хотя бы одна из объясняющих переменных, участвующих в модели, действительно линейно влияет на переменную Y.

Итак, при помощи F-статистики мы проверяем значимость коэффициента детерминации. Если F-статистика незначимо отличается от нуля, это означает, что объясняющие переменные, участвующие в модели на самом деле не очень-то нам помогают объяснит вариацию переменной Y.

Для парного случая F – статистика выглядит следующим образом:

- Упражнение

Сравнивая предыдущее выражение и выражение для t-статистики коэффициента наклона, получим, что F= t2:

.

Таким образом, проверка гипотезы Н0: b = 0 , используя F и t-статистики, дает для одномерной регрессионной модели дает тождественные результаты.

 

3. Объединенный тест на несколько коэффициентов регрессии.

При помощи F-статистики мы теперь умеем проверять гипотезу о том, что все коэффициенты при объясняющих переменных равны нулю. Иногда возникают ситуации, когда нам необходимо проверить гипотезу о том, что нулю равны не все коэффициенты при объясняющих переменных, а некоторые из них. В этом случае осуществляется следующая процедура.

Рассмотрим модель множественной регрессии:

- «длинная регрессия».

Назовем эту модель моделью без ограничений (UR), поскольку здесь мы не делаем никаких ограничений на возможные значения коэффициентов регрессии. Предположим, что мы хотим протестировать гипотезу о том, что q последних коэффициентов регрессии одновременно равны нулю. Т. е. мы хотим проверить гипотезу о том, что . Перепишем предыдущее уравнение следующим образом:

нулевая гипотеза выглядит следующим образом:

Н0: , т. е. последние q коэффициентов одновременно равны нулю.

В случае, если эта гипотеза справедлива, то истинная модель выглядит следующим образом:

- «короткая регрессия»

Назовем эту модель моделью с ограничениями (R –restricted model).

Оценим обе эти модели и посчитаем сумму квадратов остатков в модели с ограничениями и в модели без ограничений – ESSR и ESSUR соответственно. ESSR всегда больше, чем ESSUR. Этот результат эквивалентен тому, что R2 всегда увеличивается при добавлении в модель новых объясняющих переменных. Если нулевая гипотеза справедлива, выбрасывание из уравнения q последних объясняющих переменных несильно скажется на объясняющих качествах уравнения, и ESSR будет ненамного отличатся от ESSUR. Таким образом, если нулевая гипотеза справедлива, разница ESSR - ESSUR будет ненамного отличатся от нуля. Статистический критерий для проверки нулевой гипотезы следующий:

При справедливости нулевой гипотезы данная статистика имеет распределение Фишера с числом степеней свободы числителя q и знаменателя N-k-1.

Если нулевая гипотеза справедлива, выбрасывание из уравнения q последних объясняющих переменных несильно скажется на объясняющих качествах уравнения, и ESSR будет ненамного отличатся от ESSUR. Таким образом, если нулевая гипотеза справедлива, разница ESSR - ESSUR. будет ненамного отличатся от нуля. Следовательно, F-статистика будет достаточно мала. Граничное значение, при котором нулевую гипотезу отвергают, зависит от выбранного уровня значимости n. Оно находится из таблиц распределения Фишера для выбранного уровня значимости n и числу степеней свободы числителя q и знаменателя N-k-1. Таким образом, если мы нулевую гипотезу отвергаем, то делаем вывод о том, что наши переменные действительно оказывают влияние на переменную Y и включение их в модель существенно повышает объясняющую силу уравнения.

Похожий подход – рассмотрение регрессии с ограничение регрессии без ограничений – можно применить и для проверки гипотезы о наличии линейных связей между коэффициентами. Например, нам может понадобиться в ходе нашего исследования проверить гипотезу о равенстве между собой нескольких коэффициентов регрессии.

 

4. Проверка гипотезы о наличии линейных ограничений на коэффициенты.

Предположим, мы рассматриваем и оцениваем функцию потребления:

, где XL - трудовые доходы, а XNL - нетрудовые доходы. В этом случае нам может понадобиться проверить гипотезу о том, что предельные склонности к потреблению равны между собой () или гипотезу о том, что общая предельная склонность к потреблению равна 1 ().

Рассмотрим сначала первый случай.

Суть подхода к проверке таких гипотез такая же, как и в предыдущем пункте. Мы оцениваем две регрессии - регрессию без ограничений и регрессию с ограничениями, составляем F - статистику и проверяем ее значимость при помощи таблиц распределения Фишера.

Рассмотрим сначала первый случай.

Нулевая гипотеза: H0:

Модель без ограничений: ;

модель с ограничениями: .

Во втором случае моделью с ограничениями будет следующая модель:

.

Здесь мы просто подставили в исходную модель выражение для b2:.

Статистический критерий для проверки нулевой гипотезы следующий:

.

При справедливости нулевой гипотезы данная статистика имеет распределение Фишера с числом степеней свободы числителя q и знаменателя N-k-1, где q - чисто ограничений, накладываемых на коэффициенты. В нашем случае оно равно 1.

В статистических пакетах проверка гипотезы о наличии линейных ограничений на коэффициенты называется тестом Вальда (Wald test).

Рассмотрим эту гипотезу в общем виде:

H0: Hb = r.

Например:

означает, что .

H - матрица размера , где q - число ограничений, r - вектор из q компонент.

Для проверки такой гипотезы используется статистика Вальда:

При справедливости нулевой гипотезы эта статистика распределена асимптотически как . Для проверки нулевой гипотезы находим критическую точку распределения для выбранного уровня значимости n - Wкр. Если , то мы нулевую гипотезу отвергаем, если , то говорим, что нет оснований отвергнуть нулевую гипотезу.

Ту же самую гипотезу можно проверить при помощи статистики Фишера, вычислив суммы квадратов остатков для моделей с ограничением и модели без ограничений. Как связаны между собой эти статистики? Оказывается, что . В пакете Eviews приводятся наблюдаемые значения обеих статистик и значения Probability для каждой из них.

 

5. Проверка гипотезы о равенстве коэффициентов различных регрессионных уравнений (тест Чоу).