Парная линейная регрессия: Статистический анализ модели

Лекция 4

  1. Элементы статистического анализа модели
  2. Проверка статистической значимости параметров уравнения регрессии
  3. Анализ дисперсии
  4. Проверка общего качества уравнения регрессии
  5. F-статистика. Распределение Фишера в регрессионном анализе.

 

-1-

Оценивая зависимость между эндогенными и экзогенными переменными (y и x) по выборочным данным не всегда удается на первом этапе получить удачную модель регрессии. При этом каждый раз следует оценивать качество полученной модели. Качество модели оценивается по 2м направлениям:

· Содержательная оценка качества модели

· Статистическая оценка качества модели

Содержательный анализ подразумевает анализ экономического смысла модели. Действительно ли оказались важными те факторы которые значимы в эконом теории и т.д.

Статистический анализ модели включает следующие элементы:

  • Проверку статистической значимости параметров уравнения регрессии
  • Проверку общего качества уравнения регрессии
  • Проверку свойств данных, выполнение которых предполагалось при оценивании уравнения

 

-2-

Статистическая значимость параметров уравнения регрессии определяется по t-статистике или статистике Стьюдента. Так:

tb – t-статистика для коэффициента регрессии b

mb – стандартная ошибка коэффициента регрессии.

 

Так же рассчитывают t-статистику для коэффициентов корреляции R:

 

Таким образом tb^2=tr^2=F. То есть проверка статистической значимости коэффициента регрессии b равносильна проверке статистической значимости коэффициента корреляции

 

Коэффициент корреляции показывает тесноту корреляционной связи(между х и у).

Для линейной регрессии коэффициент корреляции:

 

Для определения тесноты связи используют обычно таблицу Чеглока

R 0,1 – 0,3 слабая

R 0,3 – 0,5 умеренная

R 0,5-,07 заметная

R 0,7-0,9 высокая

R 0,9 до 0,99 весьма высокая связь между х и у

 

Коэффициент корреляции -1<R<1

 

Часто для практических целей рассчитывают коэффициент эластичности, бета-коэффициент:

Эластичностью функции у=f(x) называется предел отношения относительных переменных у и х

 

Эластичность показывает на сколько %-в изменится у при изменении х на 1 %.

Для парной линейной регрессии коэффициент эластичности вычисляется по формуле:

 

Он показывает на сколько %-в изменится у в среднем при изменении х в среднем на 1 %.

Бетта-коэффициент равен:

– среднее квадрат отклонение x

– Среднее квадрат отклонение у

Бетта-коэффициент показывает на какую величину от своего среднего квадратического отклонения изменится у при изменении х на величину своего среднего квадратического отклонения.

 

=3=

Анализ дисперсии

 

В анализе дисперсии особое место занимает разложение общей суммы квадратов отклонений переменой у от у среднего на две части: на сумму объясненную регрессией и сумму, не объясненную регрессией.

Общая сумма квадратов отклонений равна сумме квадратов отклонений объясненной регрессией плюс остаточной сумме квадратов отклонений.

Эти суммы связаны с числом степеней свободы df – это число свободы независимого варьирования признаков.

Так общая сумма квадратов отклонений имеет общее число степеней свободы (n – 1).

Сумма квадратов отклонений объясненная регрессией имеет степень свободы 1, так как переменная зависит от одной величины – коэффициента регрессии b.

Между числом степеней свободы существует равенство, из которого:

N – 1 = 1 + n – 2

Разделим каждую сумму на соответствующее число степеней свободы, получим средний квадрат отклонений или дисперсию:

Dобщ = Dфакт + D ост

 

=4=

Оценить общее качество уравнения регрессии означает, установить соответствует ли математическая модель, выражающая зависимость между переменными экспериментальным данным и достаточно ли включенных в модель переменных, объясняющих у.

Оценить общие качества модели = оценить надежность модели = оценить достоверность уравнения регрессии.

Оценка общего качества модели регрессии осуществляется на основе дисперсионного анализа. Для оценки качества модели рассчитывают коэффициент детерминации:

 

В числителе выборочная оценка остаточной дисперсии, в знаменателе выборочная оценка общей дисперсии.

Коэффициент детерминации характеризует долю вариации зависимой переменной, объясненной с помощью уравнения регрессии.

Так, если R квадрат равен 0,97 это значит что на 97% изменений у обусловлено изменением х.

Чем ближе R квадрат к единице, тем сильнее статистически значимая линейная связь между х и у.

Для получения не смещенных оценок дисперсии( коэффициента детерминации) и числитель, и знаменатель в формуле делят на соответствующее число степеней свободы:

 

 

 

=5=

 

Для определения статистической значимости коэффициента детерминации R квадрат проверяется нулевая гипотеза для F-статистики , рассчитываемой по формуле:

Для парной линейной:

 

F-расчетная сравнивается со значением статистики в таблице. F-табличная рассматривается с числом степеней свободы m, n-m-1, при уровне значимости альфа.

Если F расч> F табл то нулевая гипотеза отвергается, принимается гипотеза о статистической значимости коэффициента детерминации R квадрат.

F-критерий Фишера = факторная дисперсия / на остаточную дисперсию:

 

Лекция №5

Проверка свойств данных, выполнение которых предполагалось при оценивании уравнения регрессии

1. Автокорреляция в остатках

2. Статистика Дарбина-Уотсона

3. Примеры

 

=1=

При оценивании параметров модели регрессии предполагается, что отклонении

обладает следующими свойствами:

1. носят случайный характер

2. Математическое ожидание равно нулю M() =0

3. Дисперсия этих отклонений одинакова D()^2 = D()^2=

4. независимы между собой

В таком случае оценки параметров регрессии полученные с помощью метода наименьших квадратов обладают 3-мя важными свойствами:

1. Несмещенность

2. Состоятельностью

3. Эффективностью

Предполагаемые свойства на самом деле могут не выполняться, тогда полученные оценки параметров регрессии a и b не будут обладать указанными характеристиками.

В каком случае отклонения могут не обладать этими свойствами:

1. В случае, если взаимосвязь между х и у не линейна.

2. Связь между переменными х и у линейна, но на исследуемый показатель воздействует фактор, не включенный в модель. Величина такого фактора может менять свою динамику за рассматриваемый период. Особенно это характерно для лаговых переменных.

Обе причины свидетельствуют о том, что полученное уравнение регрессии можно улучшить, оценив нелинейную зависимость или добавив в исходную модель дополнительный фактор.

Четвертая предпосылка метода наименьших квадратов говорит о том, что отклонения являются независимыми между собой, однако при исследовании и анализе исходных данных на практике встречаются ситуации, когда эти отклонения содержат тенденцию или циклические колебания.

Например:

 

 
t

 

 

 

Проявление тенденции или циклических колебаний свойственно временным рядам.

Присутствие тенденций или циклов в остатках представляет собой автокорреляцию остатков.

Автокорреляция – это зависимость каждого следующего значения остатков от значения предшествующих.

Автокорреляция свидетельствует о том, что на последующие наблюдения наибольшее воздействие оказывает результат предшествующих наблюдений.

Обычно проверяется коррелированность или некоррелированность не любых значений остатков, а двух соседних.

Соседними величинами остатков являются последовательные во времени остатки ( во временных рядах) или последовательные по возрастанию х (в пространственной выборке).

Рассмотрим временной ряд последовательных значений курса ценной бумаги, наблюдаемых в моменты времени от 1 до 100.

 

 

 

Из рисунка видно, что курс акции растет. На результаты последующих торгов оказывает влияние результат предшествующих торгов: если в какой-то момент курс акций завышен, то он будет завышен и в следующий момент. Если в какой-то момент курс акций будет занижен, то он будет занижен и в следующий момент. Это называется положительной автокорреляцией.

На графике положительная автокорреляция выражается в чередовании зон, которые находятся выше уравнения регрессии и зон ниже уравнения регрессии.

Реже встречается на практике отрицательная автокорреляция, например, при работе с полугодовыми данными показателя с сезонным характером.

Графически отрицательная корреляция проявляется в том, что результаты наблюдений часто пересекают график уравнения регрессии.

При отрицательной автокорреляции наблюдения действуют друг на друга по принципу маятника, т.е. завышение значения в предшествующем наблюдении приводит к занижению результата в последующем и наоборот.

(4)

Таким образом, отсутствие корреляции между соседними величинами остатков есть основание того, что корреляция отсутствует в целом в остатках, тогда оценки параметров регрессии, полученные с помощью МНК дают адекватные и эффективные результаты.

Для соседних величин остатков можно рассчитать коэффициент автокорреляции остатков первого порядка:

 

=2=

На практике используют тесно связанную с этим коэффициентом статику Дар-Уотсона

Критерий (тест) DW определяет наличие автокорреляции между соседними величинами остатков. Он основан на простой идее: если корреляция ошибок регрессии не равна нулю, то она присутствует и в остатках регрессии ei, получаемых методом МНК.

 

Очевидно, что при большом количестве наблюдений, при n-> к бесконечности, тогда

При n-> бесконечности формула будет иметь вид.

 

Таким образом, если существует положительная автокорреляция в остатках, т.е.

1.

2. - если существует отрицательная автокорреляция

3. - если отсутствует автокорреляция

Следовательно, статистика DW в любом случае лежит в промежутке (0,4).

Алгоритм выявления автокорреляции в остатках на основе критерия DW следующий:

Выдвигается гипотеза H0 о отсутствии автокорреляция, H1 - +, H1* - отриц.

По таблицам статистике DW определяются 2 пороговых значения dl и du, по этим значениям числовой промежуток от 0 до 4 делится на 5 зон с центром в 2.

(9)

На практике: если DW равна примерно 1,5-2-2,5 то можно предположить, что отклонения от линии регрессии взаимно независимы.

=3=

Есть данные об объеме продаж за 8 лет. Для них получено уравнение регрессии вида:

Выявить на уровне значимости альфа=0,05 наличие автокорреляции остатков.

По таблице статистики DW при n=15 альфа =0,5 m=1 получены пороговые значения

Dl=1,08

Du=1,36