Оценка качества регрессионной модели
Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Это объясняется простотой исследования линейной зависимости. Поэтому проверка наличия такой зависимости, оценивание ее индикаторов и параметров является одним из важнейших направлений приложения математической статистики.
Наиболее простым для изучения является случай взаимосвязи двух переменных х и у. Если это реальные статистические данные, то мы никогда не получим простую линию – линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или случайных факторов. Связь переменных, на которую накладываются воздействия случайных факторов, называется статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводят к изменению математического ожидания другой переменной.
Выделяют два типа взаимосвязей между переменными х и у:
1) переменные равноправны, т.е. может быть не известно, какая из двух переменных является независимой, а какая – зависимой;
2) две исследуемые переменные не равноправны, но одна из них рассматривается как объясняющая (или независимая), а другая как объясняемая (или зависящая от первой).
В первом случае говорят о статистической взаимосвязи корреляционного типа. При этом возникают проблемы оценки связи между переменными. Например, связь показателей безработицы и инфляции в данной стране за определенный период времени. Может стоять вопрос, связаны ли между собой эти показатели, и при положительном ответе на него встает задача нахождения формы связи. Вопрос о наличии связи между экономическими переменными сводится к определению конкретной формулы (спецификации) такой связи, устойчивой к изменению числа наблюдений. Для этого используются специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о наличии или отсутствии линейной связи между переменными.
Во втором случае, когда изменение одной из переменных служит причиной для изменения другой, должно быть оценено уравнение регрессии вида
y = f(x) (8).
Уравнение регрессии – это формула статистической связи между переменными. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Дж. Кейнсом была предложена линейная формула зависимости частного потребления С от располагаемого личного дохода Yd : С = С0+b Yd, где С0 > 0 – величина автономного потребления, 1> b >0 – предельная склонность к потреблению.
Выбор формулы связи переменных называется спецификацией уравнения регрессии. В данном случае выбрана линейная формула. Далее требуется оценить значения параметров и проверить надежность оценок.
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки линейных параметров регрессий используют метод наименьших квадратов (МНК), который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений yi результативного признака у от теоретических ŷi минимальна, т.е.
(9).
В линейном случае задача сводится к решению следующей системы линейных уравнений:
(10)
Для нахождения а и в воспользуемся готовыми формулами, которые легко получаются решением системы:
(11)
a = `у - b , b = (12)
Оценку качества построенной модели даст коэффициент R2 = rxy2 (R2 = rxy2 индекс) детерминации, а также средняя ошибка аппроксимации:
` (13)
Традиционно считается, что допустимый предел значений `А не более 8-10%. В этом случае модель оценивается как достаточно точная, в противном случае говорят о плохом качестве построенной модели.
Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии или, как говорят, мерой качества подгонки регрессионной модели к наблюдаемым значениям, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации(0 £ R2 £ 1), определяемый по формуле:
(14)
Коэффициент детерминации R2 показывает, какая часть (доля) дисперсии результативного признака у обусловлена вариацией объясняющей переменной. Показатель (1-R2) характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов. Например, если R2 =0,982, уравнением регрессии объясняется 98,2% результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (так называемая остаточная дисперсия). Чем ближе значение R2 к единице, тем большую долю изменения результативного фактора у можно объяснить за счет вариации включенного в модель фактора х, меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные (наблюдения «теснее примыкают» к линии регрессии) и модель можно использовать для прогноза значений результативного признака.
Заметим, что коэффициент детерминации R2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае верны равенства:
Q = QR + Qe
(15)
Если известен коэффициент детерминации R2, то критерий значимости уравнения регрессии или самого коэффициента детерминации может быть записан в виде
(16)
В случае парной линейной модели коэффициент детерминации равен квадрату коэффициента корреляции. Тогда
(17)
Существуют 2 этапа интерпретации уравнения регрессии.
1. Первый состоит в словесном истолковании уравнения так, чтобы оно было понятно человеку, не являющемуся специалистом в области эконометрики и статистики.
2. На втором этапе необходимо решить, следует ли ограничиться первым этапом или провести более детальное исследование зависимости.
1 этап.
Будет проиллюстрирован моделью регрессии для функции спроса, т.е. регрессией между расходами потребителя на питание у и располагаемым личным доходом х по данным, приведенным в таблице 1 для США за период с 1959 по 1983[1]
Таблица 1.