Оценка параметров, оценка адекватности модели

Парная регрессия и корреляция

В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.

Рассмотрим линейную модель и представим ее в виде

= b₀ + b₁x. (1)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b₀, b₁) используя метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры b₀ и b₁ выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений y_i от значений , найденных по уравнению регрессии (1), была минимальной:

. (2)

На основании необходимого условия экстремума функции двух переменных S = S(b₀, b₁) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы на n, получим систему нормальных уравнений в следующем виде:

(3)

где соответствующие средние определяются по формулам:

; (4) ; (6)

; (5) . (7)

Решая систему (3), найдем

, (8)

где - выборочная дисперсия переменной х:

, (9)

- выборочный корреляционный момент или выборочная ковариация:

. (10)

Коэффициент b₁ называется выборочным коэффициентом регрессии Y по X.

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.

Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.

Если r > 0 (b₁ > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b₁ < 0), - обратной.

Формулы для расчета коэффициента корреляции имеют следующий вид:

; (11)

. (12)

Выборочный коэффициент корреляции обладает следующими свойствами:

1.Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.

2.При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной у будут в большей или меньшей мере отклоняться от функции регрессии j(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

у = j(х) + e,

где e - случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В модели y_i = b₀ + b₁x_i + e_i возмущение e_i есть величина случайная, а объясняющая переменная x_i – величина неслучайная.

2. Математическое ожидание возмущения e_i равно нулю:

M(e_i) = 0. (13)

3. Дисперсия возмущения e_i постоянна для любого i:

D(e_i) = s². (14)

4. Возмущения e_i и e_j не коррелированны:

M(e_i e_j) = 0 (i ¹ j). (15)

5. Возмущения e_i есть нормально распределенная случайная величина.

Оценкой модели y_i = b₀ + b₁x_i + e_i по выборке является уравнение регрессии = b₀ + b₁x. Параметры этого уравнения b₀ и b₁ определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии.

Теорема Гаусса-Маркова. Если регрессионная модель
y_i = b₀ + b₁x_i + e_i удовлетворяет предпосылкам 1-5, то оценки b₀, b₁ имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b₀ и b₁ в определенном смысле являются наиболее эффективными линейными оценками параметров b₀ и b₁.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

return false">ссылка скрыта

Нулевая гипотеза Н₀ – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Коэффициент регрессии (b₁) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н₀) о равенстве нулю коэффициента регрессии (Н₀:b₁ = 0) против альтернативной гипотезы (Н₁) о неравенстве нулю коэффициента регрессии (Н₁:b₁ ¹ 0). Для проверки гипотезы Н₀ против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n - 2) степенями свободы (парная линейная регрессия).

Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н₀), если t_набл > t_a_;_n_-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости. t_a_;_n_-2 - критическая точка, определяемая по математико-статистическим таблицам.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Согласно основной идее дисперсионного анализа

(16)

или

Q = Q_R + Q_e, (17)

где Q – общая сумма квадратов отклонений зависимой переменной от средней, а Q_R и Q_e – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты и s² (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют c²-распределение соответственно с т – 1 и п – т степенями свободы.

Таблица 1

Компоненты дисперсии	Сумма квадратов	Число степеней свободы	Средние квадраты
Объясненная		m – 1
Остаточная		n – m
Общая		n – 1

Поэтому уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

, (18)

где - табличное значение F-критерия Фишера-Снедекора, определяемое на уровне значимости a при k₁ = m – 1 и k₂ = n – m степенях свободы.

Учитывая смысл величин и s², можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне a (отвергается нулевая гипотеза), если

. (19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b₁, который имеет t-распределение Стьюдента с k = n – 2 степенями свободы.

Уравнение парной регрессии или коэффициент регрессии b₁ значимы на уровне a (иначе – гипотеза Н₀ о равенстве параметра b₁ нулю, т.е.
Н₀:b₁ = 0, отвергается), если фактически наблюдаемое значение статистики

(20)

больше критического (по абсолютной величине), т.е. |t| > t₁_- _a_;_n _-₂.

Коэффициент корреляции r значим на уровне a (Н₀: r = 0), если

. (21)

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:

. (22)

Величина R² показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R² = r².