Анализ линейной регрессии при дисперсии ошибок, зависящей от значений входной переменной

Таблица 3.2

Источник рассеивания	Сумма квадратов отклонений	Число степеней свободы	Оценка дисперсии
1. Чистая ошибка
2. Отклонение относительно лини регресси		(m-2)
3. Отклонение засчет регрессии
4. Общее отклонение

Вычисленные оценки дисперсий могут использоваться как для определения оценки дисперсии шума , так и для проведения анализа качества уравнения регрессии.

При этом дисперсия D₁ часто называется дисперсией воспроизводимости, a D₂ - дисперсией адекватности.

Для проведения анализа воспользуемся следующей теоремой разложения для - распределения [6]:

Пусть сумма Q, состоящая из N квадратов независимых нормально распределенных случайных величин x_i с m_xi = 0. , разбита на m сумм квадратов нормально распределенных случайных величин Q₁, Q₂ ,..., Q_m соответственно с r₁,г₂,..., r_m степенями свободы:

Тогда, если выполняется условие N = r₁ + г₂ + ... + r_m, то случайные величины Q₁,Q₂,..., Q_m будут независимыми и распределенными по закону распределения с числом степеней свободы соответственно r₁, г₂,..., r_m.

Так как в нашем случае значения выходной переменной у подчинены нормальному закону распределения и выполняется условие r₀ = r₁+г₂+г₃, то с учетом сделанных ранее допущений можно показать, что соответствующие вариации S_общ, S₁, S₂ и S₃ подчинены - распределению с числом степеней свободы соответственно r₀, r₁, r₂ и г₃.

Кроме того, величина может использоваться как оценка дисперсии шума , так как т е

При этом на точность оценки не влияет качество найденного уравнения регрессии .

3.3. Проверка адекватности модели

Под адекватностью модели будем понимать то, что она хорошо (в статистическом смысле) описывает результаты наблюдений. Проверка адекватности заключается в оценке того, насколько хорошо значения , вычисленные по найденному уравнению регрессии, согласуются со средними значениями переменной , найденными в результате наблюдений.

Рассмотрим гипотезу Н₀, состоящую в том, что , где - найденное уравнение регрессии, против альтернативной гипотезы H₁: .

При переходе к усредненным по уровням переменной x_i значениям наблюдаемой переменной получим для гипотезы Н₀ эквивалентное условие: .

Рассеивание относительно этих математических ожиданий выходной переменной характеризуется дисперсиями воспроизводимости и адекватности . Эквивалентной гипотезой будет Н^'₀: D_вос=D_ад. В качестве меры рассогласования этих значений будем использовать дисперсионное отношение вида

Так как вариации S₂ и S₁ подчинены - распределению с числом степеней свободы г₁ и г₂ соответственно, то мера U подчинена F-распределению, с числом г₂ степеней свободы числителя и r₁ - знаменателя. Для величин D₁ и D₂ всегда выполняется соотношение D₂>D₁. Если при заданном уровне значимости и степенях свободы г₂ и r₁ значение U, вычисленное по статистике, больше U_кр, взятого из таблицы (т.е. дисперсия D_ад за счет отклонения найденного уравнения регрессии от действительного будет значимо больше дисперсии D_вос), то расхождение дисперсий (и соответственно средних) считается значимым и гипотеза Н₀ отвергается. Модель считается неадекватной. В противном случае (U < U_Kp) нет оснований отвергнуть гипотезу Н₀. Модель адекватна.

Если уравнение регрессии, найденное по результатам наблюдений, адекватно, то для получения более точной оценки дисперсии ошибки наблюдений целесообразно использовать одновременно вариации S₁ и S₂, т.е.

3.4. Проверка значимости коэффициентов регрессии

Для проверки значимости коэффициентов регрессии необходимо найти закон распределения оценок и его параметры - математическое ожидание и дисперсию.

Так как оценки параметров и представляют собой линейные функции от случайной величины , распределенной по нормальному закону (см. допущения), то и оценки коэффициентов регрессии, найденные по МНК, будут распределены по нормальному закону с параметрами:

Дисперсии оценок могут быть найдены для случая уравнения регрессии

(3.3) достаточно просто:

Так как , то

Для проверки значимости коэффициентов регрессии и необходимо проверить гипотезы :

- для Н₀ : = 0 против альтернативы ;

- для Н₀ : = 0 против альтернативы .

При проверке гипотез используются статистики вида

для и для .

Поскольку точное значение - неизвестно, то берется ее

оценка , где S₁ имеет распределение с

числом степеней свободы г=N - m. Отсюда статистики U₀ и U₁ подчинены t-распределению с числом степеней свободы соответственно

Доверительный интервал при уровне значимости для них будет где берется из распределению Стьюдента. Критическая область симметричная двухсторонняя.

Если доверительный интервал накрывает начало координат, то коэффициент считается незначимым, в противном случае - значимым.

Так, при проверке гипотезы H₀: , . Если , то - незначим, иначе - значим. При проверке гипотезы Н₀: вычисляется статистика

Если |U₁ | < t_Kp, то b₁ - незначим.

Если коэффициенты (или какой-либо из них) незначимы, то их в уравнении регрессии можно не учитывать. Если тот или иной член исключается из уравнения регрессии из-за незначимости соответствующего коэффициента, то необходимо заново пересчитать оценку дисперсии адекватности, изменив вид уравнения регрессии. Очевидно, что при этом могут измениться выводы относительно адекватности самой модели.

Аналогично определяется значимость коэффициентов b₀ и b₁ уравнения регрессии вида (3.1).

Так как , то

Учитывая, что , можно показать, что

Вместо берется ее оценка . Однако необходимо иметь в виду, что получаемые оценки b₀ и b₁ зависимы и для проверки их значимости необходимо строить эллипсоид рассеивания (рис. 3.2).

При построении доверительного интервала для одного из коэффициентов (например, для b₁) необходимо задавать значение другого коэффициента (b₀^*).

Рис. 3.2

В остальном проверка значимости коэффициентов b₀ и b₁ аналогична проверке значимости коэффициентов и .

Доверительный интервал может быть построен и для значений переменной у, вычисляемой с помощью найденного уравнения регрессии в заданной точке х = х₀. Так, для уравнения вила (3.2) математическое ожидание оценки у будет

, а дисперсия оценки

Доверительный интервал будет

Вместо берется ее оценка . Значение t_Kp берется из t-распределения с числом степеней свободы соответственно г = N-m.

Если используется уравнение вида (3.1): , то , отсюда

т.е. совпадает со значением, полученным для уравнения (3.2). Доверительный интервал также не изменяется.

Будем рассматривать прежние результаты наблюдений (см. табл.3.1). Однако, прежде чем переходить к определению коэффициентов регрессии b₀ и b₁ проведем предварительную их обработку.

Представим результаты наблюдений в каждой точке x_i в виде

, где, как и ранее , – случайная величина, характеризующая отклонение результатов наблюдений от среднего значения , которая может рассматриваться как ошибка измерения, подчиненная нормальному закону распределения с и . Средняя ошибка измерений в точке х = x_i, равная . также есть нормально распределенная случайная величина с параметрами и

С учетом сказанного можно считать, что в каждой точке x_i проводится одно наблюдение выходной переменной с результатом и случайной ошибкой . То есть . Уравнение линейной регрессии будет иметь вид . Для того чтобы результаты расчетов параметров уравнения регрессии с использованием МНК и его анализа не менялись, необходимо полученное значение выходной переменной в точке x_i брать с весом w_i т.е. . В качестве веса w_i будем брать величину, обратно пропорциональную дисперсии ошибки наблюдения в данной точке, т. е. числу наблюдений.

Тогда в соответствии с МНК задача поиска оценок b₀ и b₁ сводится к минимизации выражения, эквивалентного старому (3.2). в виде взвешенной сумме квадратов

Это приводит к тем же расчетным соотношениям, что и ранее. Результаты анализа полученного уравнения регрессии также не меняются. Если число наблюдений во всех точках x_i одинаково, то и все w_i=n=const, i=l,...,m . Введение весовых коэффициентов w_i позволяет проводить линейный регрессионный анализ для разноточных наблюдений.