Анализ качества уравнения регрессии
Таблица 3.1
Однофакторный линейный регрессионный анализ
Пусть проводятся наблюдения за некоторой системой при га значениях входного параметра х. При каждом из значений хi i=1,...,m входной переменной проводится по ni измерений наблюдаемой величины. Результаты наблюдений можно представить в форме таблицы (табл. 3.1), а также графически (рис. 3.1).
Значение входной переменной | Номера наблюдений | |||||
… | j | … | ni | |||
x1 | y11 | y12 | … | y1j | … | y1n1 |
… | … | … | … | … | … | … |
xi | yi1 | yi2 | … | yij | … | y1ni |
… | … | … | … | … | … | … |
xm | ym1 | ym2 | … | ymj | … | ymnm |
Здесь yij - результат j-го наблюдения выходной переменной у при i-m значении входной переменной x=xi, среднее значение выходной переменной.
Рис. 3.1.
Примем, что уравнение регрессии линейно и имеет вид
(3. 1).
где Му(х)=М[у(х)] - условное математическое ожидание наблюдаемой величины у при значении х входной переменной; b0, b1 - параметры уравнения регрессии.
Задача заключается в оценке параметров b0 и b1 и анализе соответствия полученного уравнения регрессии по результатам наблюдений.
При проведении регрессионного анализа на практике принимаются следующие предположения:
1. Результаты наблюдений - независимые случайные величины.
т.е. ,
i=1.....m, J=l,...,ni, k=i,....ni,
2. Ошибки наблюдений не зависят от значений входной переменной х=хi.
3. Ошибки наблюдений подчинены нормальному закону распределения с нулевым математическим ожиданием (несмещенные) и одинаковой дисперсией при любых значениях входной переменной (условие гомоскадестичности).
Нарушение условия равенства дисперсий не приводит к смещению оценок коэффициентов b0 и b1 определяемых с использованием МНК, а может лишь снижать их эффективность (дисперсия оценок - неминимальна). Отличие закона распределения ошибок от нормального оказывает существенное влияние на результаты анализа только в тех случаях, когда такое отклонение велико. При дальнейшем анализе будем считать эти условия выполнимыми. С учетом вышесказанного результаты наблюдений можно представить в виде
,
где - ошибка наблюдений.
3.1. Оценка параметров уравнения регрессии
В соответствии с МНК в качестве подходящих оценок коэффициентов b0 и b1 используются их значения, минимизирующие сумму квадратов невязок (рассогласований):
(3.2)
Для этого первые частные производные по коэффициентам приравниваются нулю, т. е.
Решив эту систему относительно b0 и b1, найдем
соответствующие их оценки и
. где , ,
Как видим, коэффициенты b0 и b1 (их оценки по МНК) получились взаимосвязанными
Если в качестве уравнения регрессии использовать выражение вида
. (3 3)
то оценки коэффициентов b’0 и b’1 найденные аналогично по МНК, будут независимы друг от друга
,
Эти оценки также несмещенные и эффективные. Кроме того, они независимы, что облегчает расчет самих оценок, их дисперсий и анализ их значимости.
Уравнения регрессии вида (3 1) и (3 3) по сути эквивалентны, только во втором случае начало координат по переменной х как бы
переносится в точку с координатами , а оценки коэффициентов связаны соотношением
Под анализом качества уравнения регрессии будем понимать проверку соответствия уравнения регрессии, найденного по результатам наблюдеьий, истинной зависимости между управляемой переменной х и результатами наблюдений у При этом рассматриваются следующие вопросы
1 Соответствие выбранного вида уравнения регрессии действительной зависимости у от х (проверка адекватности)
2 Существенность влияния входной переменной на выходную (провеока значимости коэффициента регрессии bi)
3 Оцепка точности определения коэффициентов регрессии Для гповедения статистического анализа составим следующее очевидное тождество
.
где - значение, найденное по регрессионной модели
Возведем обе части в квадрат и просуммируем по i (номерам значений xi) и j (номерам наблюдений)
Можно показать, что все смешанные произведения в правой части обращаются в нуль либо в следствии ограничений, налагаемых МНК либо из-за обращения в нуль сумм по j. например, вида
так как и. соответственно, I
В результате получим:
Данное соотношение представляет собой основное тождество вариации (отклонений) дисперсионного анализа вида Sобщ=S1+S2+S3 [6]. Здесь Sобщ характеризует отклонения наблюдаемых значений относительно общего среднего (общее отклонение);
S1 - отклонение наблюдаемых значений относительно средних по всем значениям входной переменной (чистая ошибка наблюдений);
S2 - отклонение средних значений выходной переменной относительно линии регрессии;
S3 - отклонение линии регрессии относительно общего среднего (за счет регрессии).
Из вариаций Si могут быть получены оценки дисперсий путем их осреднения с использованием числа степеней свободы ri.
Под числом степеней свободы некоторой величины А в статистике понимается разность между числом наблюдений и числом констант, вычисленных по результатам этих наблюдений независимо друг от друга и используемых для определения этой величины. В нашем случае это число независимых слагаемых.
Для соответствующих вариаций Si число степеней свободы будет:
для Sобщ: г0 = N - 1, где - общее число наблюдений, i - обусловливается использованием единственной константы , вычисляемой по результатам наблюдений (если она неизвестна);
для S1: , где m - число средних
для S2: , где m - число слагаемых, 2 - количество связей за счет оценок коэффициентов регрессии и
для S3 : г3 = 2 - 1 = 1. где 2 - число параметров уравнения регрессии, используемых при расчете , 1 - учитывает вычитаемое среднее .
Результаты разложения представим в форме таблицы дисперсионного анализа (табл. 3.2) [6].