Анализ качества уравнения регрессии

Таблица 3.1

Однофакторный линейный регрессионный анализ

 

Пусть проводятся наблюдения за некоторой системой при га зна­чениях входного параметра х. При каждом из значений хi i=1,...,m входной переменной проводится по ni измерений наблюдаемой величи­ны. Результаты наблюдений можно представить в форме таблицы (табл. 3.1), а также графически (рис. 3.1).

Значение входной переменной Номера наблюдений
j ni
x1 y11 y12 y1j y1n1
xi yi1 yi2 yij y1ni
xm ym1 ym2 ymj ymnm

 

Здесь yij - результат j-го наблюдения выходной переменной у при i-m значении входной переменной x=xi, среднее значение выход­ной переменной.

Рис. 3.1.

Примем, что уравнение регрессии линейно и имеет вид

(3. 1).

где Му(х)=М[у(х)] - условное математическое ожидание наблюдаемой величины у при значении х входной переменной; b0, b1 - параметры уравнения регрессии.

Задача заключается в оценке параметров b0 и b1 и анализе со­ответствия полученного уравнения регрессии по результатам наблюде­ний.

При проведении регрессионного анализа на практике принимаются следующие предположения:

1. Результаты наблюдений - независимые случайные величины.

т.е. ,
i=1.....m, J=l,...,ni, k=i,....ni,

2. Ошибки наблюдений не зависят от значений входной переменной х=хi.

3. Ошибки наблюдений подчинены нормальному закону распреде­ления с нулевым математическим ожиданием (несмещенные) и оди­наковой дисперсией при любых значениях входной переменной (условие гомоскадестичности).

Нарушение условия равенства дисперсий не приводит к смещению оценок коэффициентов b0 и b1 определяемых с использованием МНК, а может лишь снижать их эффективность (дисперсия оценок - неминимальна). Отличие закона распределения ошибок от нормального ока­зывает существенное влияние на результаты анализа только в тех случаях, когда такое отклонение велико. При дальнейшем анализе бу­дем считать эти условия выполнимыми. С учетом вышесказанного ре­зультаты наблюдений можно представить в виде

,

где - ошибка наблюдений.

3.1. Оценка параметров уравнения регрессии

В соответствии с МНК в качестве подходящих оценок коэффициен­тов b0 и b1 используются их значения, минимизирующие сумму квадра­тов невязок (рассогласований):

(3.2)

Для этого первые частные производные по коэффициентам прирав­ниваются нулю, т. е.

Решив эту систему относительно b0 и b1, найдем

соответствующие их оценки и

. где , ,

 

Как видим, коэффициенты b0 и b1 (их оценки по МНК) получились взаимосвязанными

Если в качестве уравнения регрессии использовать выражение вида

. (3 3)

то оценки коэффициентов b’0 и b’1 найденные аналогично по МНК, бу­дут независимы друг от друга

,

Эти оценки также несмещенные и эффективные. Кроме того, они независимы, что облегчает расчет самих оценок, их дисперсий и ана­лиз их значимости.

Уравнения регрессии вида (3 1) и (3 3) по сути эквивалентны, только во втором случае начало координат по переменной х как бы

переносится в точку с координатами , а оценки коэффициентов свя­заны соотношением

 

 

 

Под анализом качества уравнения регрессии будем понимать про­верку соответствия уравнения регрессии, найденного по результатам наблюдеьий, истинной зависимости между управляемой пере­менной х и результатами наблюдений у При этом рассматриваются следующие вопросы

1 Соответствие выбранного вида уравнения регрессии действи­тельной зависимости у от х (проверка адекватности)

2 Существенность влияния входной переменной на выходную (провеока значимости коэффициента регрессии bi)

3 Оцепка точности определения коэффициентов регрессии Для гповедения статистического анализа составим следующее очевидное тождество

.

где - значение, найденное по регрессионной модели

Возведем обе части в квадрат и просуммируем по i (номерам значений xi) и j (номерам наблюдений)

Можно показать, что все смешанные произведения в правой части обращаются в нуль либо в следствии ограничений, налагаемых МНК либо из-за обращения в нуль сумм по j. например, вида

так как и. соответственно, I

В результате получим:

Данное соотношение представляет собой основное тождество ва­риации (отклонений) дисперсионного анализа вида Sобщ=S1+S2+S3 [6]. Здесь Sобщ характеризует отклонения наблюдаемых значений относи­тельно общего среднего (общее отклонение);

S1 - отклонение наблюдаемых значений относительно средних по всем значениям входной переменной (чистая ошибка наблюдений);

S2 - отклонение средних значений выходной переменной относи­тельно линии регрессии;

S3 - отклонение линии регрессии относительно общего среднего (за счет регрессии).

Из вариаций Si могут быть получены оценки дисперсий путем их осреднения с использованием числа степеней свободы ri.

Под числом степеней свободы некоторой величины А в статистике понимается разность между числом наблюдений и числом констант, вы­численных по результатам этих наблюдений независимо друг от друга и используемых для определения этой величины. В нашем случае это число независимых слагаемых.

Для соответствующих вариаций Si число степеней свободы будет:

для Sобщ: г0 = N - 1, где - общее число наблюдений, i - обусловливается использованием единственной константы , вы­числяемой по результатам наблюдений (если она неизвестна);

для S1: , где m - число средних

для S2: , где m - число слагаемых, 2 - количество связей за счет оценок коэффициентов регрессии и

для S3 : г3 = 2 - 1 = 1. где 2 - число параметров уравнения регрессии, используемых при расчете , 1 - учитывает вычитаемое среднее .

Результаты разложения представим в форме таблицы дисперси­онного анализа (табл. 3.2) [6].