Многофакторный линейный регрессионный анализ
Лекция 6
Пусть производятся наблюдения за системой, на входе которой действует k контролируемых независимых переменных xi, i=l,...,k, (например, температура, давление, время протекания химического процесса, состав инградиентов и т. п.). На выходе системы ее состояние определяется выходной переменной у. Для определения взаимосвязи между входными и выходной переменными проводится N наблюдений за системой в точках с координатами х1, х2,...,хN где . Результаты наблюдений представлены в виде вектора наблюдений
В каждой точке хi в общем случае может быть проведено ni наблюдений, в результате которых получены значения . Тогда в качестве результата наблюдения в точке хi будем использовать значение , взятое с весом wi = ni с ошибкой .
Тогда , где - ошибка наблюдения (независимая случайная величина с ). Примем, что уравнение регрессии - линейная функция вида
М[у/х] = b0 + b1x1 + b2х2 +...+ bkxk.
Необходимо найти такие значения коэффициентов регрессии bi i=0,...,k. чтобы полученное уравнение наилучшим образом отражало результаты наблюдений. Для нахождения коэффициентов bi будем использовать МНК, минимизируя взвешенную сумму квадратов рассогласований между результатами наблюдений и уравнением регрессии:
, где
Запишем задачу в векторной форме, добавив к входным переменным xi I=1,2,...,k для удобства еще один столбец х0, состоящий из одних единиц:
Обозначим:
- вектор столбец,
- вектор столбец,
- вектор столбец,
- весовая матрица.
Уравнение регрессии запишется в виде Y=X В , а взвешенная сумма квадратов отклонений в векторной форме:
где W = [ wij ], i, j=1,2,...,N - весовая матрица.
В качестве весовой матрицы W на практике наиболее часто используется матрица W=Кy-1 - матрица коэффициентов корреляции результатов наблюдений), т.е. обратная корреляционной матрице результатов наблюдений. В этом случае МНК-оценки коэффициентов bi являются эффективными. Если результаты наблюдений независимы, то весовая матрица - диагональная. Если результаты наблюдения независимые и равноточные, то весовая матрица является единичной.
4.1. Нормальные уравнения МНК и оценки коэффициентов регрессии
Запись взвешенной суммы квадратов отклонений в векторной форме вида , представляет собой квадратичную форму. Найдя для нее вектор частных производных и приравняв его нулю, получим:
Отсюда
Это есть нормальные уравнения МНК, записанные в матричной форме, а их решения В называются МНК - оценками коэффициентов регрессии.
Если ранг матрицы X равен (k+1), то матрица невырожденная и уравнения имеют единственное решение:
Если ранг матрицы X меньше (k+1), то решение не единственное, т. е. для получения оценок всех коэффициентов регрессии число независимых наблюдений N должно быть не меньше числа оцениваемых параметров (k+1).
Матрица называется информационной. Матрица называется дисперсионной.
На практике кроме модели вида часто используется регрессионная модель вида y(b,x)=b0f0(x)+b1f1(x)+...+bkfk(x), где fi(x) - известные функции, f(x)=[f0(x),f1(x),...,fk(x)]T. При этом уравнение регрессии остается линейным относительно коэффициентов регрессии bi i=0, ...,k и в векторной форме запишется в виде Y = FB, где
Здесь вместо матрицы X используется матрица F, т.е. на решение влияет и вид модели у=(b,х). Решение имеет вид и соответственно матрица - информационная, - дисперсионная. В остальном запись всех выражений не меняется.
4.2. Анализ оценок коэффициентов регрессии
Как уже говорилось ранее, оценки коэффициентов линейной регрессии, найденные по МНК являются несмещенными, т.е. .
Для анализа взаимосвязи оценок и величины их рассеивания необходимо найти ковариационную матрицу оценок коэффициентов регрессии. Можно показать, что
Как видно, в общем случае оценки коэффициентов линейной регрессии - зависимые случайные величины. Для того чтобы они были независимы, необходимо, чтобы информационная матрица была диагональной. Это условие выполняется, если столбцы матрицы X (или матрицы F) попарно ортогональны, т. е.
Тогда элементы ковариационной матрицы будут равны:
Здесь Сii- диагональный элемент дисперсионной матрицы .
Получение статистически независимых оценок существенно упрощает дальнейший их анализ и широко применяется на практике при проведении активного эксперимента на ортогональных планах.
Из ковариационной матрицы можно получить дисперсии оценок коэффициентов
4.3. Анализ качества уравнения многомерной линейной регрессии
Для проведения статистического анализа качества полученной оценки уравнения регрессии составим очевидное тождество:
где yi - результат наблюдения в точке х1; - значение у, вычисленное по уравнению регрессии (оценки); - взвешенное среднее
Возведём обе части тождества в квадрат, просуммируем с весом wt и получим (смешанные произведения, как и ранее, сокращаются):
Обозначив, как и ранее (см п.3.2), получим основное тождество вариаций S06ui = S2 + S3. Здесь в первой части отсутствует слагаемое Sb характеризующее отклонение наблюдений в точке Xi от среднего в этой точке, так как в каждой точке проводится только одно наблюдение. Величина S2 характеризует отклонение наблюдений от линии регрессии, a S3 - за счет регрессии:
Таблица дисперсионного анализа (табл. 4. I) имеет следующий вид.