Основы регрессионного анализа
Лекция 5
Задачей регрессионного анализа является выявление зависимости (вида стохастической взаимосвязи) результатов наблюдений от случайных или неслучайных входных воздействий. Так как планирование эксперимента предполагает активный эксперимент с возможностью управления значениями входных факторов, ограничимся случаем, когда значения входных переменных x1,...,xk неслучайны и точно известны, а результат наблюдения случайная величина, т.е. .
Сущность регрессионного анализа состоит в замене стохастической зависимости между результатами наблюдений и переменными xi некоторой детерминированной зависимостью , достаточно хорошо аппроксимирующей основные свойства исходной стохастической зависимости. В качестве характеристики случайной величины , для которой в регрессионном анализе устанавливается такая зависимость, используется ее условное математическое ожидание: , а в качестве зависимости - уравнение регрессии или поверхность отклика, т.е. (отсюда и название - регрессионный анализ).
Как известно, основным свойством уравнения регрессии является то, что средний квадрат отклонения случайной величины у от линии регрессии всегда меньше, чем от любой другой кривой, т.е. для любого , где - уравнение регрессии, x=(x1,…,xk) .
Отсюда следует, что если вид функции известен, но неизвестны ее параметры, то их можно находить используя метод наименьших квадратов. т.е. минимизируя где - параметры кривой .
Поскольку на практике в общем случае вид зависимости априорно неизвестен, то первоначально производится ее выбор среди заданных классов функций (линейные, полином r-го порядка и т.д.) исходя из физической природы самой задачи. Методы регрессионного анализа позволяют лишь найти ее параметры и оценить, насколько удачен выбор.
Оценка функции в заданном классе функций , минимизирующая квадрат отклонений, называется среднеквадратической регрессией в классе Для определения ее параметров используется МНК.
По числу независимых переменных xi регрессионный анализ подразделяется на однофакторный (одна входная переменная) и многофакторный - несколько входных переменных (факторов).
В регрессионном анализе рассматриваются только количественные управляемые переменные xi .
По виду функции, описывающей связь между входными переменными х и результатам наблюдений у, различают линейный и нелинейный регрессионный анализ Если вид функции априорно неизвестен, то первоначально стараются применять линейные модели. Если же их использование не позволяет получить приемлемых результатов, то переходят к нелинейным моделям.
В общем случае часто используется модель (линейная относительно неизвестных коэффициентов) вида
где b0,..., bm - неопределенные параметры модели; x1,..., xk -независимые переменные; - некоторые известные функции; - ошибка результатов наблюдений, появляющаяся за счет действия неучтенных факторов (ошибка измерений).
Линейная форма связи переменных х и у на практике весьма распространена и к ней можно свести и нелинейные по сути модели, используя линеаризирующие их преобразования. Например:
1. Мультипликативная модель:
Прологарифмировав, получим
2. Экспоненциальная модель:
Отсюда
3. "Обратная" модель:
или иначе и т.п.