Метод наименьших квадратов
Для оценивания параметров уравнения регрессии b0 , b1 ,… наиболее часто применяется метод наименьших квадратов (МНК). Идею МНК продемонстрируем на примере определения параметров линейной регрессионной зависимости вида (1).
Рассмотрим функцию S(b0 , b1 ,…), равную сумме квадратов отклонений выборочных значений yi случайной величины Y от значения , предсказанного уравнением регрессии в точке X = xi (рисунок 3):
. (3)
Фактически эти отклонения в каждой точке xi равны ei .
Рисунок 3 – Отклонения наблюденных значений зависимой случайной величины Y от значений, предсказываемых уравнением регрессии |
Для случая линейной регрессии оценки параметров b0 и b1 получаются минимизацией по b0 и b1 суммы квадратов отклонений ei выборочных значений с. в. Y от значений, предсказываемых уравнением регрессии Y на X, т. е. минимизацией функции
.
Из курса математического анализа известно, что для нахождения минимума функции S(b0, b1) необходимо приравнять к нулю частные производные этой функции S (по неизвестным b0 и b1) и решить полученную систему уравнений, называемых нормальными:
(4)
Система уравнений (4) имеет единственное решение, если определитель матрицы ее коэффициентов не равен нулю. Полученные значения и , являющиеся решением системы (4), называются оценками параметров регрессии. Для предполагаемой линейной регрессионной зависимости (2) оценки минимизируют ошибку, возникающую при аппроксимации выборки прямой, и вычисляются по формулам:
; ; (5)
; . (6)
В результате оценка уравнения линейной регрессии (эмпирическое уравнение линейной регрессии, прямая, полученная МНК) будет иметь вид: .
В предположении, что значения ошибок {e1, e2,…, en}, возникающих при аппроксимации выборки уравнением линейной регрессии, являются взаимно независимыми случайными величинами с нормальным распределением, нулевым математическим ожиданием и постоянной дисперсией, оценки параметров таких уравнений регрессии (полученные МНК) являются несмещенными, состоятельными и эффективными.
Метод наименьших квадратов применим для оценивания параметров уравнений регрессии произвольного вида (гиперболической, параболической, экспоненциальной, логарифмической и т. д.).