Метод наименьших квадратов

Для оценивания параметров уравнения регрессии b₀ , b₁ ,… наиболее часто применяется метод наименьших квадратов (МНК). Идею МНК продемонстрируем на примере определения параметров линейной регрессионной зависимости вида (1).

Рассмотрим функцию S(b₀ , b₁ ,…), равную сумме квадратов отклонений выборочных значений y_i случайной величины Y от значения , предсказанного уравнением регрессии в точке X = x_i (рисунок 3):

. (3)

Фактически эти отклонения в каждой точке x_i равны e_i .

Рисунок 3 – Отклонения наблюденных значений зависимой случайной величины Y от значений, предсказываемых уравнением регрессии

Для случая линейной регрессии оценки параметров b₀ и b₁ получаются минимизацией по b₀ и b₁ суммы квадратов отклонений e_i выборочных значений с. в. Y от значений, предсказываемых уравнением регрессии Y на X, т. е. минимизацией функции

Из курса математического анализа известно, что для нахождения минимума функции S(b₀, b₁) необходимо приравнять к нулю частные производные этой функции S (по неизвестным b₀ и b₁) и решить полученную систему уравнений, называемых нормальными:

(4)

Система уравнений (4) имеет единственное решение, если определитель матрицы ее коэффициентов не равен нулю. Полученные значения и , являющиеся решением системы (4), называются оценками параметров регрессии. Для предполагаемой линейной регрессионной зависимости (2) оценки минимизируют ошибку, возникающую при аппроксимации выборки прямой, и вычисляются по формулам:

; ; (5)

; . (6)

В результате оценка уравнения линейной регрессии (эмпирическое уравнение линейной регрессии, прямая, полученная МНК) будет иметь вид: .

В предположении, что значения ошибок {e₁, e₂,…, e_n}, возникающих при аппроксимации выборки уравнением линейной регрессии, являются взаимно независимыми случайными величинами с нормальным распределением, нулевым математическим ожиданием и постоянной дисперсией, оценки параметров таких уравнений регрессии (полученные МНК) являются несмещенными, состоятельными и эффективными.

Метод наименьших квадратов применим для оценивания параметров уравнений регрессии произвольного вида (гиперболической, параболической, экспоненциальной, логарифмической и т. д.).