Аппроксимация данных методом наименьших квадратов

Предположим, что нам известны данные , представляющие некоторую лежащую в их основе функцию , для которой . Предположим, что задана некоторая модель этих данных, т.е.

Более определённо модель имеет вид

,

где -заданные модельные функции.

Модель может быть линейной, если представляет собой линейную комбинацию модельных функций. Например:

,

где и . Коэффициенты называются параметрами модели, именно их нужно определить. Если бы модель была точной и не было ошибок измерения, мы могли бы заменить знак на , однако это бывает редко.

Модель так же считается линейной, так как эта модель является линейной комбинацией параметров , хотя и имеет модельную функцию - нелинейную функцию параметра .

Нелинейной же моделью является, например .

Поставим задачу более чётко, используя матрично-векторные обозначения. Определим матрицу размера как

,

введём и - векторы наблюдений и параметров соответственно.

Тогда можно записать

или ,

где - вектор невязок.

Необходимо подобрать параметры так, чтобы невязки были как можно меньше.

Задача заключается в решении

.

Поскольку мы минимизируем сумму квадратов невязки, этот способ называется аппроксимацией данных методом наименьших квадратов.

Используя нормы векторов, можно записать задачу в эквивалентной форме:

здесь используется евклидова 2-норма.

Если число данных и число модельных функций равны, матрица будет квадратной. Если она к тому же невырожденная, то решение наименьших квадратов представляет собой интерполянт, т.е. невязка равна нулю. Таким образом,, что сформулированная как матричная задача, аппроксимация методом наименьших квадратов включает в себя задачу решения системы линейных уравнений с квадратной невырожденной матрицей в качестве частного случая.

Во многих приложениях не все точки данных одинаково важны. Часто это происходит потому, что некоторые данные известны более точно, чем другие.

Это можно учесть путём взвешивания точек данных. Вместо того, чтобы решать задачу

относительно параметров , решают задачу

,

где - вес, отражающий важность точки данных. Чем важнее точка, тем важнее её вес. Если ошибка в -й точке данных приблизительно равна , то выбирают . Таким образом, чем меньше ошибка, тем больше вес. Иногда все данные имеют одно и то же число верных значащих цифр, т.е. одну и ту же относительную ошибку. В этом случае хорошим выбором будет , если не равно нулю. Взвешивание может улучшить статистические свойства решения.

Любую программу для решения невзвешенной задачи наименьших квадратов можно использовать для решения взвешенной задачи после шкалирования вектора наблюдений и матрицы коэффициентов . Мы умножаем -ю строку , так же как -е наблюдение , на , а затем решаем задачу

.

Коэффициенты в новой задаче определяются как

.

Полученные для этой модели параметры будут меняться, когда меняются веса.