Проверка качества модели

Качество модели оценивается стандартным для математических моделей образом: по адекватности и точности на основе анализа остат­ков регрессии е. Расчетные значения получаются путем подстановки в модель фактических значений всех включенных факторов.

Анализ остатков. Анализ остатков позволяет получить представле­ние, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположени­ям регрессионного анализа, остатки должны вести себя как независимые (в действительности почти независимые), одинаково распределенные случайные величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения остатков.

Независимость остатков проверяется с помощью критерия Дарбина- Уотсона [2].

Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости между Y и X график остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент.

Выбросы. График остатков хорошо показывает и резко отклоняющиеся от модели наблюдения - выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как их присутствие может грубо искажать значения оценок. Устранение эффектов выбросов может проводиться либо с помощью удаления этих точек из анализируемых данных (эта процедура называется цензурированием), либо с помощью применения методов оценивания пара­метров, устойчивых к подобным грубым отклонениям.

Кроме рассмотренных выше характеристик, целесообразно использовать коэффициент множественной корреляции (индекс корреляции)R,а также характеристики существенности модели в целом и отдельных ее коэффициентов:

(2.1.9)

 

где - сумма квадратов уравнений остаточной компоненты;

- сумма квадратов отклонений исходного ряда от его среднего значения.

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при лю­бой форме связи переменных. При построении однофакторной корреля­ционной модели коэффициент множественной корреляции равен коэф­фициенту парной корреляции.

Коэффициент множественной корреляции (индекс корреляции), возведенный в квадрат (R2), называется коэффициентом детерминации.

(2.1.10)

Он показывает долю вариации результативного признака, находя­щегося под воздействием изучаемых факторов, т.е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

В многофакторной регрессии добавление дополнительных объяс­няющих переменных увеличивает коэффициент детерминации. Следова­тельно, коэффициент детерминации должен быть скорректирован с уче­том числа независимых переменных. Скорректированный R2, или, рассчитывается так:

где n - число наблюдения; k - число независимых переменных.

В качестве меры точности применяют несмещенную оценку дис­персии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n-k- 1), где k - количество факторов, включенных в модель. Квадратный корень из этой величины (Se) называется стандартной ошибкой оценки.

Для проверки значимости модели регрессии используется F-значение, вычисляемое как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с Vi = (n - 1) и v2 = (n - k - 1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой:

(2.1.11)

Если существует k независимых переменных, то будет k + 1 коэффициентов регрессии (включая постоянную), отсюда число степеней свободы составит n - (k + 1) или n - k - 1.

Целесообразно проанализировать также значимость отдельных коэффициентов регрессии. Это осуществляется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

(2.1.12)

где Sαj, - это стандартное (среднее квадратическое) отклонение коэффи­циента уравнения регрессии αj.

Величина Sαj представляет собой квадратный корень из произведе­ния несмещенной оценки дисперсии Se и j-го диагонального элемента матрицы, обратной матрице системы нормальных уравнений.

(2.1.13)

где bjj – диагональный элемент матрицы (XTX)-1.

Если расчетное значение г-критерия с (n- k - 1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из мо­дели (при этом ее качество не ухудшится).