Верификация модели

Проверка качества оцененной множественной регрессионной модели проводится по следующим направлениям:

– оценка тесноты связи рассматриваемого набора факторов с исследуемым признаком;

– проверка общего качества уравнения регрессии;

– проверка статистической значимости коэффициентов регрессии;

– проверка выполнимости предпосылок МНК.

Независимо от формы связи (линейной или нелинейной) тесноту совместного влияния факторов на результат оценивает коэффициент (индекс) множественной корреляции:

где – общая дисперсия результативного признака, – факторная дисперсия результативного признака, – остаточная дисперсия результативного признака. Так как , то . При этом, чем ближе к 1 индекс множественной корреляции, тем теснее связь результативного признака со всем набором исследуемых факторов.

Величина индекса множественной корреляции больше или равна максимального парного индекса корреляции: для всех . При этом при правильном включении факторов в модель величина индекса множественной корреляции будет существенно отличаться от парных индексов корреляции. Если же дополнительно включенные в уравнение множественной регрессии факторы второстепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда следует, что сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора.

Низкое значение индекса множественной корреляции означает, что либо в регрессионную модель не включены существенные факторы, либо рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. В обоих случаях требуется дополнительная работа по спецификации модели.

Для линейной модели работа по определению существенных факторов может быть связана с определением стандартизованных коэффициентов регрессии и средних коэффициентов эластичности.

Если коэффициенты множественной линейной регрессии рассматривать в качестве показателей влияния факторов, то следует иметь в виду, что коэффициенты регрессии в линейной модели между собой прямо несравнимы. Их численные значения зависят от выбранных единиц измерения каждого фактора. Чтобы коэффициенты регрессии стали сопоставимы, их приводят к стандартизованному масштабу.

Уравнение множественной регрессии в стандартизованном масштабе имеет вид

где , , j = 1, 2, …, m, – стандартизованные переменные. Связь между стандартизованными коэффициентами и коэффициентами множественной регрессии описывается соотношениями , j = 1, 2, …, m, . Стандартизованные коэффициенты сравнимы между собой, поэтому с их помощью можно ранжировать факторы по силе воздействия на результат .

Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле и показывают, на сколько процентов в среднем изменяется зависимая переменная с изменением на 1% фактора при фиксированном значении других факторов. Сравнение показателей эластичности друг с другом позволяет также ранжировать факторы модели по силе их влияния на результирующий фактор .

Как правило, выводы о ранжировании влияния факторов на результат на основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности дополняются выводами, полученными на основе анализа матрицы парных коэффициентов регрессии.

Одной из наиболее эффективных оценок общего качества множественной модели и характеристикой ее прогностической силы является коэффициент детерминации . Он рассчитывается как квадрат индекса множественной корреляции, т.е. .

Величина показывает, на сколько процентов изменения результативного признака объясняются изменением факторных признаков, включенных в модель.

Недостатком коэффициента детерминации является то, что он не уменьшается при добавлении новых объясняющих переменных. Ввиду этого при сравнении двух моделей не всегда ясно, за счет чего возрос : за счет простого увеличения числа факторов, либо за счет реального влияния новых введенных факторов. Это, в свою очередь, может привести к ошибочному выводу о значимости влияния факторов на результативный признак. Для того чтобы компенсировать влияние такого эффекта при включении в модель нового фактора, вместо показателя рассматривают скорректированный коэффициент детерминации , где – число объясняющих переменных в модели, а – число наблюдений.

В отличие от скорректированный коэффициент детерминации может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. В то же время увеличение может не означать улучшения качества регрессионной модели.

Как и в случае парной регрессии, общее качество множественной модели может быть оценено с помощью стандартной ошибки регрессии . Величина стандартной ошибки регрессии характеризует среднюю величину рассеивания наблюдаемых значений переменной относительно теоретических.

Для оценки адекватности уравнения регрессии может быть применена средняя ошибка аппроксимации:

Ошибка аппроксимации не более 8–12% свидетельствует о хорошем качестве модели.

Оценка статистической значимости уравнения множественной регрессии в целом осуществляется с помощью F-критерия Фишера.

F-критерий Фишера заключается в проверке нулевой гипотезы о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического и критического (табличного) значений F-критерия Фишера.

Наблюдаемое значение статистики вычисляется по выборочным данным на основании формулы , где – число объясняющих переменных в модели, а – число наблюдений.По таблицам критических точек -распределения находится критическое значение статистики при заданном уровне значимости . При этом число степеней свободы определяется значениями и . Уровень значимости – вероятность отвергнуть гипотезу при условии, что она верна.

Если , то нулевая гипотеза отвергается, что говорит о соответствии теоретического уравнения регрессии выборочным данным. Если , то признается ненадежность уравнения регрессии.

Гипотеза о статистической значимости коэффициентов линейной множественной регрессии , где j = 1, 2, …, m, при альтернативной гипотезе проверяется с помощью t-статистики, имеющей распределение Стьюдента с числом степеней свободы, равным . По выборочным данным вычисляется наблюдаемое значение -статистики (для каждого коэффициента) как отношение значения коэффициента к величине его стандартной ошибки: . Стандартная ошибка коэффициента регрессии может быть определена по следующей формуле: , где – среднее квадратическое отклонение для признака , – среднее квадратическое отклонение для фактора , – коэффициент детерминации для уравнения множественной регрессии, – коэффициент детерминации зависимости фактора со всеми другими факторами уравнения множественной регрессии.

Наблюдаемые значения t-статистики для каждого коэффициента регрессии затем сравнивается с табличным значением -статистики . Если , то нулевая гипотеза отвергается и признается, что коэффициент регрессии не случайно отличаются от нуля, а значит, он статистически значим. Если же , то коэффициент регрессии статистически не значим и природа его формирования случайна. В таком случае считается, что фактор линейно не связан с зависимой переменной и его рекомендуется исключить из уравнения регрессии. Это не приведет к существенной потере качества модели, но сделает ее более простой и конкретной.

Следует отметить, что в экономических исследованиях исключению переменных из регрессионной модели должен предшествовать тщательный качественный анализ. Иногда может оказаться, что целесообразнее все же оставить в модели одну или несколько объясняющих переменных, хотя они и не оказывают существенного влияния на зависимую переменную.