Показатели качества регрессии

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков — . Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем: . Если , то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями: ). Графически это означает, что теоретическая линия регрессии (линия, построенная по функции проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х.

На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических . Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.

При анализе качества модели регрессии используется теорема о разложении дисперсии, согласно которой общая дисперсия результативного признака может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии:

,

гдеобъясненная уравнением регрессии дисперсия результативного признака;

необъясненная уравнением регрессии (остаточная) дисперсия результативного признака.

На основе теоремы о разложении дисперсии рассчитываются показатели качества модели регрессии.

1. Теоретический коэффициент (индекс для нелинейных форм связей) детерминации: . Он представляет собой отношение объясненной (уравнением) дисперсии признака-результата к общей дисперсии результативного признака. Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака, объясняемую регрессией в общей вариации (дисперсии) у. Соответственно величина характеризует долю вариации (дисперсии) у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов.

!

При парной линейной регрессии коэффициент детерминации равен квадрату парного линейного коэффициента корреляции .

Коэффициент линейной парной корреляции – показатель тесноты линейной связи между признаками у и х:

где – среднее квадратическое отклонение фактора;

– среднее квадратическое отклонение результата.

Формула его расчета очень похожа на формулу расчета коэффициента регрессии методом наименьших квадратов – . Поэтому коэффициент линейной парной корреляции может быть рассчитан следующим образом:

Область допустимых значений линейного парного коэффициента корреляции от -1 до +1. Если коэффициент корреляции по модулю близок к единице, то связь между признаками может быть охарактеризована как тесная линейная. Если коэффициент корреляции по модулю близок к нулю, то имеет место слабая линейная зависимость.

2. Корень из этого коэффициента (индекса) детерминации есть коэффициент (индекс) множественной корреляции, или теоретическое корреляционное отношение. Если все точки корреляционного поля лежат на теоретической линии регрессии, то ; следовательно связь между у и х — функциональная, и уравнение регрессии очень хорошо описывает фактические данные. Если , то уравнение плохо описывает данные, а значит, связь между признаками отсутствует.

!

В случае парной линейной регрессии

3. Средняя квадратическая ошибка уравнения регрессии представляет собой среднее квадратическое отклонение наблюдаемых значений результативного признака от теоретических значений, рассчитанных по модели, т.е.: , где h равно числу параметров в модели регрессии. Величину средней квадратической ошибки можно сравнить со средним квадратическим отклонением результативного признака . Если окажется меньше , использование модели регрессии является целесообразным.

4. Средняя ошибка аппроксимации . Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7% свидетельствует о хорошем качестве модели.

При обработке информации на компьютере выбор вида зависимости (вида уравнения регрессии) обычно осуществляется методом сравнения величины показателя адекватности, рассчитанного при разных видах зависимости. Если показатели адекватности оказываются примерно одинаковыми для нескольких функций, то предпочтение отдается более простым видам функций, ибо они в большей степени поддаются интерпретации и требуют меньшего объема наблюдений.

Для данных табл. 1.6 была построена линейная парная модель регрессии: , описывающая зависимость заработной платы рабочего от его возраста.

Рассчитаем показатели качества модели регрессии для этого примера.

Для расчета теоретического коэффициента детерминации определим значение линейного парного коэффициента корреляции через МНК-оценку коэффициента регрессии: =
(где среднее квадратическое отклонение возраста рабочего; – среднее квадратическое отклонение заработной платы рабочего).

Тогда теоретический коэффициент детерминации будет равен: . Следовательно 72,8% вариации заработной платы рабочего объясняется уравнением линейной регрессии, а значит и возрастом рабочего. А100 – 72,8 = 27,2 % вариации заработной платы обусловлено влиянием не учтенных в модели факторов.

Коэффициент множественной корреляции равен: . Близость к единице данного показателя свидетельствует о хорошей аппроксимации модели фактических данных.

Для расчета средней квадратической ошибки уравнения регрессии нужно рассчитать теоретические значения результативного признака , остатки и их квадраты. Результаты расчета сведены в табл.1.6.

Таблица 1.6

Наблюдение — i yi>
271,9233 28,0767 788,3009
351,4487 48,55133 2357,232
322,5304 -22,5304 507,6168
293,612 26,38796 696,3245
228,5458 -28,5458 814,8646
387,5966 -37,5966 1413,501
336,9895 13,01049 169,2729
351,4487 48,55133 2357,232
423,7445 -43,7445 1913,577
402,0557 -2,05571 4,22596
И 264,6937 -14,6937 215,9056
279,1529 70,84712 5019,314
243,005 -43,005 1849,429
409,2853 -9,28529 86,21667
279,1529 -59,1529 3499,063
351,4487 ' -31,4487 989,0186
351,4487 38,55133 1486,205
336,9895 23,01049 529,4827
271,9233 -11,9233 142,1652
243,005 6,99501 48,93017
Итого 24887,88

Тогда 5 (в нашем примере п =20, h=2).

Среднюю квадратическую ошибку можно найти другим способом – через теоретический коэффициент детерминации, не прибегая к расчетам теоретических значений признака-результата и остатков:

=

Величина = 37,18 оказывается меньше , следовательно, модель регрессии целесообразно использовать.

Рассчитаем среднюю ошибку аппроксимации. Для нашего примера А = 0,1002 (10 %), что свидетельствует о незначительной погрешности модели.