Анализ вариации зависимой переменной
в регрессии. Коэффициенты R2 и скорректированный R2adj
Как и в случае регрессионной модели с одной независимой переменной, вариацию можно разбить на две части: объясненную регрессионным уравнением и не объясненную (связанную с ошибками e):
(65)
или в векторной форме –
(66)
Третье слагаемое в выражении (66) равно нулю в случае, если константа, т.е. вектор S=(1, … ,1), принадлежит линейной оболочке векторов X1, … ,Xk (т.е. ), что следует из уравнения (47) e`x = 0. Поэтому верно равенство
67)
Записывая формулу (67) в отклонениях , снова получим теорему Пифагора
. (68)
Определим коэффициент детерминации R2 как
. (69)
Отметим, что коэффициент R2 корректно определен только в том случае, если константа, т.е. вектор S = (1,…..,1)′, принадлежит линейной оболочке векторов X1, …, Xk . В этом случае R2 принимает значения из интервала [0,1].
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдаемым значениям Yt. Если R2=0 , то регрессия Y на X1, … Xk не улучшает качества предсказания Yt по сравнению с тривиальным предсказанием.
Другой крайний случай R2 = 1 означает точную подгонку: все et=0, т.е. все точки наблюдений лежат на регрессионной плоскости.
В какой степени допустимо использовать критерий R2 для выбора между несколькими регрессионными уравнениями? Следующие два замечания побуждают не полагаться только на значение R2 .
1. Оптимизация при определении коэффициентов регрессии осуществляется по критерию минимизации суммы квадратов остатков, т.е. по критерию, отличающемуся от критерия R2.
2. Величина R2 возрастает при добавлении еще одного регрессора. Если принять число регрессоров равным числу наблюдений, всегда можно добиться того, что R2=1, но это вовсе не говорит о наличии содержательной зависимости Y от регрессора.
Попыткой устранить эффект, связанный с ростом R2 при возрастании числа регрессоров, является коррекция R2 на число регрессоров. Скорректированным коэффициентомR2adj называется
. (70)
Наличие именно такой коррекции определения (69) оправданно, ибо числитель дроби в формуле (70) есть несмещенная оценка дисперсии ошибок уравнения (61), а знаменатель – несмещенная оценка дисперсии Y.
Свойства скорректированного коэффициента R2 :
1. R2adj = 1 – R2 (n-1)/ (n-k);
2. R2 ³ R2adj , k > 1;
3. R2adj £ 1, но может принимать значения < 0.
В определенной степени использование скорректированного коэффициента детерминации R2adj более корректно для сравнения регрессий при изменении количества регрессоров.
П р и м е р. Рассмотрим две модели:
1. Y = Xb + e,
2. Z = Y – X1 = Xγ + e.
Строятся МНК-оценки параметров b и g обеих моделей. Для первой модели коэффициент детерминации
. (71)
Подсчитаем коэффициент детерминации R2 для второй модели. Обозначим d = (1,0,…..,0)` – вектор-столбец; тогда Xd = X1.
Матрица M одна и та же для обеих моделей, так как в них один и тот же набор регрессоров. Остатки во второй модели равны
(мы использовали формулу (56)). Таким образом, остатки в обеих моделях совпадают:
. (72)
Выражения (71) и (72) отличаются только знаменателями y`y и z`z:
. (73)
Из уравнения (73) видно, что коэффициенты детерминации, вообще говоря, не совпадают. Оценки коэффициентов двух регрессий связаны естественным соотношением
,
т.е. фактически обоим уравнениям соответствуют одна и та же геометрическая картинка и экономически содержательная ситуация. Однако коэффициенты R2 не совпадают только потому, что зависимость сформулирована в разных координатах.
26. Что «лучше»: Y или ?
В качестве значений зависимой переменной в момент t мы можем использовать Yt или, например, прогноз . Матрица ковариаций вектора Y по условию модели равна V(Y) = s2In.
Матрица ковариаций вектора прогноза
.
Таким образом,
.
Матрица M идемпотентна, поэтому, имея собственные значения только 0 или 1 , неотрицательно определена, т.е.
(74)
Из формулы (74) следует аналогичное неравенство для дисперсии наблюдаемых и предсказанных значений
(75)
Таким образом, как это ни парадоксально, в качестве значения зависимой переменной зачастую лучше брать предсказанное по модели значение, а не фактически наблюдаемое. (Разумеется, это относится только к моделям, достаточно хорошо описывающим действительность, в то время как неравенство (75) справедливо для всех моделей.)