Доверительные интервалы

Для построения и анализа эконометрических моделей используются принципы выборочного метода. Суть метода состоит в том, что из полной совокупности объектов выбирают случайным образом n объектов. Данную выборку подвергают детальному исследованию, и по результатам делают вывод о всей совокупности (например, контроль качества партии товара по выбранным образцам).

Пусть эмпирические данные наблюдений {x₁, x₂, …, x_n} представляют собой выборку значений случайной величины X, подчиняющейся нормальному распределению N(m,s²), и по этим данным требуется оценить математическое ожидание (среднее значение) m=EX и дисперсию (среднеквадратичное отклонение от среднего значения) s²=DX. Измеренные значения x_i являются случайными величинами, причем Ex_i=m, Dx_i=s². Интуиция подсказывает нам, что среднее арифметическое

является лучшей оценкой для величины m, чем отдельные наблюдения x_i. Действительно,

т.е. оценка является несмещенной, а дисперсия среднего

при n®∞ стремится к нулю. Величину дисперсии s² можно оценить по данным x_i известными формулами (см.4.5)

или

(8.1)

При этом известно [4], что оценка s_x² является смещенной оценкой
дисперсии s²:

Оценка (8.1) несмещенная:

Для определения интервальной оценки неизвестного параметра m введем случайную величину

(8.2)

Можно доказать, что величина x распределена по нормальному закону с математическим ожиданием Ex=0 и дисперсией Dx=1, вследствие чего

Полагая

получим после элементарных преобразований, что с вероятностью g=1-a выполняется неравенство

(8.3)

Вероятность того, что искомое значение параметра m не содержится в указанном интервале, равна a. Интервал

называется доверительным интервалом, отвечающим доверительной вероятности g.

Если, к примеру, k=2, доверительная вероятность g=0.955. Значению k=3 отвечает вероятность g = 0.997 (правило «трех сигм»).

Но для использования указанных доверительных интервалов на практике нужно знать стандартное отклонение s. Если значение s неизвестно, для
его оценки используется величина . В этом случае можно ввести случайную величину

которая имеет распределение Стьюдента с n-1 степенью свободы [4]. Не выписывая здесь соответствующей функции распределения, приведем несколько значений доверительной вероятности g(k,n), отвечающих доверительному интервалу

(8.4)

При k=2 и n=3 имеем g=0.817; при k=2 и n=7 вероятность g=0.908; g(3,3)=0.905; g(3,5)=0.96. С ростом n различие между распределением Стьюдента и нормальным распределением становится меньше, при n>20 этим различием в большинстве случаев можно пренебречь.

В случае парной линейной регрессии y=a+bx мы предполагали, что для наблюдаемых значений (x_i,y_i), i = 1,2,....n выполняются равенства y_i=a+bx_i+e_i, где e_iÎN(0,s²).

Можно доказать, что несмещенной оценкой для s² является число

(8.5)

Величина s характеризует стандартное отклонение ошибок e_i. В таблице из §5 её значение представлено в третьей строчке правого столбца. Что же касается стандартных отклонений для коэффициентов ã и b̃, то для их вычисления введем ковариационную матрицу Q=Covq, где

Элементы ковариационной матрицы

Можно доказать, что оценки ã и b̃ являются несмещенными, т.е. Eã=a, Eb̃=b.

Дисперсии Dã и Db̃ равны соответственно элементам q₁₁ и q₂₂ матрицы Q. Можно доказать, что ковариационная матрица вычисляется по формуле

Q=s²(X^TX)^-1.

В случае парной регрессии матрица (X^TX) имеет вид (5.8).

Поэтому

Подставляя вместо неизвестной дисперсии s² ее оценку (8.5) и извлекая квадратные корни, найдем оценки стандартных отклонений s_a и s_b коэффициентов регрессионного уравнения, которые содержатся во второй строчке таблицы из §5. Можно построить и доверительные интервалы для этих коэффициентов, если принять во внимание, что величины

имеют распределение Стьюдента с n-2 степенями свободы.

Доверительный интервал для прогнозируемых значений величины y_*=ã+b̃x_*, отвечающей некоторому заданному значению x_*, также определяется распределением Стьюдента. Его границы вычисляются по формуле

y = y_*± t(n-2, 1-a/2)s_* (8.6)

где коэффициент t(n-2, 1-a/2) имеет тот же смысл, что и коэффициент k в формуле (8.4);

1-a — доверительная вероятность, равная, например, 0.95, в этом случае a=0.05;

n-2 — число степеней свободы;

s_* — стандартное отклонение случайного значения y_*, которое можно вычислить по формуле

В пакете Statistica границы (8.6) вычисляются и изображаются на графиках регрессии (рис. 6).

Аналогично рассматривается общий случай множественной линейной регрессии y =Xq + e.

Можно показать, что дисперсия прогноза Dy_*=s²[x_*^T(X^TX)^-1x_*+1], где x_*=( x_1*, x_2*,…,x_m_*)^T — заданный набор независимых переменных.

Несмещенной оценкой для s² является число

Поэтому оценка среднеквадратичного отклонения y_* будет

s_y* = s[(x_*)^T(X^T X)^-¹x_* +1]^1/2,

а граница доверительного интервала

y = y_* ± s_y*t(n-m, 1-a/2).

Рис.6. Изображение доверительного интервала в Statistica.