Спецификация уравнения регрессии и ошибки спецификации
Спецификация переменных в уравнениях регрессии
При построении эконометрической модели исследователь специфицирует составляющие ее соотношения, выбирает переменные, входящие в эти соотношения, а также определяет вид математической функции, представляющей каждое соотношение. Остановимся на вопросе выбора переменных, которые должны быть включены в модель. До сих пор мы неявно считали, что имеем правильную спецификацию модели.
На практике никогда не получается правильная спецификация модели, возникают так называемые ошибки спецификации. Экономическая теория, положения которой используются при выборе регрессоров, не может быть совершенной. Поэтому исследователь может включить в эконометрическую модель переменные, которых там не должно быть, и может не включить другие переменные, которые должны там присутствовать.
Т.е. изучим две ситуации.
Случай 1. Исключены существенные переменные.
Процесс, порождающий данные:
, i=1,…,n. (4.1а)
Модель:
(4.1б)
Случай 2. Включены несущественные переменные.
Процесс, порождающий данные:
(4.2а)
Модель:
, i=1,…,n (4.2б)
Часто регрессию (4.1а) называют длинной, а регрессию (4.1б) – короткой.
В первом случае, если опущены переменные, которые должны быть включены в регрессию, оценки коэффициентов , j=1,…,k являются, вообще говоря, смещенными (но обладают меньшей дисперсией) за исключением двух случаев, когда =0, j=1,…,l или регрессоры X1,…, Xk и Z1,…, Zl ортогональны.
Смещенной является и оценка дисперсии случайной ошибки , а, следовательно, стандартные ошибки и многие статистические тесты, в которых используется значение , становятся некорректными.
Во втором случае, если включены переменные, которые не должны присутствовать в модели, оценки коэффициентов , j=1,…,k будут несмещенными, но неэффективными. Поскольку несмещенность оценок и величины дисперсии сохраняется, возникает иллюзия, что надо включать в модель как можно больше регрессоров. Но в этом случае падает точность оценок, и может возникнуть проблема мультиколлинеарности объясняющих переменных.
На практике, однако, нам неизвестен процесс, порождающий данные, т.е. мы не знаем истинную модель. Поэтому, как правило, возникает проблема – какую модель выбрать: короткую или длинную, т.е. включать дополнительные регрессоры в модель или не включать: в первом случае мы получим смещенные оценки коэффициентов регрессии, а во втором случае – неэффективные оценки. Решение этой проблемы может быть найдено на основе критерия минимума среднеквадратичного отклонения значений коэффициентов, см. [5, с. 112-114].
Часто случается также, что исследователь не может использовать данные по переменным, которые включены в модель. Некоторые переменные, например, невозможно измерить, другие поддаются измерению, но это достигается большими затратами времени и ресурсов. В таких случаях вместо отсутствующих переменных полезно использовать некоторые их заменители (proxy).
Например, если вы не имеете данных о качестве образования, вы можете использовать показатель качества образования как отношение числа преподавателей к числу студентов или денежные расходы на одного студента.
Причин использования "прокси"-переменных две: во-первых, если пропущена важная для модели переменная, то оценки будут смещены (случай 1 выше), а, во-вторых, результаты оценки регрессии с включением замещающих переменных могут дать косвенную информацию о тех переменных, которые замещены данными переменными.