Некоторые проблемы эконометрического моделирования

Ответ

Одно из условий, на которое опирается эконометрическое моделирование, состоит в том, что функциональное соотношение не меняется в течение рассматриваемого периода. Однако это условие часто нереалистично, особенно в случае, когда приходится иметь дело с переходной экономикой. Это обычная проблема, с которой экономист сталкивается при исследовании экономических процессов с изменчивой структурой. Как бы то ни было, приходится делать предположение о неизменности формы модели, иначе моделирование не было бы возможно.

Один из возможных способов учета структурных сдвигов состоит в использовании различного рода сконструированных переменных, таких как, фиктивные переменные и тренды. Включение в эконометрическую модель трендов позволяет учитывать изменения во всех коэффициентах регрессионного уравнения: свободном члене и коэффициентах при “экономических” переменных. Фиктивные переменные (принимающие только два значения — 0 и 1) позволяют учесть резкие структурные скачки.

Кроме того, использование фиктивных переменных и гармонических трендов (синусов и косинусов) позволяет учесть в модели сезонные колебания.

Все же эти методы не позволяют адекватно учесть изменения, если неизвестен их характер или момент изменения (в случае скачка). Особенно большие проблемы создают структурные сдвиги для прогнозирования. Если резкое изменение в параметрах экономического процесса произошло в течение исследуемого периода, то это изменение можно заметить и учесть в модели. Если же неожиданное изменение произойдет после исследуемого периода, то сделанные прогнозы окажутся неверными.

Недостаточный набор данных

Имеющихся данных может быть недостаточно для того, чтобы определить функциональную связь между переменными, либо они недостаточно варьируются, чтобы можно было отличить влияние одного фактора от влияния другого. Последняя проблема получила в эконометрическом моделировании название “мультиколлинеарности”. В отличие от экспериментальных наук, у отдельного исследователя, изучающего экономические процессы, как правило, нет возможности сколько-нибудь заметно на них повлиять. Обычно за него это делает правительство. «...От правительственного манипулирования экономикой могла бы выиграть только эконометрика».

Чтобы восполнить недостаток данных, исследователю приходится делать некоторые априорные допущения, зачастую недостаточно обоснованные.

Как правило, функциональная форма модели заранее неизвестна. В этом случае хорошим выходом из положения было бы использование непараметрических методов оценивания. Однако для применения таких методов необходим довольно значительный набор данных. Поэтому на практике, как правило, предполагают, что зависимость между двумя переменными линейна. Часто линейная зависимость дает хорошую аппроксимацию гладкой зависимости в некоторой небольшой окрестности, но, вообще говоря, нет никакой гарантии, что “истинная” зависимость не окажется сильно нелинейной как раз в том интервале, к которому относятся данные.

При применении статистических методов следует помнить, что постулируемые свойства, как правило, носят асимптотический характер, то есть, проявляются в пределе, при стремлении количества наблюдений к бесконечности. В частности, если в линейной регрессии в качестве регрессоров используются лаги (запаздывание) зависимой переменной, то, даже если выполнены стандартные предположения регрессионного анализа, полученные оценки будут состоятельными, но смещенными.

Проблема ложной регрессии

Для того, чтобы получить высокий коэффициент детерминации, достаточно, чтобы в зависимой переменной и в регрессоре (независимой переменной) имелся тренд и динамика трендов до некоторой степени совпала. Коэффициент детерминации, как правило, бывает высок в регрессии одного растущего показателя по другому растущему показателю.

С другой стороны, коэффициент детерминации, как правило, бывает низким в регрессии одного процесса типа “белый шум” по другому такому же процессу.

Двумя основными причинами наличия “тренда” во временных рядах являются

· детерминированная составляющая (тогда говорят о детерминированном тренде),

· нестационарность (тогда говорят о стохастическом тренде).

Наличие детерминированного тренда может приводить к появлению ложной регрессии. Пусть, например Y_t и X_t порождаются процессами Y_t = a + b_t + e_t, X_t = c + d_t + x_t, где e_t, x_t — независимые, одинаково распределенные ошибки. Регрессия Y_t по константе и X_t может иметь высокий коэффициент детерминации и этот эффект только усиливается с ростом размера выборки. К счастью, с “детерминированным” вариантом ложной регрессии достаточно легко бороться. В рассматриваемом случае достаточно добавить в уравнение тренд в качестве регрессора, и эффект ложной регрессии исчезает.

Если существует стационарная линейная комбинация нестационарных случайных процессов, то эти процессы называют коинтегрированными. Коинтегрированность гарантирует (по крайней мере, асимптотически, то есть для больших выборок), что не возникнет ложная регрессия. Теория коинтеграции — быстро развивающийся раздел современной эконометрики.

Для оценивания моделей с нестационарными, но коинтегрированными переменными, вообще говоря, следует использовать специальные методы. К сожалению, методы оценивания коинтеграционных регрессий сложны с точки зрения реализации, и способы проверки их спецификации плохо разработаны. Поэтому, несмотря на указанные недостатки, обычный метод наименьших квадратов остается наиболее мощным инструментом эконометрики.

Вопрос 2. Как называется метод, который наиболее часто используется при оценке параметров линейной модели в эконометрике?

Ответ

Метод наименьших квадратов.

При наличии объективной тенденции поддержания линейной связи между переменными и естественно рассмотреть линейную модель наблюдений

Если и — «истинные» значения параметров линейной модели связи, то

представляет собой ошибкув - м наблюдении (error, или disturbance). Однако, даже при действительном существовании линейной связи, параметры и такой связи остаются неизвестными, и мы можем судить об их истинных значениях лишь приближенно, оценивая значения и на основании ограниченного количества имеющихся данных наблюдений (статистических таблиц).

Поиск подходящих оценок для и можно осуществлять, например, путем поиска на диаграмме рассеяния прямой, проходящей через точку — «центр» системы точек и «наилучшим образом» выражающей на направление вытянутости этой системы (облака) точек. Пусть прямая

рассматривается в числе прочих в процессе такого поиска. Для - го наблюдения мы будем наблюдать тогда расхождение («невязку»)

причем значения могут быть как положительными, так и отрицательными. При изменении значений и будет изменяться и алгебраическая сумманевязок . С этой точки зрения, мы можем остановить свой выбор на прямой, для которой соблюдается баланс положительных и отрицательных невязок, так что

return false">ссылка скрыта

Соответствующие этой прямой значения и будем обозначать как и . Итак, прямая

проходит через точку , и если обозначить еще

то тогда

Значение называется остатком в i - м наблюдении. Для реальных данных, как правило, все остатки отличны от нуля, так что часть из них имеет положительный знак, а остальные — отрицательный.

Оказывается, что ту же самую прямую можно получить, исходя из другого принципа — принципа наименьших квадратов. Согласно этому принципу, среди всех возможных значений , , претендующих на роль оценок параметров и , следует выбирать такую пару , , для которой

Иначе говоря, выбирается такая пара , , для которой сумма квадратов невязок оказывается наименьшей. Получаемые при этом оценки называются оценками наименьших квадратов, и можно показать, что они совпадаютс ранее определенными оценками и , так что

При построении оценок наименьших квадратов заранее не требуется, чтобы Соответствующая прямая проходила через точку ; этот факт является свойством оценок наименьших квадратов. Наличие такого свойства мы докажем чуть позднее, а сейчас обратимся к вопросу о том, как практическинайти указанные оценки и .

Если исходить из первого определения, то, прежде всего, следует заметить, что если прямая проходит через точку , то тогда , так что и для поиска «наилучшей» прямой достаточно определить ее угловой коэффициент . Изменяя значения и следя за изменением значений , мы можем, в принципе, найти искомое с любой наперед заданной точностью.

Использование непосредственного перебора значений , с целью минимизации суммы квадратов

при реализации метода наименьших квадратов также возможно, хотя и требует, конечно, существенно больших вычислительных усилий.

Было бы идеальным, если бы существовала возможность прямого вычислениязначений и по какой-нибудь формуле на основании известных значений .

Однако, существует еще один способ получения точных формул для и , исходящий из принципа наименьших квадратов.

Согласно этому принципу, оценки и находятся путем минимизации суммы квадратов

по всем возможным значениям и при заданных (наблюдаемых) значениях . Функция как функция двух переменных описывает поверхность в трехмерном пространстве с прямоугольной системой координат , и дело сводится к известной математической задаче поиска точки минимума функции двух переменных.

Такая точка находится путем приравнивания нулю частных производныхфункции по переменным и , т. е. приравниванием нулю производной функции как функции только от при фиксированном ,

и производной функции как функции только от при фиксированном ,

Это приводит к так называемой системе нормальных уравнений

решением которой и является пара , . Остается заметить, что согласно правилам вычисления производных,

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Последняя система является системой двух линейных уравнений с двумя неизвестнымии может быть легко решена, например, методом подстановки.

Из первого уравнения системы находим:

так что точка действительно лежит на прямой . Подстановка полученного выражения для во второе уравнение системы дает

откуда

Заметим еще, что

Последние соотношения позволяют получить более употребительную форму записи выражения для (в отклонениях от средних значений)

которая в паре с выражением

дает явное и простое решение задачи отыскания оценок , на основе принципа наименьших квадратов.

Разумеется, такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы. Действительно, этот определитель равен

Последнее условие называется условием идентифицируемостимодели наблюдений , и означает попросту, что не все значения совпадают между собой. При нарушении этого условия всеточки , лежат на однойвертикальной прямой

Оценки и обычно называют оценками наименьших квадратов (least squares estimates), или LS — оценками. Обратим еще раз внимание на полученное выражение для . Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии и выборочной ковариации так что, в этих терминах,

Отсюда, в частности, видно, что значения близки к нулю, если ковариация между наблюдаемыми значениями переменных и близка к нулю. (Однако, близость к нулю здесь следует понимать как относительную, с учетом реальных значений выборочной дисперсии .) Кроме того, знак совпадаетсо знаком ковариации , поскольку .

Вычисление значений и для нашего примера дает значения

Таким образом, «наилучшая» прямая имеет вид

и мы принимаем ее в качестве аппроксимации для «истинной» модели линейной связи между переменными и . Эта аппроксимация указывает на то, что при изменении переменной на единицу (измерения ) переменная изменяется «в среднем» на единиц (измерения ).

Факт горизонтальности прямой при и наличие у этой прямой наклона при , позволяют произвести некоторую детализацию структуры остатков С этой целью, опять рассмотрим диаграмму рассеяния, сосредоточившись на какой-нибудь одной точке. Пусть в нашем примере это точка A = (7.1, 3.3). Опустим из этой точки перпендикуляр на ось абсцисс. Он пересечет прямую в точке B = (7.1, 3.118) и прямую в точке C = (7.1, 3.183), так что расстояние по вертикали от точки A до прямой , равное AB = 3.3 — 3.118= 0.182, раскладывается в сумму

Отсюда находим, что расстояние по вертикали от точки A до прямой равно AC = AB — CB = 0.182 — (3.183 — 3.118) = 0.117.

Вообще, для любой точки на диаграмме рассеяния можно записать:

где - ордината точки «наилучшей» прямой, имеющей абсциссу . Возведем обе части последнего представления в квадрат и просуммируем левые и правые части полученных для каждого i равенств:

Входящая в правую часть сумма

называется чаще всего остаточной суммой квадратов (residual sum of squares) и имеет аббревиатуру RSS(Доугерти, Айвазян-Мхитарян, Себер), хотя в литературе по эконометрике можно встретить и такие варианты аббревиатур как SSR (Green), а также ESS (error sum of squares — Harvey, Chatterjie) и SSE (Магнус-Катышев-Пересецкий). При чтении различных руководств по эконометрике следует обратить особое внимание на то, какие именно термины и обозначения используются авторами.

Заметим, что если , то и . Следовательно, при

При , по самому определению прямой , имеем

Тенденция линейной связи между и выражена в максимальной степени, если . При этом, все точки , i = 1, 2,..., n, располагаются на одной прямой . Тенденция линейной связи между переменными и не обнаруживается вовсе, если совпадает с Таким образом, есть определенные основания предложить в качестве «мерывыраженности» в данных наблюдений линейной связи между переменными величину

называемую коэффициентом детерминации. Этот коэффициент изменяется в пределах от (при , т. е. ) до (при ),

Вернемся, однако, к полученному ранее представлению в виде

и рассмотрим третью сумму в правой части этого представления. Имеем:

Но

(см. первое уравнение из системы нормальных уравнений). К тому же,

(см. второе уравнение из системы нормальных уравнений). Таким образом,

и, следовательно, справедливо представление

так что

т. е. получено второе представление для в виде

Стоящую здесь в числителе сумму квадратов мы будем называть суммой квадратов, объясненной моделью (explained sum of squares), и будем использовать для ее обозначения аббревиатуру ESS, так что

Сумму квадратов, стоящую в знаменателе, будем называть полной суммой квадратов (total sum of squares) и будем использовать для ее обозначения аббревиатуру TSS, так что

Напомним также, что нами уже была определена остаточная сумма квадратов

Все эти три суммы квадратов связаны соотношением

которое представляет собой разложение полной суммы квадратовна сумму квадратов, объясненную моделью, и остаточную сумму квадратов. Используя эти три суммы, мы находим также, что

Таким образом, значение R²тем выше, чем больше доля объясненной моделью суммы квадратов ESS по отношению к полной сумме квадратов TSS.

Термины «полная»и «объясненная моделью» суммы квадратов имеют следующее происхождение. Полная сумма квадратов Соответствует значению RSS в ситуации, когда и «наилучшая» прямая имеет вид , отрицающий наличие линейной зависимости от . Вследствие этого, привлечение информации о значениях переменной не дает ничего нового для объяснения изменений значений от наблюдения к наблюдению. Степень этой изменчивости мы уже характеризовали значением выборочной дисперсии

при этом, и .

В ситуации, когда , мы имеем нетривиальное представление с , и поэтому можно записать:

Но

где — переменная, принимающая в i - м наблюдении значение . (Здесь мы использовали тот факт, что

так что

и .) К тому же,

где — переменная, принимающая в i - м наблюдении значение . (Здесь мы использовали тот факт, что

.)

В итоге, мы получаем разложение показывающее, что изменчивость переменной (степень которой характеризуется значением ) частично объясняется изменчивостью переменной (степень которой характеризуется значением ). Не объясненная переменной часть изменчивости переменной Соответствует изменчивости переменной (степень которой характеризуется значением ).

Таким образом, вспомогательная переменная берет на себя объяснение некоторой части изменчивости значений переменной , и эта объясненная часть будет тем больше, чем выше значение коэффициента детерминации , который мы теперь можем записать также в виде

Поскольку переменная получается линейным преобразованием переменной , то изменчивость однозначно связана с изменчивостью , так что, в конечном счете, построенная модель объясняет часть изменчивости переменной изменчивостью переменной . Поэтому, принять говорить о переменной как об объясняемойпеременной, а о переменной — как об объясняющейпеременной.

Вернемся опять к нашему примеру. В этом примере

ESS = 0.043474

RSS = 0.161231

TSS = 0.204705,

так что

= 0.043474/16 = 0.002717,

= 0.161231/16 = 0.010077,

= 0.012784,

= 0.043474/0.204705 = 0.212374.

Значение коэффициента детерминации оказалось достаточно малым, и один из последующих вопросов будет состоять в том, сколь близким к нулю должно быть значение R², чтобы мы могли говорить о практическом отсутствиилинейной связи между переменными.

Вопрос 3. Как называются показатели, которые характеризует степень разброса случайной величины вокруг ее среднего значения?

Ответ

Наиболее простыми показателями, характеризующими последовательности и , являются ихсредние значения (means)

а также дисперсии (точнее, выборочные дисперсии - sample variances)

характеризующие степень разброса значений ( ) вокруг своего среднего ( , Соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений. Отсюда обозначение Var (variance). Впрочем, более естественным было бы измерение степени разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый стандартным отклонением (standard deviance - Std.Dev.) переменной (переменной ), определяемый соотношением

( Соответственно).

Вопрос 4. Какой физический смысл несет коэффициент детерминации в эконометрической линейной модели связи двух переменных, таких как расходы и доходы, цена и спрос, число занятых и уровень безработицы и т.д.?

Ответ