Содержание самостоятельной работы студентов 2 страница
Так, при оценке влияния каждой независимой переменной необходимо уметь разграничивать ее воздействие на объясняемую переменную от воздействия других независимых переменных. При этом множественный корреляционный анализ сводится к анализу парных, частных корреляций. На практике обычно ограничиваются определением их обобщенных числовых характеристик, таких как частные коэффициенты эластичности, частные коэффициенты корреляции, стандартизованные коэффициенты множественной регрессии.
Затем решаются задачи спецификации регрессионной модели, одна из которых состоит в определении объема и состава совокупности независимых переменных, которые могут оказывать влияние на объясняемую переменную. Хотя это часто делается из априорных соображений или на основании соответствующей экономической (качественной) теории, некоторые переменные могут в силу индивидуальных особенностей изучаемых объектов не подходить для модели. В качестве наиболее характерных из них можно назвать мультиколлинеарность или автокоррелированность факторных переменных.
3.1. Анализ множественной линейной регрессии с помощью
метода наименьших квадратов (МНК)
В данном разделе полагается, что рассматривается модель регрессии, которая специфицирована правильно. Обратное, если исходные предположения оказались неверными, можно установить только на основании качества полученной модели. Следовательно, этот этап является исходным для проведения множественного регрессионного анализа даже в самом сложном случае, поскольку только он, а точнее его результаты могут дать основания для дальнейшего уточнения модельных представлений. В таком случае выполняются необходимые изменения и дополнения в спецификации модели, и анализ повторяется после уточнения модели до тех пор, пока не будут получены удовлетворительные результаты.
На любой экономический показатель в реальных условиях обычно оказывает влияние не один, а несколько и не всегда независимых факторов. Например, спрос на некоторый вид товара определяется не только ценой данного товара, но и ценами на замещающие и дополняющие товары, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M(Y/Х = х) = f(x) рассматривается множественная регрессия
M(Y/Х1 = х1, Х2 = х2, …, Хр = Хр) = f(x1, х2, …, хр) (2.1)
Задача оценки статистической взаимосвязи переменных Y и Х1, Х2, ..., ХР формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде
Y = f( B, X) + e (2.2)
где X — вектор независимых (объясняющих) переменных; В — вектор параметров уравнения (подлежащих определению); e - случайная ошибка (отклонение); Y — зависимая (объясняемая) переменная.
Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X.
Рассмотрим самую употребляемую и наиболее простую для статистического анализа и экономической интерпретации модель множественной линейной регрессии. Для этого имеются, по крайней мере, две существенные причины.
Во-первых, уравнение регрессии является линейным, если система случайных величин (X1, X2, ..., ХР, Y) имеет совместный нормальный закон распределения. Предположение о нормальном распределении может быть в ряде случаев обосновано с помощью предельных теорем теории вероятностей. Часто такое предположение принимается в качестве гипотезы, когда при последующем анализе и интерпретации его результатов не возникает явных противоречий.
Вторая причина, по которой линейная регрессионная модель предпочтительней других, состоит в том, что при использовании ее для прогноза риск значительной ошибки оказывается минимальным.
Теоретическое линейное уравнение регрессии имеет вид:
, (2.3)
или для индивидуальных наблюдений с номером i:
(2.4)
где i = 1, 2, ..., п.
Здесь В = (b0, b1, ,bР) — вектор размерности (р+1) неизвестных параметров bj, j = 0, 1, 2, ..., р, называется j-ым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению Xj. Другими словами, он отражает влияние на условное математическое ожидание M(Y/Х1 = х1, Х2 = х2, …, Хр = xр) зависимой переменной Y объясняющей переменной Хj при условии, что все другие объясняющие переменные модели остаются постоянными. b0 — свободный член, определяющий значение Y в случае, когда все объясняющие переменные Xj равны нулю.
После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.
Пусть имеется n наблюдений вектора объясняющих переменных X = (1, X1, X2, ..., ХР) и зависимой переменной Y:
(1, хi1, xi2, …, xip, yi), i = 1, 2, …, n.
Для того чтобы однозначно можно было бы решить задачу отыскания параметров b0, b1, … , bР (т.е. найти некоторый наилучший вектор В), должно выполняться неравенство n > p + 1. Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между X и Yбудет абсолютно точно соответствовать имеющимся наблюдениям. При этом, если n = p + 1, то оценки коэффициентов вектора В рассчитываются единственным образом — путем решения системы p + 1 линейного уравнения:
(2.5)
где i = 1, 2, ..., п.
Например, для однозначного определения оценок параметров уравнения регрессии Y = bо + b1 X1 + b2 X2 достаточно иметь выборку из трех наблюдений (1, хi1, хi2, yi), i = 1, 2, 3. В этом случае найденные значения параметров b0, b1, b2 определяют такую плоскость Y = bо + b1 X1 + b2 X2 в трехмерном пространстве, которая пройдет именно через имеющиеся три точки.
С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка (х41, х42, х43, y4) практически всегда будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров.
Таким образом, вполне логичен следующий вывод: если число наблюдений больше минимально необходимой величины, т.е. n > p + 1, то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям. Поэтому возникает необходимость оптимизации, т.е. оценивания параметров b0, b1, …, bР, при которых формула регрессии дает наилучшее приближение одновременно для всех имеющихся наблюдений.
В данном случае число n = n - p - 1 называется числом степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность надежного вывода (получения наиболее реалистичных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений превосходило число оцениваемых параметров, по крайней мере, в 3 раза.
Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, отметим желательность выполнимости ряда предпосылок МНК, которые позволят обосновать характерные особенности регрессионного анализа в рамках классической линейной многофакторной модели.
3.2. Теоретические предпосылки МНК
1°. Математическое ожидание случайного отклонения ei равно нулю для всех наблюдений:
2°. Наличие гомоскедастичности (постоянство дисперсии случайных отклонений). Дисперсия случайных отклонений ei должна быть постоянной:
D(ei) = D(ej) = s2 для любых наблюдений с номером i и j.
3°. Отсутствие автокорреляции. Случайные отклонения ei и ej не должны зависеть друг от друга для всех i j.
4°. Случайное отклонение должно быть независимым от объясняющих переменных:
.
5°. Модель эмпирической регрессии должна являться линейной относительно параметров. Это ограничение не распространяется на факторные переменные.
6°. Отсутствие мультиколлинеарности. Между объясняющими переменными должна отсутствовать строгая (сильная) линейная зависимость.
7°. Случайные величины ‑ошибки ei, i = 1, 2, ..., п, должны иметь нормальный закон распределения (ei ~ N(0, se )).
Выполнимость данной предпосылки важна для проверки статистических гипотез и построения интервальных оценок.
Как и в случае парной регрессии, истинные значения параметров bj с помощью случайной выборки получить невозможно. В этом случае вместо теоретического уравнения регрессии (2.3) оценивается так называемое эмпирическое уравнение регрессии. Эмпирическое уравнение регрессии представим в виде:
(2.6)
Здесь — оценки теоретических значений b0, b1, ...,bp коэффициентов регрессии (эмпирические коэффициенты регрессий); е — эмпирическая оценка неизвестного случайного отклонения e. Для индивидуальных наблюдений имеем:
(2.7)
Оцененное уравнение в первую очередь должно описывать общую закономерную тенденцию изменения зависимой переменной Y. При этом необходимо иметь возможность оценить случайные отклонения измеренных значений yi от таких неслучайных расчетных значений.
По данным выборки объема п: (1, хi1, xi2, ..., xip, yi), i = 1, 2, ..., п, требуется оценить значения параметров bj вектора B , т.е. провести параметризацию выбранной модели (здесь хij, j = 0, 1, 2, ..., p значение переменной Xj в i-oм наблюдении).
При выполнении перечисленных выше предпосылок МНК относительно ошибок ei оценки коэффициентов b0, b1, ..., bp множественной линейной регрессии с помощью МНК являются несмещенными, эффективными и состоятельными (т.е. BLUE-оценками).
На основании (5.7) отклонение ei значения зависимой переменной Y от модельного значения , соответствующего уравнению регрессии в i-oм наблюдении (i = 1, 2, ..., n), рассчитывается по формуле:
(2.8)
Наиболее распространенным методом оценки параметров уравнения множественной линейной регрессии является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной Y от ее расчетных значений , получаемых с помощью модельного уравнения регрессии:
По МНК для нахождения оценок минимизируется следующая функция, квадратичная относительно коэффициентов регрессии b0, b1, ..., bp:
. (2.9)
Данная функция является квадратичной относительно неизвестных величин bj, j = 0, 1, ..., p. Она ограничена снизу, следовательно, имеет минимум. Необходимым условием минимума функции S(b0, b1, ..., bp) является равенство нулю всех ее частных производных по bj. Частные производные квадратичной функции (2.9) являются линейными функциям относительно искомых оценок коэффициентов регрессии:
,
, (2.10)
где j = 1, 2, ..., p.
Приравнивая их к нулю, получаем нормальную систему р + 1 линейных уравнений с р + 1 неизвестными оценками коэффициентов регрессии, что является одним из достоинств метода МНК. Такая система имеет обычно единственное решение:
,
, (2.11)
где j = 1, 2, ..., p.
В исключительных случаях, когда столбцы системы линейных уравнений линейно зависимы, она имеет бесконечно много решений или не имеет решения вовсе. Однако данные реальных статистических наблюдений к таким исключительным случаям практически никогда не приводят.
Система линейных уравнений относительно неизвестных оценок параметров линейной модели имеет следующий вид:
После деления всех уравнений системы на объем выборки n все суммарные величины преобразуются в соответствующие средние величины:
(2.12)
Из первого уравнения можно определить величину коэффициента регрессии :
Подставляя его в уравнение (2.8), получим следующую форму записи эмпирического линейного уравнения множественной регрессии:
Нормальную систему линейных уравнений МНК (2.11) наиболее наглядно можно представить с помощью векторно-матричной формы записи.
3.3. Оценивание коэффициентов множественной
линейной регрессии
Представим данные наблюдений и соответствующие коэффициенты в матричной форме.
Здесь Y — n - мерный вектор-столбец наблюдений зависимой переменной Y; X — матрица размерности п х (p + 1), в которой i - я строка (i = 1, 2, ... , п) представляет наблюдение вектора значений независимых переменных X1, X2, ..., ХР; единица соответствует переменной при свободном члене bo, В — вектор-столбец размерности (p+1) параметров уравнения регрессии (2.8); е — вектор-столбец отклонений выборочных (реальных) значений yi зависимой переменной Y (2.7) от значений , размерности п,получаемых из модельного уравнения регрессии:
(2.14)
Сумма квадратов отклонений МНК в матричном виде запишется следующим образом:
Условие экстремума: . (2.15)
Частные производные по параметрам в матричной форме вычисляются следующим образом:
Таким образом, получим в матричной форме оценки параметров линейной регрессии:
. (2.16)
Для вычисления их не нужно составлять и решать нормальную систему линейных уравнений МНК. Достаточно выполнить указанные в формуле (2.16) алгебраические операции в матричной форме над результатами исходных, выборочных наблюдений X и Y. В частности, при выполнении контрольной работы такие расчеты достаточно легко выполняются с помощью Мастера функций табличного процессора Microsoft Exel.
3.4. Интерпретация оценок параметров и уравнения
множественной линейной регрессии
Интерпретация – содержательное объяснение – результатов анализа экономического явления или объекта, представленного статистическими (выборочными данными), является одной их самых важных задач регрессионного анализа. Так, рассматривая полученные оценки параметров уравнения регрессии, можно сказать, изменение фактора на одну единицу своего измерения ведет к изменению объясняемой переменной на единиц измерения этой переменной. Направление ее изменения определяется знаком коэффициента перед фактором .
При этом единицы, в которых измерены выборочные значения переменных и , влияют на величину оценок параметров регрессии . Нужно обязательно фиксировать, в каких единицах измерены значения всех переменных, прежде чем заменять слово «единица» конкретными названиями: тонны, рубли и т.п. Отсюда следует, что коэффициенты регрессии перед различными факторами нельзя сравнивать друг с другом.
Все другие более общие показатели характера влияния факторов на объясняемую переменную, не зависящие от масштаба их измерения, такие как стандартизованные коэффициенты регрессии и коэффициенты эластичности, получают на основе этих оценок параметров .
Параметр представляет оценку значения объясняемой переменной при нулевых значениях факторных переменных. Она может иметь или не иметь экономический смысл в зависимости от характера конкретной ситуации.
При интерпретации модельного уравнения регрессии важно отмечать его следующие характерные особенности. Во-первых, и являются только оценками неизвестных констант и истинной, теоретической регрессии, которая к тому же не обязательно является линейной. Кроме того, величина и качество статистических оценок зависят от правильности выбора самого метода оценивания. В частности предпосылки МНК обосновывают условия, в которых можно получить «лучшие» оценки параметров модельной регрессии.
Во-вторых, эмпирическое уравнение регрессии отражает общую закономерную тенденцию, представленную выборочными данными, тогда как каждое отдельное наблюдение подвержено случайным воздействиям со стороны неконтролируемых факторов. Следовательно расчетные значения объясняемой переменной не могут быть детерминированными и их нужно дополнять характеристиками вариации, например, стандартными ошибками или доверительными интервалами.
И, наконец, в-третьих, правильность интерпретации зависит от правильного выбора и полноты модельного представления статистической связи. Это связано с включением в уравнение всех статистически значимых объясняющих переменных, а также выбором формы уравнения эмпирической функции регрессии. Если форма уравнения является линейной, то можно использовать такие характеристики линейной статистической связи, такие как коэффициенты парной, частной и множественной корреляции. Но в случае, когда реальная функция регрессии нелинейная, они не могут отражать силы влияния факторов.
4. Анализ качества уравнения регрессии
Выявление лучшего варианта эконометрической модели обычно осуществляется сравнением соответствующих им качественных характеристик, которые можно рассчитать на основе исходной статистической информации, содержащейся в векторе Y, матрице X, и новой расчетной информации, появляющейся после построении каждого из вариантов модели. Основным условием высокого «качества» модели является обоснованность математической формы уравнения эмпирической регрессии. Важную роль при этом играет как состав включенных в него независимых переменных, так и характер их взаимосвязей с зависимой переменной у, которые в совокупности определяют причины ее изменчивости.
Сопоставление новой расчетной информации, полученной после оценки параметров модельной регрессии с исходной статистической информацией позволяет установить, насколько удалось реализовать это условие на практике.
4.1. Характеристики и критерии качества эконометрических
моделей
Ведущая роль при определении характеристик качества эконометрической модели принадлежит ряду ее «выборочной» ошибки еi, i =1, 2,..., n, которая формируется с использованием найденных оценок ее параметров как
,
где — расчетное значение переменной уi при известных значениях независимых переменных Xj ‑ xij, i = l, 2,..., n; j = 0, 1, 2, ..., p. Так для линейной модели (2.7) значения определяются на основании следующего выражения:
Для каждого набора оценок параметров того или иного варианта модели, описывающей рассматриваемый процесс, рассчитывается «свой» ряд ошибки ei, который можно интерпретировать как ряд оценок ее истинных, но неизвестных значений e, теоретической регрессии (2.4).
В общем случае «качество» эконометрической модели оценивается с помощью различных характеристик. Самой простой из них является средняя ошибка аппроксимации, которая вычисляется как среднее отклонение расчетных значений от результатов фактических измерений. Совокупность отклонений можно рассматривать как абсолютные ошибки аппроксимации, а их абсолютные относительные величины
как относительные ошибки аппроксимации.
Чтобы получить общее представление о качестве модели, из относительных отклонений по каждому наблюдению вычисляют среднюю ошибку аппроксимации как простую среднюю арифметическую:
(3.1)
Считается, что допустимый предел ошибки не должен превышать 8 – 10%.
Другой характеристикой качества модельного уравнения регрессии является несмещенная оценка дисперсии случайных отклонений :
(3.2)
где р – число объясняющих переменных, факторов. Корень квадратный из оценки дисперсии обозначается как Se и называется стандартной ошибкой регрессии.
Ошибка модельной регрессии во многом предопределена тем, что оценки рассчитывают по данным случайных измерений, и они являются случайными значениями величин b0, b1, ,bР ‑ неизвестных коэффициентов регрессии. Насколько хорошим оказывается соответствие между ними, насколько приемлемым можно считать «качество» полученной модели регрессии.
Надежность случайных оценок устанавливают также с помощью определения оценок их дисперсий (стандартных ошибок). Кроме того, строят доверительные интервалы для теоретических значений и проверяют статистические гипотезы о значимости отличия их эмпирических величин от ожидаемых, теоретических значений.
4.2. Дисперсии и стандартные ошибки параметров линейной регрессии
Оценки коэффициентов множественной линейной регрессии в матричной форме (2.2) определяются следующим образом:
.
Чтобы оценить ошибку оценки матрицы коэффициентов регрессии подставим в правую часть формулы теоретические значения объясняемой переменной :
Таким образом, ошибка полученной оценки имеет вид:
Дисперсия многомерной случайной величины определяется с помощью ковариационной матрицы :
В силу того, что объясняющие переменные XJ не являются случайными величинами, их можно вынести за знак математического ожидания:
(3.4)
Матрица представляет собой ковариационную матрицу неизвестных случайных отклонений e теоретической регрессии:
.
В силу предпосылки МНК 2° все диагональные элементы одинаковы , а все остальные равны нулю в силу предпосылки 3°. Таким образом, ковариационная матрица случайных ошибок = , а выражение (3.4) принимает следующий вид: