Лекция 2. Парная регрессия. Суть регрессионного анализа. Линейная регрессия и корреляция, смысл и оценка параметров. Метод наименьших квадратов (МНК). Свойства оценок МНК.
Цель лекции:ознакомить студентов с сутью корреляционно-регрессионного анализа, с линейными моделями регрессии в экономических задачах, построением их и оценкой параметров.
Парная регрессия, суть регрессионного и корреляционного анализа
Чтобы дать количественное описание взаимосвязей между экономическими переменными, эконометрика пользуется методами регрессии и корреляции. Существуют две формы анализа линейных взаимосвязей:
1. корреляционный анализ проверяет наличие и значимость линейной зависимости между переменными, без указания зависимой и объясняющих переменных и оценивания формулы связи;
2. регрессивный анализ – выделяется зависимая переменная, после чего оценивается и анализируется формула ее зависимости от объясняющих переменных.
В зависимости от качества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.
Простая регрессия (регрессия между двумя переменными y и x) – модель вида
y=(x) ,
где y – зависимая (объясняющая) переменная (результативный признак)
x - независимая (объясняющая) переменная (признак-фактор).
Множественная регрессия (регрессия результативного признака с двумя и большим числом факторов) – модель вида
y=(x1, x2,…, xk).
Любое эконометрическое исследование начинается со спецификации модели, т.е. с формулировки вида модели, т.е. с теории, устанавливающей связь между переменными.
Прежде всего из всего круга факторов, влияющих на результативный признак, выделяют наиболее существенные влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.
Пусть выдвигается гипотеза о том, что величина спроса на товар A находится в обратной зависимости от цены X, т.е. x=a-bx.
В этом случае надо знать, какие остальные факторы предполагаются неизменными, возможно, в дальнейшем их придется учесть в модели и от простой регрессии перейти к множественной.
Уравнение простой регрессии устанавливает связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем целом по совокупности наблюдений.
Если y=300-4x, то с ростом цены x на 1 д.е. спрос в среднем уменьшается на 4 д.е. В уравнений регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной математической функцией.
Практически же в каждом отдельном случае величина y складывается из:
yi=xi+Ei,
где yi – фактическое значение результативного призанка;
xi – теоретическое значение результативного признака, найденное исходя из соответствующей математической функции y и x, т.е. из уравнения регрессии;
Ei – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Случайная величина E называется возмущением, она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
Уравнение зависимости спроса y от цены x точнее записывается так:
y=300-4x+E (E – всегда есть место случайности).
Обратная зависимость может характеризоваться и другими формулами:
x=a*x-b x=a+ x=
К случайным ошибкам относятся:
Ошибки спецификации – неправильный выбор математической функции для x, недоучет в уравнении регрессии какого-либо существенного фактора, т.е. испоьзование парной регрессии вместо множественной. (Так спрос на товар может определяться не только ценой, но и доходом на душу населения).
Ошибки выбора – обусловлены выборочными данными, неоднородностью данных. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата из совокупности исключают единицы с аномальными значениями.
Ошибки измерения – самые опасные ошибки. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выбора – увеличением объема исходных данных, то ошибки измерения более существенны, особенно на макроуровне.
Пример. В настоящее время органы государственной статистики получают балансы предприятий, достоверность которых никто не подтверждает.
Последующее обобщение такой информации может содержать ошибки измерения. Исследуя, например, в качестве результативного признака прибыль предприятий, надо быть уверенным в том, что предприятия показывают в отчетности адекватные реальной дейтсвительности величины.
Полагая, что ошибки измерения сведены к минимуму, основное внимание уделяют ошибкам спецификации модели.
В парной регрессии выбор математической функции x=f(x) осуществляется тремя методами:
1. графическим
2. аналитическим
3. экспериментальным
Графический метод нагляден для подбора вида уравнения регрессии. Основные типы кривых, используемых при количественной оценке связи:
| |||
| |||
x=a+bx x=a+bx+cx2
| |||||||||||||
x=a+ x=a+bx+cx2+dx3
| |||||||||||
x=a*xb x=a*bx
и другие.
При компьютерной обработке выбор вида уравнения регрессии осуществляется экспериментальным методом, т.е. путем сравнения величины остаточной дисперсии Дост, рассчитанной при разных моделях.
| |||||
| |||||
уравнение регрессии проходит в практике имеет место рассеивание
через все точки корреляционного точек относительно линейной
поля, это возможно только при регрессии (влияние прочих,
функциональной связи Дост=0 не учитываемых в уравнении
регрессии факторов)
Дост=(y-x)2
Лучше подходит уравнение регрессии, где Дост меньше.
Если Дост приблизительно одинаковая для нескольких функций, предпочтение отдается более простым видам функций.
Число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров по переменной x. Это означает, что искать линейную регрессию, имея менее 7 наблюдений, не имеет смысла. Если вид функции усложняется, то требуется увеличение объема наблюдений, т.к. каждый параметр при x должен рассчитываться хотя бы по 7 наблюдениям.
Значит, если мы выбираем параболу x=a+bx+cx2, то требуется объем информации не менее 14 наблюдений. Учитывая, что эконометрические модели часто строятся по данным рядов динамики, ограниченным по протяженности (10, 20, 30 лет), при спецификации модели предпочтительнее модель с меньшим числом параметров при x.
Линейная регрессия и корреляция: смысл и оценка параметров
Линейная регрессия сводится к нахождению уравнения вида x=a+bx или y=ax+bx+ε, которое позволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x. Теоретические значения представляют собой линию регрессии:
Построение линейной регрессии сводится к оценке ее параметров a и b двумя способами:
1. с помощью поля корреляции, выбрав на графике 2 точки, провести через них прямую линию. Далее по графику определить параметры: a – как точку пересечения линии регрессии с OY; b оценивают исходя из угла наклона линии регрессии, как , где dy – приращение результата;
dx – приращение фактора.
2. С помощью МНК, который позволяет получить такие оценки параметров как a и b, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных (теоретических) x минимальна:
i2=(yi-xi)2 min
Линия регрессии с минимальной
|
|
S=(y-a-bx)2
Вычислим частные производные и приравняем их к нулю:
=2(y-a-bx)(-1)=0, / :2
=2(y-a-bx)(-x)=0; / :2
-i+ai2=0, n*a+bi=i,
-ixi+i+i2=0; a*i+bi2=iyi.
Далее находим оценки и . Из уравнения имеем:
na=-b / :2
,
тогда b=
b - коэффициент регрессии, который показывает среднее изменение результата с изменением фактора на одну единицу
Пусть дана функция издержек:
x = 3000 + 2x => с увеличением объема продукции x на 1 ед.
издержки производства возрастают в
среднем на две тыс. руб.
издержки количество
в тыс. руб. единиц про-
дукции
То есть дополнительный прирост продукции на 1 ед. потребует увеличение затрат на 2 тыс. руб.
a– значение y при x=0.
Если признак-фактор x не может быть равен 0, то трактовка a не имеет смысла.
a может и не иметь экономического смысла, особенно при a<0. Интерпретировать можно лишь знак при a.
Если a>0, относительное изменение результата происходит медленнее, чем фактора, т.е. вариация результата меньше вариации фактора,
т.е. коэффициент вариации по фактору x выше коэффициента вариации для результата y.
Vx>Vy
Если a<0, изменение результата опережает изменение фактора:
Vy>Vx
Статистические свойства МНК-оценок параметров парной регрессии
МНК-оценки параметров а и b удовлетворяют свойствам несмещенности, эффективности и состоятельности.
Парная регрессия используется в эконометрике при изучении функции потребления:
C=Ky+L, где C – потребление
y – доход
K, L – параметры функции.
Введем мультипликатор:
коэффициент регрессии в функции потребления.
Пусть .
Это означает, что дополнительные вложения в размере 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу в 2,86 тыс. руб.
Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy. Его модификации:
rxy=b∙
всегда -1≤rxy≤1если b>0 , то 0≤ rxy≤1
b<0 , то -1≤ rxy≤0.
В примере:
rxy=
rxy=0,99 близок к 1 и означает наличие очень тесной зависимости затрат на производство y от величины объема выпущенной продукции x.
Величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость rxy к нулю еще не означает отсутствие связи между признаками. При другой спецификации модели связь между признаками может оказаться достаточно тесной.