Лекция 2. Парная регрессия. Суть регрессионного анализа. Линейная рег­рессия и корреляция, смысл и оценка параметров. Метод наименьших квадра­тов (МНК). Свойства оценок МНК.

Цель лекции:ознакомить студентов с сутью корреляционно-регрессионного анализа, с линейными моделями регрессии в экономических задачах, построением их и оценкой параметров.

 

Парная регрессия, суть регрессионного и корреляционного анализа

Чтобы дать количественное описание взаимосвязей между экономическими переменными, эконометрика пользуется методами регрессии и корреляции. Существуют две формы анализа линейных взаимосвязей:

1. корреляционный анализ проверяет наличие и значимость линейной зависимости между переменными, без указания зависимой и объясняющих переменных и оценивания формулы связи;

2. регрессивный анализ – выделяется зависимая переменная, после чего оценивается и анализируется формула ее зависимости от объясняющих переменных.

В зависимости от качества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая регрессия (регрессия между двумя переменными y и x) – модель вида

y=(x) ,

где y – зависимая (объясняющая) переменная (результативный признак)

x - независимая (объясняющая) переменная (признак-фактор).

Множественная регрессия (регрессия результативного признака с двумя и большим числом факторов) – модель вида

y=(x1, x2,…, xk).

Любое эконометрическое исследование начинается со спецификации модели, т.е. с формулировки вида модели, т.е. с теории, устанавливающей связь между переменными.

Прежде всего из всего круга факторов, влияющих на результативный признак, выделяют наиболее существенные влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Пусть выдвигается гипотеза о том, что величина спроса на товар A находится в обратной зависимости от цены X, т.е. x=a-bx.

В этом случае надо знать, какие остальные факторы предполагаются неизменными, возможно, в дальнейшем их придется учесть в модели и от простой регрессии перейти к множественной.

Уравнение простой регрессии устанавливает связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем целом по совокупности наблюдений.

Если y=300-4x, то с ростом цены x на 1 д.е. спрос в среднем уменьшается на 4 д.е. В уравнений регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной математической функцией.

Практически же в каждом отдельном случае величина y складывается из:

yi=xi+Ei,

где yi – фактическое значение результативного призанка;

xi – теоретическое значение результативного признака, найденное исходя из соответствующей математической функции y и x, т.е. из уравнения регрессии;

Ei – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина E называется возмущением, она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

Уравнение зависимости спроса y от цены x точнее записывается так:

y=300-4x+E (E – всегда есть место случайности).

Обратная зависимость может характеризоваться и другими формулами:

x=a*x-b x=a+ x=

К случайным ошибкам относятся:

Ошибки спецификации – неправильный выбор математической функции для x, недоучет в уравнении регрессии какого-либо существенного фактора, т.е. испоьзование парной регрессии вместо множественной. (Так спрос на товар может определяться не только ценой, но и доходом на душу населения).

Ошибки выбора – обусловлены выборочными данными, неоднородностью данных. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата из совокупности исключают единицы с аномальными значениями.

Ошибки измерения – самые опасные ошибки. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выбора – увеличением объема исходных данных, то ошибки измерения более существенны, особенно на макроуровне.

Пример. В настоящее время органы государственной статистики получают балансы предприятий, достоверность которых никто не подтверждает.

Последующее обобщение такой информации может содержать ошибки измерения. Исследуя, например, в качестве результативного признака прибыль предприятий, надо быть уверенным в том, что предприятия показывают в отчетности адекватные реальной дейтсвительности величины.

Полагая, что ошибки измерения сведены к минимуму, основное внимание уделяют ошибкам спецификации модели.

В парной регрессии выбор математической функции x=f(x) осуществляется тремя методами:

1. графическим

2. аналитическим

3. экспериментальным

Графический метод нагляден для подбора вида уравнения регрессии. Основные типы кривых, используемых при количественной оценке связи:

 

 

       
   
y
 
y
 


x=a+bx x=a+bx+cx2

 

                           
     
 
 
   
   
 
y
     
 
         
 
 
 

 


x=a+ x=a+bx+cx2+dx3

                       
     
 
 
   
   
 
y
       
 
 
 

 


x=a*xb x=a*bx

 

       
   
 
 


и другие.

При компьютерной обработке выбор вида уравнения регрессии осуществляется экспериментальным методом, т.е. путем сравнения величины остаточной дисперсии Дост, рассчитанной при разных моделях.

               
 
   
       
 
 

 

 


           
   
 
   
x
 
 


уравнение регрессии проходит в практике имеет место рассеивание

через все точки корреляционного точек относительно линейной

поля, это возможно только при регрессии (влияние прочих,

функциональной связи Дост=0 не учитываемых в уравнении

регрессии факторов)

Дост=(y-x)2

Лучше подходит уравнение регрессии, где Дост меньше.

Если Дост приблизительно одинаковая для нескольких функций, предпочтение отдается более простым видам функций.

Число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров по переменной x. Это означает, что искать линейную регрессию, имея менее 7 наблюдений, не имеет смысла. Если вид функции усложняется, то требуется увеличение объема наблюдений, т.к. каждый параметр при x должен рассчитываться хотя бы по 7 наблюдениям.

Значит, если мы выбираем параболу x=a+bx+cx2, то требуется объем информации не менее 14 наблюдений. Учитывая, что эконометрические модели часто строятся по данным рядов динамики, ограниченным по протяженности (10, 20, 30 лет), при спецификации модели предпочтительнее модель с меньшим числом параметров при x.

 

Линейная регрессия и корреляция: смысл и оценка параметров

 
 

Линейная регрессия сводится к нахождению уравнения вида x=a+bx или y=ax+bx+ε, которое позволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x. Теоретические значения представляют собой линию регрессии:

 
 

Построение линейной регрессии сводится к оценке ее параметров a и b двумя способами:

1. с помощью поля корреляции, выбрав на графике 2 точки, провести через них прямую линию. Далее по графику определить параметры: a – как точку пересечения линии регрессии с OY; b оценивают исходя из угла наклона линии регрессии, как , где dy – приращение результата;

dx – приращение фактора.

2. С помощью МНК, который позволяет получить такие оценки параметров как a и b, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных (теоретических) x минимальна:

i2=(yi-xi)2 min

 

 
 

       
   
 
 


Линия регрессии с минимальной

ε1
дисперсией остатков

 
 

 


 
 

пусть i2=S, тогда задача сводится к min функции двух переменных (a и b):

S=(y-a-bx)2

Вычислим частные производные и приравняем их к нулю:

=2(y-a-bx)(-1)=0, / :2

=2(y-a-bx)(-x)=0; / :2

-­i+ai2=0, n*a+bi=i,

-ixi+i+i2=0; a*i+bi2=iyi.

Далее находим оценки и . Из уравнения имеем:

na=-b / :2

,

тогда b=

b - коэффициент регрессии, который показывает среднее изменение результата с изменением фактора на одну единицу

Пусть дана функция издержек:

x = 3000 + 2x => с увеличением объема продукции x на 1 ед.

издержки производства возрастают в

среднем на две тыс. руб.

издержки количество

в тыс. руб. единиц про-

дукции

То есть дополнительный прирост продукции на 1 ед. потребует увеличение затрат на 2 тыс. руб.

a– значение y при x=0.

Если признак-фактор x не может быть равен 0, то трактовка a не имеет смысла.

a может и не иметь экономического смысла, особенно при a<0. Интерпретировать можно лишь знак при a.

Если a>0, относительное изменение результата происходит медленнее, чем фактора, т.е. вариация результата меньше вариации фактора,

т.е. коэффициент вариации по фактору x выше коэффициента вариации для результата y.

Vx>Vy

Если a<0, изменение результата опережает изменение фактора:

Vy>Vx

 

Статистические свойства МНК-оценок параметров парной регрессии

МНК-оценки параметров а и b удовлетворяют свойствам несмещенности, эффективности и состоятельности.

Парная регрессия используется в эконометрике при изучении функции потребления:

C=Ky+L, где C – потребление

y – доход

K, L – параметры функции.

 

Введем мультипликатор:

 

коэффициент регрессии в функции потребления.

Пусть .

Это означает, что дополнительные вложения в размере 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу в 2,86 тыс. руб.

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy. Его модификации:

rxy=b∙

всегда -1≤rxy≤1если b>0 , то 0≤ rxy≤1

b<0 , то -1≤ rxy≤0.

В примере:

rxy=

rxy=0,99 близок к 1 и означает наличие очень тесной зависимости затрат на производство y от величины объема выпущенной продукции x.

Величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость rxy к нулю еще не означает отсутствие связи между признаками. При другой спецификации модели связь между признаками может оказаться достаточно тесной.