Парная регрессия и корреляция

Цели эконометрического моделирования

В качестве цели эконометрического моделирования обычно рассматривают анализ исследуемого экономического объекта (процесса); прогноз его экономических показателей, имитацию развития объекта при различных значениях экзогенных переменных (отражая их случайный характер, изменение во времени), выработку управленческих решений.


Впрактике экономических исследований имеющиеся данные не всегда можно считать выборкой из многомерной нормальной совокупности, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. п. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа.

Методы и модели регрессионного анализа занимают центральное место в математическом аппарате эконометрики.

Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной.

Вестественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой (например, скорость свободного падения в вакууме в зависимости от времени т.д.).

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).

Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п.

Если зависимость между двумя переменными такова, что каждому значению одной переменной соответствует определенное условное математическое ожидание (среднее значение) другой, то такая статистическая зависимость называется корреляционной.Иначе, корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.

В регрессионном анализе рассматриваются односторонняя зависимость случайной переменной У от одной (или нескольких) неслучайной независимой переменной X. Такая зависимость может возникнуть, например, в случае, когда при каждом фиксированном значении X соответствующие значения Y подвержены случайному разбросу за счет действия ряда неконтролируемых факторов. При этом зависимую переменную У называют также функцией отклика, объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком, а независимую переменную X — объясняющей, входной, предсказывающей у предикторной, экзогенной переменной, фактором, регрессором, факторным признаком.

Парная регрессия представляет собой регрессию между двумя переменными – и , т. е. модель вида: , где – зависимая переменная (результативный признак); – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными и нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина складывается из двух слагаемых: , где – фактическое значение результативного признака; – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

В парной регрессии выбор вида математической функции может быть осуществлен тремя методами:

1) графическим;

2) аналитическим, т.е. исходя из теории изучаемой взаимосвязи;

3) экспериментальным.

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции. Основные типы кривых, используемые при количественной оценке связей, представлены на рис. 1.1.

Значительный интерес представляет аналитический метод выбора типа уравнения регрессии. Он основан на изучении материальной природы связи исследуемых признаков.

При обработке информации на компьютере выбор вида уравнения регрессии обычно осуществляется экспериментальным методом, т. е. путем сравнения величины остаточной дисперсии , рассчитанной при разных моделях.

 

Рис. 1.1. Основные типы кривых, используемые при количественной оценке связей между двумя переменными.

Если уравнение регрессии проходит через все точки корреляционного поля, что возможно только при функциональной связи, когда все точки лежат на линии регрессии , то фактические значения результативного признака совпадают с теоретическими , т.е. они полностью обусловлены влиянием фактора . В этом случае остаточная дисперсия = 0.

В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии, факторов. Иными словами, имеют место отклонения фактических данных от теоретических . Величина этих отклонений и лежит в основе расчета остаточной дисперсии:

.

Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным.

Считается, что число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной . Это означает, что искать линейную регрессию, имея менее 7 наблюдений, вообще не имеет смысла. Если вид функции усложняется, то требуется увеличение объема наблюдений, ибо каждый параметр при должен рассчитываться хотя бы по 7 наблюдениям. Значит, если мы выбираем параболу второй степени , то требуется объем информации уже не менее 14 наблюдений.