Априорные и апостериорные подходы к отбору факторов.

Метод включения в модель переменных(до построения модели) с помощью него проводится исследование характера и силы взаимосвязей между рассматриваемыми переменными, по результатам которого в модель включаются факторы наиболее значимые по своему непосредственному влиянию на зависимую переменную Y.

Апостериорный подход к отбору факторовМетод исключения из модели переменных. Предполагает первоначально включение в модель все отобранные на этапе содержательного анализа факторы и на основе анализа характеристик качества построенной модели отбирать состав факторов.

 

11. ВЫБОР ФОРМЫ УРАВНЕНИЯ РЕГРЕССИИ

Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В уравнении линейной множественной регрессии

fx = a + b1 • x1 + b2 • x2 + ... + bp • xp (2.1)

параметры при х называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

Предположим, например, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

ух = 0,5 + 0,35 • x1 + 0,73 • x2,

где у - расходы семьи за месяц на продукты питания, тыс. руб.; х1 - месячный доход на одного члена семьи, тыс. руб.; х? - размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы - с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35 % дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а не подлежит экономической интерпретации.

В уравнении степенной функции

fx = a • xb • x2b2 •... • xpp (2.2)

коэффициенты bj являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1 % при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.

Предположим, что при исследовании спроса на мясо получено уравнение

x1,11

у = 0,82 • x-2,63 x!,n или у = 0,82 • ,

J x ' 1 2 J x ' 2,63 '

x12,63

где у - количество спрашиваемого мяса; x1 - цена; x2 - доход.

Следовательно, рост цен на 1 % при том же доходе вызывает снижение спроса в среднем на 2,63 %. Увеличение дохода на 1 % обусловливает при неизменных ценах рост спроса на 1,11 %.

В производственных функциях вида P = a • F*1 • Fb •... • Fbm e,

где Р - количество продукта, изготавливаемого с помощью m производст-венных факторов (F1, F2, ..., Fm), параметры b характеризуют эластичность количества продукции по отношению к количеству соответствующего производственного фактора.

Экономический смысл имеют не только коэффициенты bj каждого фактора, но и их сумма, т. е. сумма эластичностей: B = bi + b2 + ... + bm. Эта величина фиксирует обобщенную характеристику эластичности производства.

Для построения уравнения множественной регрессии чаще всего ис-пользуются следующие функции:

линейная - у = а + b1 • х1 + b2 • х2 + ... + bp • хр + e;

b b bP

степенная - у = а• х • х02 •... • хр e;

^ 12 р '

* + Vх1 + b2 • х2 +.. + bp• хр +

экспонента - У = e ;

= 1

гипербола - y = т Т Т .

а + b1 • х1 + b2 • х2 +... + bp • хр + e

Если исследователя не устраивает предлагаемый набор функций регрессии, то можно использовать любые другие функции, приводимые путем соответствующих преобразований к линейному виду, например:

Л 1 1

ух = а + b • х1 + b2 + b3 • х32 + b4 • ln х4 .

х2

Обозначив

z^ — , z^ — , z3 — х~3 , z4 — ІП х4 , х2

получим линейное уравнение множественной регрессии y = а + b1 •z1+b2 z2+b3 •z3+b4 z4+e.

Однако чем сложнее функция, тем менее интерпретируемы ее параметры.

Если один и тот же фактор вводится в регрессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. Так, если модель имеет вид полинома второго порядка

y = а + by • х1 + b2 • х2 + • х2 + b22 • + by2 • х1 • х2 + e, то после замены переменных z1 = х1, z2 = х2, z3 = х22, z4 = z5 = х1 х2 получим линейное уравнение регрессии с пятью факторами:

у = а + b1 • z1 + b2 • z2 + b3 • z3 + b4 • z4 + b5 • z5 + e.

Поскольку, как отмечалось, должно выполняться соотношение между числом параметров и числом наблюдений, для полинома второй степени требуется не менее 30-35 наблюдений.

12.Метод наименьших квадратов

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ [least-square technique] — математический (математико-статистический) прием, служащий для выравнивания динамических рядов, выявления формыкорреляционной связи между случайными величинами и др. Состоит в том, что функция, описывающая данное явление, аппроксимируется более простой функцией. Причем последняя подбирается с таким расчетом, чтобы среднеквадратичное отклонение (см. Дисперсия) фактических уровней функции в наблюдаемых точках от выровненных было наименьшим.

Напр., по имеющимся данным (xi,yi) (i = 1, 2, ..., n) строится такая кривая y = a + bx, на которой достигается минимум суммы квадратов отклонений

т. е. минимизируется функция, зависящая от двух параметров: a — отрезок на оси ординат и b — наклон прямой.

Уравнения, дающие необходимые условия минимизации функции S(a,b), называются нормальными уравнениями.

В качестве аппроксимирующих функций применяются не только линейная (выравнивание по прямой линии), но и квадратическая, параболическая, экспоненциальная и др. Пример выравнивания динамического ряда по прямой см. на рис. M.2, где сумма квадратов расстояний (y11)2 + (y22)2 .... — наименьшая, и получившаяся прямая наилучшим образом отражает тенденцию динамического ряда наблюдений за некоторым показателем во времени.

 

Вопрос 13 Классификация регрессионных моделей.

Регрессионная модель – это функция, описывающая зависимость между количественными характеристиками сложных систем. Получение регрессионной модели происходит в два этапа:

  1. подбор вида функции;
  2. вычисление параметров функции.

Чаще всего выбор производится среди следующих функций:

y=ax+b – линейная функция;

y=ax2+bx+c – квадратичная функция;

y=aln(x)+b – логарифмическая функция;

y=aebx - экспоненциальная функция;

y=axb - степенная функция.

Если Вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (a,b,c и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Для этого подходит метод наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у – координат всех экспериментальных точек от у – координат графика функции была бы минимальной.

return false">ссылка скрыта

Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос – вопрос критерия соответствия. На рисунке 4 изображены 3 функции, построенные методом наименьших квадратов.

Данные рисунки получены с помощью Ms Excel. График регрессионной модели называется трендом (trend – направление, тенденция).

График линейной функции – это прямая. Полученная по методу МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что – либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды – ведут себя очень правдоподобно.

На графиках присутствует ещё одна величина, полученная в результате построения трендов. Она обозначена как R2. В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной получится регрессионная модель. Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.

Метод наименьших квадратов используется для вычисления параметров регрессионной модели. Этот метод содержится в математическом арсенале электронных таблиц.

Получив регрессионную математическую модель мы можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосфере угарный газ, то, рассчитав возможную концентрацию газа, можно предсказать, как это отразится на заболеваемости астмой жителей города.

Существуют два способа прогнозов по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это значение концентрации угарного газа – С), то это называетсявосстановлением значения.

Прогнозирование за пределами экспериментальных данных называется экстраполяцией.