Двумерная (однофакторная) регрессионная модель

Сформулируем регрессионную проблему для случая одного факторного признака.

Пусть имеется набор значений двух переменных: yj (объясняемая переменная или результат) и хi (объясняющая переменная или фактор). Между этими переменными имеется объективная связь:

y = f(x) (1.20)

Данное уравнение будем называть «истинным» уравнением регрессии. Необходимо по данным наблюдений (yi, xi, i= 1; n) подобрать функцию:
«наилучшим» образом описывающую «истинную» зависимость (1.20). Подобрать функцию – значит определить вид функциональной зависимости и значения параметров.

Для определения вида функциональной зависимости можно использовать:

1) теоретические соображения и опыт предыдущих аналогичных исследований;

2) графический способ – на основе корреляционного поля или эмпирической линии регрессии. Корреляционное поле – точечный график в системе координат (х, у). Каждая точка соответствует единице наблюдения. Положение каждой точки на графике определяется величиной двух признаков – факторного – х и результативного – у. Эмпирическая регрессия – регрессия, полученная по эмпирическим (наблюдаемым) данным. Используются результаты аналитической, либо комбинационной группировки. Графически она представляет собой ломаную линию, составленную из точек, абсциссами которых являются средние значения факторного признака, а ординатами – средние значения признака-результата. Число точек равно числу групп в группировке;

3) можно также перебрать несколько функций (построить для каждой из них уравнение регрессии) и выбрать лучшую из них по показателям качества уравнения регрессии.

Наиболее часто используется линейная форма зависимости. Внимание к линейной форме объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют в линейную форму.

Модель линейной двумерной (однофакторной или парной) регрессии имеет вид:

yi =b0 + b1∙xi + ui (1.21)

Величина переменной yj состоит из двух составляющих:

1) неслучайной составляющей b0 + b1∙xi;

2) случайной составляющей ui.

На рис. 1.4 показано, как комбинация этих двух составляющих определяет величину yi для случая парной линейной модели регрессии.

Причины существования случайной составляющей ui:

1) отсутствие в модели «важных» факторов, оказывающих существенное влияние на результат. Парная регрессия почти всегда является большим упрощением. В действительности существуют другие факторы, которые не учтены в формуле (2). Это могут быть факторы, которые мы не можем изме-

Рис. 1.4. Истинная зависимость между у и х

рить (например, психологические). Возможно, это факторы, которые мы можем измерить, но которые оказывают очень слабое влияние на результат, и поэтому мы их не учитываем в модели. Кроме того, это могут быть «важные» факторы, которые мы такими не считаем из-за отсутствия опыта. Все это приводит к тому, что наблюдаемые значения лежат вне прямой (b0 + b1∙xi);

2) агрегирование переменных. Мы можем пытаться построить зависимость путем агрегирования (объединения) индивидуальных соотношений. Например, функцию суммарного потребления как агрегирование функций потребления по отдельным потребителям. Так как параметры индивидуальных соотношений различны, то агрегированная зависимость будет приближенной;

3) неправильная функциональная спецификация мо дели;

4) ошибки измерения переменных.

Знак коэффициента регрессии b1 в модели указывает направление связи (если b1 > 0, связь прямая, если b1 < 0, то связь обратная). Величина b1 показывает, на какую величину в среднем изменится результат у, если фактор х увеличить на одну единицу своего измерения.

Формально значение параметра b0 в модели – среднее значение у при х = 0. Если фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра не имеет смысла.

В матричной форме двумерная регрессионная модель имеет вид:

Y = X ∙ b + u

где Y – случайный вектор-столбец размерности (n×1) наблюдаемых значений результативного признака;

Х = (х0, х1,) — матрица размерности (n×2) наблюдаемых значений факторных признаков. Дополнительный фактор х0 связан с наличием в уравнении регрессии свободного члена (bо). Значение фактора (х0) для свободного члена принято считать равным единице;

b – вектор-столбец размерности (n×1) неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии);

u – случайный вектор-столбец размерности (n×1) ошибок наблюдений.

Рассмотрим пример. Пусть имеются данные о заработной плате и возрасте по 20 рабочим. Требуется построить регрессионную модель заработной платы рабочего. Тогда у{ — заработная плата i-го рабочего ($); xi – возраст i-го рабочего (лет), i=l; 20. Исходные данные приведены в табл. 1.4.

Таблица 1.4

i yi xi i yi xi

Для нашего примера параметры линейной парной модели регрессии (1.21) интерпретируются следующим образом. Параметр b1 показывает, на сколько долларов в среднем изменится заработная плата рабочего при увеличении возраста на 1 год. Параметр b0 не интерпретируется, т. к. возраст рабочего не может быть равен 0 лет.

В матричной форме регрессионная модель имеет вид: Y = X ∙ b + u