Парная линейная регрессия
Линейная зависимость – наиболее часто используемая форма связи между двумя коррелируемыми признаками, выражаемая при парной корреляции уравнением прямой:
,
где – выровненное среднее значение результативного признака;
х – значение факторного признака;
а0 и а1 – параметры уравнения;
а0 – значение у при х = 0;
а1 – коэффициент регрессии.
Коэффициент регрессииа1 показывает, на сколько (в абсолютном выражении) изменится результативный признак у при изменении факторного признака х на единицу.
Если а1 имеет положительный знак, то связь прямая, если отрицательный – связь обратная.
Параметры уравнения связи определяются способом наименьших квадратов (МНК) с помощью составленной и решенной системы двух уравнений с двумя неизвестными:
где n – число членов в каждом из двух сравниваемых рядов (число единиц совокупности);
∑x – сумма значений факторного признака;
∑x2 – сумма квадратов значений факторного признака;
∑y – сумма значений результативного признака;
∑yx – сумма произведений значений факторного признака на значения результативного признака.
(Суть метода наименьших квадратов заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е. ).
Решив систему уравнений, получаем следующие значения параметров:
; .
Рассчитав по фактическим данным все записанные выше суммы и подставив их в приведенные формулы, найдем параметры прямой. Если параметры уравнения определены правильно, то ∑у =∑.
Для экономической интерпретации линейных и нелинейных связей между двумя исследуемыми явлениями часто используют рассчитанные на основе уравнений регрессии коэффициенты эластичности.
Коэффициент эластичности показывает, на сколько процентов изменится в среднем результативный признак у при изменении факторного признака х на 1 %.
Для линейной зависимости коэффициент эластичности (ε) определяется по формуле:
(для отдельной единицы совокупоности), или (в целом для совокупности).
Определение тесноты связи в корреляционно-регрессионном анализе основывается на правиле сложения дисперсий как и в методе аналитической группировки. Но в отличие от него, где для оценки линии регрессии используют групповые средние результативного признака, в корреляционно-регрессионном анализе для этой цели используют теоретические значения результативного признака.
Наглядно представить и обосновать корреляционно-регрессионный анализ позволяет график на рис. 9.4.
У
у
Х
Рис. 9.4. Эмпирические и выровненные уровни ряда распределения
На графике на рис. 9.4 проведены три линии: у – ломанная линия фактических данных; – прямая наклонная линия теоретических значений у при абстрагировании от влияния всех факторов, кроме фактора х (переменная средняя); – прямая горизонтальная линия, из среднего значения которой исключено влияние на у всех без исключения факторов (постоянная средняя).
Несовпадение линии переменной средней с линией постоянной средней поясняется влиянием факторного признака х, что, в свою очередь, свидетельствует о наличие между признаками у и х неполной, нефункциональной связи. Для определения тесноты этой связи необходимо рассчитать дисперсию отклонений у и , то есть остаточную дисперсию, которая обусловлена влиянием всех факторов, кроме фактора х. Разница между общей и остаточной дисперсиями дает нам теоретическую (факторную) дисперсию, которая измеряет вариацию, обусловленную фактором х. На сопоставлении этой разницы с общей дисперсией построен индекс корреляции или теоретическое корреляционное отношение (R), которое определяется по формулам:
, или ,
где - общая дисперсия;
- остаточная дисперсия;
– факторная (теоретическая) дисперсия.
Факторную дисперсию по теоретическим значениям исчисляют по формуле:
, или по формуле без теоретических значений .
Остаточную дисперсию определяют по формулам: или = - .
Коэффициент детерминации (R2) характеризует ту часть вариации результативного признака у, которая соответствует линейному уравнению регрессии (т.е. обусловлена вариацией факторного признака) и исчисляется по формуле:
.
Индекс корреляции принимает значения от 0 до 1. Когда R = 0, то связи между вариацией признаков х и у нет. Остаточная дисперсия равняется общей, а теоретическая дисперсия равняется нулю. Все теоретические значения совпадают со средними значениями , линия на графике совпадает с линией , то есть принимает горизонтальное положение. При R = 1 теоретическая дисперсия равна общей, а остаточная равна нулю. Фактические значения у совпадают с теоретическими , связь между исследуемыми признаками линейно-функциональная.
Индекс корреляции пригоден для измерения тесноты связи при любой ее форме. Он, как и эмпирическое корреляционное отношение, измеряет только тесноту связи и не показывает ее направление.
Для измерения тесноты связи и определения его направления при линейной зависимости используется линейный коэффициент корреляции (r), определяемый по формуле:
.
Значение r колеблется в пределах от –1 до +1. Положительное значение r означает прямую связь между признаками, а отрицательное – обратную. Оценка тесноты связи между признаками проводится по данным табл. 9.3.
Таблица 9.3
Качественная оценка связи между признаками
Сила связи | Значение r при наличии | |
прямой связи | обратной связи | |
Слабая Средняя Тесная | 0,1 – 0,3 0,3 – 0,7 0,7 – 0,99 | (-0,1) – (-0,3) (-0,3) – (-0,7) (-0,7) – (-0,99) |
Проверка надежности (существенности) связи в корреляционно-регрессионном анализе осуществляют при помощи тех же самых критериев и процедур, что и в аналитической группировке (см. п. 9.3).
Фактическое значение F-критерия определяют по формуле: .
Степени свободы зависят от числа параметров уравнения регрессии (m) и количества единиц исследуемой совокупности (n): k1 = m –1, k2 = n – m.
Надежность связи коэффициента детерминации R2 проверяют при помощи таблицы по F-критерию для 5 %-ного уровня значимости.
Для установления достоверности рассчитанного линейного коэффициента корреляции используют критерий Стьюдента: ,
где - средняя ошибка коэффициента корреляции.
При достаточно большом числе наблюдений (n > 50) коэффициент корреляции можно считать достоверным, если он превышает свою ошибку в 3 и больше раз, а если он меньше 3, то связь между исследуемыми признаками у и х не доказана.