I. Понятие корреляционной связи

Основы корреляционно-регрессионного анализа

Исследуя явления в самых различных областях, статистика неизбежно сталкивается с взаимозависимостями как между количественными, так и между качественными признаками для одних и тех же единиц наблюдения. Ее задача – обнаружить (выявить) такие зависимости и дать им количественную характеристику.

Среди взаимосвязанных признаков выделяют:

- признаки-факторыX (факторные признаки), т.е. признаки, влияющие на изменение других признаков (количество полученных удобрений (признак-фактор) влияет на скорость роста растений);

- признаки-результаты Y(результативные признаки), которые зависят от признаков-факторов (скорость роста растений (признак-результат) зависит от количества полученных удобрений).

Существует 2 вида связи между отдельными признаками: функциональная и стохастическая (статистическая), частным случаем которой является корреляционная.

Связь между двумя переменными x и y называется функциональной, если определенному значению переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно. Такие связи обычно встречаются в точных науках. Например, известно, что площадь квадрата равна квадрату его стороны (S = a2).

Существуют и иного рода связи, где на признак-результат влияют многие факторы, в результате чегопризнак-результат при одинаковом значении признака-фактора может быть разным. Например, два растения при одинаковом количестве полученных удобрений могут расти с разной скоростью, так как на скорость роста растения влияют ещё многие другие факторы.

Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно. Такие связи можно обнаружить только при массовом наблюдении в виде статистических закономерностей. Выявленная таким образом связь именуется стохастической.Корреляционная связь – вид стохастической связи. Именно корреляционные связи являются предметом изучения статистики.

Корреляционная связь – это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением признака и признаками-факторами. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других).

По характеру изменений x и y в парной корреляции различают прямую и обратную связь.При прямой связи значения обоих признаков изменяются в одном направлении (т.е. с увеличением значений x увеличиваются и значения y, а при уменьшении значений x уменьшаются и значения y). При обратной связи значения факторного и результативного признаков изменяются в разных направлениях (т.е. с увеличением значений xзначения y уменьшаются, а при уменьшении значений xзначения y увеличиваются).

По виду зависимости различают прямолинейную и криволинейную связь. При прямолинейной связи с возрастанием признака Xпроисходит непрерывное возрастание признака Y (с убыванием признака Xпроисходит непрерывное убывание признака Y). Графически такая связь выглядит как прямая линия. Такую связь ещё называют линейной связью.

При криволинейной связи с возрастанием (убыванием) значений признака Xвозрастание (убывание) значений признака Y происходит неравномерно или направление изменений меняется. Геометрически такие связи выглядят как кривые линии (параболы, гиперболы и т.д.)

Изучение корреляционных связей сводится в основном к решению следующих задач:

1) выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;

2) измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);

3) определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных – факторных признаков (эта часть исследования именуется регрессионным анализом).

Общий термин «корреляционно-регрессионный анализ» подразумевает всестороннее исследование корреляционных связей (т.е. решение всех трех задач).

 

Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока:

Шкала Чеддока

значение коэффициента Теснота связи
менее 0,1 отсутствует линейная связь
0,1 ÷ 0,3 слабая
0,3 ÷ 0,5 умеренная
0,5 ÷ 0,7 заметная
более 0,7 сильная (тесная)

 

Рассмотрим некоторые методы корреляционного анализа на примере данных таможенной статистики внешней торговли России в 2006 году.

Величина внешнеторгового оборота и таможенных платежей

Месяц Оборот, млрд.долл. Платеж, млрд.руб.
Январь 27,068 172,17
Февраль 29,889 200,90
Март 34,444 231,83
Апрель 33,158 232,10
Май 37,755 233,40
Июнь 37,554 236,99
Июль 37,299 246,53
Август 40,370 253,62
Сентябрь 37,909 256,43
Октябрь 38,348 261,89
Ноябрь 39,137 259,36
Декабрь 46,298 278,87

В качестве факторного признака X примем внешнеторговый товарооборот в млрд. долл. США, а в качестве результативного признака Y – величину таможенных платежей в федеральный бюджет в млрд. руб.