I. Понятие корреляционной связи
Основы корреляционно-регрессионного анализа
Исследуя явления в самых различных областях, статистика неизбежно сталкивается с взаимозависимостями как между количественными, так и между качественными признаками для одних и тех же единиц наблюдения. Ее задача – обнаружить (выявить) такие зависимости и дать им количественную характеристику.
Среди взаимосвязанных признаков выделяют:
- признаки-факторыX (факторные признаки), т.е. признаки, влияющие на изменение других признаков (количество полученных удобрений (признак-фактор) влияет на скорость роста растений);
- признаки-результаты Y(результативные признаки), которые зависят от признаков-факторов (скорость роста растений (признак-результат) зависит от количества полученных удобрений).
Существует 2 вида связи между отдельными признаками: функциональная и стохастическая (статистическая), частным случаем которой является корреляционная.
Связь между двумя переменными x и y называется функциональной, если определенному значению переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно. Такие связи обычно встречаются в точных науках. Например, известно, что площадь квадрата равна квадрату его стороны (S = a2).
Существуют и иного рода связи, где на признак-результат влияют многие факторы, в результате чегопризнак-результат при одинаковом значении признака-фактора может быть разным. Например, два растения при одинаковом количестве полученных удобрений могут расти с разной скоростью, так как на скорость роста растения влияют ещё многие другие факторы.
Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно. Такие связи можно обнаружить только при массовом наблюдении в виде статистических закономерностей. Выявленная таким образом связь именуется стохастической.Корреляционная связь – вид стохастической связи. Именно корреляционные связи являются предметом изучения статистики.
Корреляционная связь – это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением признака и признаками-факторами. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других).
По характеру изменений x и y в парной корреляции различают прямую и обратную связь.При прямой связи значения обоих признаков изменяются в одном направлении (т.е. с увеличением значений x увеличиваются и значения y, а при уменьшении значений x уменьшаются и значения y). При обратной связи значения факторного и результативного признаков изменяются в разных направлениях (т.е. с увеличением значений xзначения y уменьшаются, а при уменьшении значений xзначения y увеличиваются).
По виду зависимости различают прямолинейную и криволинейную связь. При прямолинейной связи с возрастанием признака Xпроисходит непрерывное возрастание признака Y (с убыванием признака Xпроисходит непрерывное убывание признака Y). Графически такая связь выглядит как прямая линия. Такую связь ещё называют линейной связью.
При криволинейной связи с возрастанием (убыванием) значений признака Xвозрастание (убывание) значений признака Y происходит неравномерно или направление изменений меняется. Геометрически такие связи выглядят как кривые линии (параболы, гиперболы и т.д.)
Изучение корреляционных связей сводится в основном к решению следующих задач:
1) выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;
2) измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);
3) определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных – факторных признаков (эта часть исследования именуется регрессионным анализом).
Общий термин «корреляционно-регрессионный анализ» подразумевает всестороннее исследование корреляционных связей (т.е. решение всех трех задач).
Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока:
Шкала Чеддока
значение коэффициента | Теснота связи |
менее 0,1 | отсутствует линейная связь |
0,1 ÷ 0,3 | слабая |
0,3 ÷ 0,5 | умеренная |
0,5 ÷ 0,7 | заметная |
более 0,7 | сильная (тесная) |
Рассмотрим некоторые методы корреляционного анализа на примере данных таможенной статистики внешней торговли России в 2006 году.
Величина внешнеторгового оборота и таможенных платежей
Месяц | Оборот, млрд.долл. | Платеж, млрд.руб. |
Январь | 27,068 | 172,17 |
Февраль | 29,889 | 200,90 |
Март | 34,444 | 231,83 |
Апрель | 33,158 | 232,10 |
Май | 37,755 | 233,40 |
Июнь | 37,554 | 236,99 |
Июль | 37,299 | 246,53 |
Август | 40,370 | 253,62 |
Сентябрь | 37,909 | 256,43 |
Октябрь | 38,348 | 261,89 |
Ноябрь | 39,137 | 259,36 |
Декабрь | 46,298 | 278,87 |
В качестве факторного признака X примем внешнеторговый товарооборот в млрд. долл. США, а в качестве результативного признака Y – величину таможенных платежей в федеральный бюджет в млрд. руб.