Понятие корреляции. Корреляционный анализ

Корреляция – это статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Различают парную, частную и множественную корреляцию.

Парная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными).

Частная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными) при фиксированном значении других факторных признаков.

Множественная корреляция – это связь между результативным и двумя или более факторными признаками, включенными в исследование.

В зависимость от количества признаков, включенных в модель, корреляционная связь может быть однофакторной (или парной) и многофакторной (или множественной).

Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Корреляционный анализ заключается в количественном определении тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Построение коэффициентов корреляции основано на сумме произведений отклонений индивидуальных значений признаков xi и yi от их средних значений и :

.

Эта величина, деленная на число единиц совокупности n, называется ковариацией:

,

где n – объем исследуемой совокупности;

xii-е значение независимой переменной (i=1, 2, …, n);

yii-е значение зависимой переменной (i=1, 2, …, n).

Ковариация показывает, есть ли линейная взаимосвязь между двумя случайными величинами. При прямой связи между признаками ковариация положительна, при обратной связи – принимает отрицательное значение. При отсутствии линейной связи между признаками x и y ковариация близка к нулю.

Размер ковариации зависит от масштаба признаков x и y. Для получения относительной характеристики связи ковариацию делят на произведение средних квадратических отклонений двух признаков, получая, тем самым, линейный коэффициент корреляции:

,

где – средние квадратические отклонения случайных величин x и y (или стандартные отклонения, стандартные ошибки).

Средние квадратические отклонения вычисляются по формулам:

и .

Среднее квадратическое отклонение, возведенное в квадрат, называют дисперсией. Дисперсия характеризуют степень разброса значений () вокруг своего среднего (, соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Для расчета линейного (парного) коэффициента корреляции можно воспользоваться также следующей формулой:

.

Коэффициент корреляции принимает значения от -1 до +1. Положительное значение коэффициента корреляции свидетельствует о наличии прямой связи, отрицательное – обратной. Если , то связь между признаками представляет собой линейную функциональную зависимость. При линейная корреляционная зависимость между исследуемыми признаками отсутствует.

Характеристика тесноты связи между признаками в зависимости от значения линейного коэффициента корреляции приведена в таблице: