Коэффициент корреляции Пирсона

Термин «корреляция» был введен в науку выдающимся анг­лийским естествоиспытателем Френсисом Гальтоном в 1886 г. Однако точную формулу для подсчета коэффициента корреля­ции разработал его ученик Карл Пирсон.

Коэффициент характеризует наличие только линейной свя­зи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет ли­нейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициен­том линейной корреляции Пирсона. Если же связь между пере­менными X и Y не линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение.

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 — являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 — следовательно произошла ошибка в вычислениях.

Знак коэффициента корреляции очень важен для интерпре­тации полученной связи. Подчеркнем еще раз, что если знак ко­эффициента линейной корреляции — плюс, то связь между кор­релирующими признаками такова, что большей величине одного признака (переменной) соответствует большая величина дру­гого признака (другой переменной). Иными словами, если один показатель (переменная) увеличивается, то соответственно уве­личивается и другой показатель (переменная). Такая зависимость носит название прямо пропорциональной зависимости.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе гово­ря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой пере­менной. Такая зависимость носит название обратно пропорцио­нальной зависимости.

В общем виде формула для подсчета коэффициента корреля­ции такова:

(7)

где хi — значения, принимаемые в выборке X,

yi — значения, принимаемые в выборке Y;

— средняя по X, — средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и У распределены нормально.

В формуле (7) встречается величина при делении на n (число значений переменной X или Y) она называется ковариацией. Формула (7) предполагает также, что при расчете коэффициентов корреля­ции число значений переменной Х равно числу значений переменной Y.

Число степеней свободы k=n-2.

Пример 3.10 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли вза­имосвязь между временем решения этих задач? Переменная X — обозначает среднее время реше­ния наглядно-образных, а переменная Y— сред­нее время решения вербальных заданий тестов [2].

Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столб­цы, необходимые для расчета по формуле (7).

Таблица 4

№ испытуемых x y хi- i- )2 yi- (yi- )2
-16,7 278,89 -7,2 51,84 120,24
-3,7 13,69 -17,2 295,84 63,64
-2,7 7,29 -7,2 51,84 19,44
8,3 68,89 3,8 14,44 31,54
-7,7 59,29 2,8 7,84 -21,56
-0,7 0,49 6,8 46,24 -4,76
3,3 10,89 -4,2 17,64 -13,86
3,3 10,89 -7,2 51,84 -23,76
8,3 68,89 10,8 116,64 89,64
8,3 68,89 18,8 353,44 156,04
Сумма   588,1   1007,6 416,6
Среднее 35,7 24,2          

 

Рассчитываем эмпирическую величину коэффициента корре­ляции по формуле (7):

Определяем критические значения для полученного коэффи­циента корреляции по таблице Приложения 3. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степе­ней свободы рассчитывается как k = n – 2 = 8.

ккрит=0,72 > 0,54 , следовательно, гипотеза Н1 отвергается и при­нимается гипотеза H0, иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.