Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными и по выборке значений , , оценивает линейный коэффициент парной корреляции: , (3.4.1)

где и – средние значения, и – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между и к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом увеличивается значение ), отрицательное значение – связь обратная (с ростом значение уменьшается).

Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если – связь практически отсутствует; - связь средняя; – связь сильная; – связь весьма сильная.

Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака с факторными признаками , которая позволяет оценить степень влияния каждого показателя-фактора на зависимую переменную , а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид

.

Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции , то в данной модели множественной регрессии существует мультиколлинеарность.

Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.

Значимость парных коэффициентов корреляции проверяют по t-критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: . Затем задаются параметры: уровень значимости и число степеней свободы . Используя эти параметры, по таблице критических точек распределения Стьюдента находят , а по имеющимся данным вычисляют наблюдаемое значение критерия:

, (3.4.2)

где – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью , если по модулю будет больше, чем .

Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и , которая будет иметь место, если устранить влияние на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парный коэффициент , значит, взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и .

Частный коэффициент корреляции между двумя переменными ( и ) при исключении влияния одного фактора ( ) можно вычислить по следующей формуле:

. (3.4.3)

Для других переменных формулы строятся аналогичным образом. При фиксированном

;

при фиксированном

.

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным , где – число фиксируемых факторов.

На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.