На основе шкалы Чеддока дается качественная оценка тесноты связи.

 

Показание тесноты связи 0,1 – 0,3 0,3 – 0,5 0,5 – 0,7 0,7 – 0,9
Характеристика силы связи Слабая Умеренная заметная высокая

 

Полная Сильная Умеренная Слабая

               
 
       
 

 

 


2.2.5. Геометрическая интерпретация коэффициента корреляции

 

Геометрическую интерпретацию коэффициента линейной парной корреляции как измерителя силы связи между случайными величинами Y и X можно уяснить из рисунку 2.1.

 

где: а) – связь между Y и X в среднем отсутствует (коэффициент b1 в (2.6) равен нулю); б) – возрастающая (в среднем) статистическая зависимость Y от X (b1>0); в) – возрастающая детерминированная (функциональная) связь Y и X; г) – падающая детерминированная (функциональная) зависимость; д) – падающая статистическая зависимость.

Табличный метод (корреляционной таблицы)применяется при наличии большого числа значений результативного призна­ка, соответствующих одному значению факторного признака. Для построения корреляционной таблицы сначала осуществля­ют группировку совокупности по факторному и результативно­му признакам (комбинированную группировку), а затем в графах таблицы располагают группы по факторному признаку, в стро­ках — группы по результативному признаку. Числа, расположен­ные на пересечении граф и строк, показывают частоту повторения данного сочетания значений X и Y.

Направление расположения частот корреляционной таблицы дает возможность предполагать наличие или отсутствие связи, а также ее направление.

Если частоты располагаются по диагонали из левого верхне­го угла в правый нижний угол таблицы (т.е. с ростом значений факторного признака растут значения результативного), то мож­но предполагать наличие прямой однонаправленной связи. Если частоты располагаются подругой диагонали, то предполагают на­личие прямой обратной связи.

Существуют ситуации, когда все клетки корреляционной таб­лицы заполнены. Однако это не говорит об отсутствии связи. В этих ситуациях необходимо установить, как расположена в таблице основная масса случаев. Для этого в каждой графе рассчитывают средние значения результативною признака, соответствующие определенному значению фактора (по формуле арифметической средней взвешенной). По изменению размера значений результативного признака делают вывод о форме и направлении связи.

Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции r, который учитывает не только знаки отклонений признака от средней, но и саму величину отклонений для факторного и результативного признака.

Перед корреляционным анализом необходимо проверить первичную информацию на однородность и нормальность распределения. Для оценки однородности используется коэффициент вариации по факторным признакам:

Совокупность считается однородной, если коэффициент вариации не превышает 33%. Для нашего примера:

.

Следовательно, совокупность нельзя считать однородной.

Проверка первичной информации на нормальность распределения осуществляется с помощью правила «трех сигм». Результаты проверки представляются в табличной форме. Для нашего примера таблица имеет следующий вид (табл.9).

 

 

Таблица 9

Проверка информации на нормальность распределения и наличие «выбросов»

 

Интервалы значений признака-фактора Число единиц, входящих в интервал Удельный вес единиц, входящих в интервал, в общем их числе, % Удельный вес единиц, входящих в интервал, при нормальном распределении
386,6–1425,9 65,4 68,3
–133,0 – 1945,5 95,4
–652,6 – 2465,1 99,7

 

Сопоставление граф 3 и 4 позволяет сделать вывод о наличии или об отсутствии нормальности распределения. Первичная информация не подчиняется закону нормального распределения, но это не является основанием для отказа от использования корреляционно-регрессионного анализа.

Из расчетных данных графы 1 следует, что резко выделяющиеся единицы, которые по признаку–фактору не попадают в интервал , в первичной информации отсутствуют: .

В методе, предложенном Д. Тьюки, выбросы определяются как те значения данных, которые расположены далеко от центра распределения.

Большее значение в наборе рассматривается как выброс, если оно превышает значение: верхний квартиль +1,5 (верхний квартиль – нижний квартиль).

Малое значение рассматривается как выброс, если оно меньше, чем: нижний квартиль –1,5 (верхний квартиль – нижний квартиль).

Здесь: ранг нижнего квартиля = ; ранг верхнего квартиля = – ранг нижнего квартиля; int означает функцию взятия целого, которая отбрасывает дробную часть.