На основе шкалы Чеддока дается качественная оценка тесноты связи.
Показание тесноты связи | 0,1 – 0,3 | 0,3 – 0,5 | 0,5 – 0,7 | 0,7 – 0,9 |
Характеристика силы связи | Слабая | Умеренная | заметная | высокая |
Полная Сильная Умеренная Слабая
2.2.5. Геометрическая интерпретация коэффициента корреляции
Геометрическую интерпретацию коэффициента линейной парной корреляции как измерителя силы связи между случайными величинами Y и X можно уяснить из рисунку 2.1.
где: а) – связь между Y и X в среднем отсутствует (коэффициент b1 в (2.6) равен нулю); б) – возрастающая (в среднем) статистическая зависимость Y от X (b1>0); в) – возрастающая детерминированная (функциональная) связь Y и X; г) – падающая детерминированная (функциональная) зависимость; д) – падающая статистическая зависимость.
Табличный метод (корреляционной таблицы)применяется при наличии большого числа значений результативного признака, соответствующих одному значению факторного признака. Для построения корреляционной таблицы сначала осуществляют группировку совокупности по факторному и результативному признакам (комбинированную группировку), а затем в графах таблицы располагают группы по факторному признаку, в строках — группы по результативному признаку. Числа, расположенные на пересечении граф и строк, показывают частоту повторения данного сочетания значений X и Y.
Направление расположения частот корреляционной таблицы дает возможность предполагать наличие или отсутствие связи, а также ее направление.
Если частоты располагаются по диагонали из левого верхнего угла в правый нижний угол таблицы (т.е. с ростом значений факторного признака растут значения результативного), то можно предполагать наличие прямой однонаправленной связи. Если частоты располагаются подругой диагонали, то предполагают наличие прямой обратной связи.
Существуют ситуации, когда все клетки корреляционной таблицы заполнены. Однако это не говорит об отсутствии связи. В этих ситуациях необходимо установить, как расположена в таблице основная масса случаев. Для этого в каждой графе рассчитывают средние значения результативною признака, соответствующие определенному значению фактора (по формуле арифметической средней взвешенной). По изменению размера значений результативного признака делают вывод о форме и направлении связи.
Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции r, который учитывает не только знаки отклонений признака от средней, но и саму величину отклонений для факторного и результативного признака.
Перед корреляционным анализом необходимо проверить первичную информацию на однородность и нормальность распределения. Для оценки однородности используется коэффициент вариации по факторным признакам:
Совокупность считается однородной, если коэффициент вариации не превышает 33%. Для нашего примера:
.
Следовательно, совокупность нельзя считать однородной.
Проверка первичной информации на нормальность распределения осуществляется с помощью правила «трех сигм». Результаты проверки представляются в табличной форме. Для нашего примера таблица имеет следующий вид (табл.9).
Таблица 9
Проверка информации на нормальность распределения и наличие «выбросов»
Интервалы значений признака-фактора | Число единиц, входящих в интервал | Удельный вес единиц, входящих в интервал, в общем их числе, % | Удельный вес единиц, входящих в интервал, при нормальном распределении |
386,6–1425,9 | 65,4 | 68,3 | |
–133,0 – 1945,5 | 95,4 | ||
–652,6 – 2465,1 | 99,7 |
Сопоставление граф 3 и 4 позволяет сделать вывод о наличии или об отсутствии нормальности распределения. Первичная информация не подчиняется закону нормального распределения, но это не является основанием для отказа от использования корреляционно-регрессионного анализа.
Из расчетных данных графы 1 следует, что резко выделяющиеся единицы, которые по признаку–фактору не попадают в интервал , в первичной информации отсутствуют: .
В методе, предложенном Д. Тьюки, выбросы определяются как те значения данных, которые расположены далеко от центра распределения.
Большее значение в наборе рассматривается как выброс, если оно превышает значение: верхний квартиль +1,5 (верхний квартиль – нижний квартиль).
Малое значение рассматривается как выброс, если оно меньше, чем: нижний квартиль –1,5 (верхний квартиль – нижний квартиль).
Здесь: ранг нижнего квартиля = ; ранг верхнего квартиля = – ранг нижнего квартиля; int означает функцию взятия целого, которая отбрасывает дробную часть.