Оценка существенности линейного коэффициента корреляции

В этой связи и возникает необходимость оценки существенности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции. В отношении приводимых ниже критериев существенности можно сделать общее замечание, касающееся свойств исходной совокупности. Этим свойством является нормальное распределение значений признака в генеральной совокупности.

Рассмотрим следующие критерии:

1. При большом объеме выборки из нормально распределенной совокупности можно считать распределение линейного коэффициента корреляции приближенно нормальным со средней, равной r и дисперсией

, (1.5)

откуда средняя квадратическая ошибка коэффициента корреляции:

, (1.6)

где r – линейный коэффициент корреляции, n – объем выборки.

Если величина линейного коэффициента корреляции превышает величину средней квадратической ошибки более чем в tasr раза, то можно говорить о существенности выборочного коэффициента корреляции, где уровень значимости 0,01 или 0,05. Если же отношение

,

то с вероятностью (1 – a) следует предполагать отсутствие корреляционной связи в генеральной совокупности.

Доверительный интервал для коэффициента корреляции будет записан так:

, (1.7)

где rген – значение коэффициента корреляции в генеральной совокупности.

В нашем примере sr = 0,0787; при уровне значимости a = 0,05, и числе степеней свободы 20 – 2 = 18 ta = 2,1; интервал равен: 0,0787 × 2,1 = 0,1654 и пределы коэффициента корреляции: от 0,6451 до 0,9759.

При малых объемах выборки и линейном коэффициенте корреляции, близким к 1, использование средней квадратической ошибки по формуле (1.7) в качестве критерия существенности r оказывается невозможным в силу того, что распределение выборочного r может значительно отличаться от нормального.

2. Для малого объема выборочной совокупности используется тот факт, что величина

при условии r = 0, распределена по закону Стьюдента с (n –2) степенями свободы.

Полученную величину tрасч сравнивают с табличным значением t-критерия (число степеней свободы равно n –2). Если рассчитанная величина превосходит табличную, то практически невероятно, что найденное значение обусловлено только случайными совпадениями x и y в выборке из генеральной совокупности, для которой действительное значение коэффициента корреляции равно нулю. Если же вычисленная величина меньше, чем табличная, то полагают, что коэффициент корреляции в генеральной совокупности в действительности равен нулю и соответственно эмпирический коэффициент корреляции существенно не отличается от нуля.

Применим указанный метод к оценке существенности корреляции между уровнем затрат туристических фирм на рекламу и числом туристов, воспользовавшихся услугами фирм. При объеме выборки, равном 20 и при условии, что величина коэффициента корреляции равна 0,8105

.

tтабл для числа степеней свободы 18 и уровня значимости 0,01 равно 2,878. Таким образом, лишь с вероятностью меньшей 1% можно утверждать, что величина t = 5,871 могла появиться в силу случайностей выборки. Такое событие является маловероятным и можно считать с вероятностью 99%, что в генеральной совокупности действительно существует прямая зависимость между изучаемыми признаками, т.е. отличие выборочного коэффициента корреляции от нуля является существенным.

3. Проверку гипотезы об отсутствии связи можно сделать и без вычисления расчетного значения критерия Стьюдента, пользуясь таблицей, составленной Р.Фишером. В этой таблице (Приложение 1) показывается величина коэффициента корреляции, которая может считаться существенной при данном количестве наблюдений (число степеней свободы равно n – 2).

В нашем примере находим по приложению 1, что коэффициент корреляции должен быть, по крайней мере, не ниже 0,5614 для того, чтобы он мог считаться существенным при уровне значимости a = 0,01 и не ниже 0,4438 при a = 0,05. По расчету коэффициент корреляции 0,8195, следовательно, между изучаемыми признаками существует прямая связь.