Инструктаж по выполнению работы и контроль над ходом ее выполнения.

На примере типового задания преподаватель рассматривает методику вычисления коэффициента корреляции и расчета качественной и количественной взаимосвязи статистических величин.

 

VIII. ИНФОРМАЦИОННЫЙ БЛОК ТЕМЫ

 

1. Понятие функциональной зависимости, аргумента, функции. Область применения. Понятие корреляционной связи. Виды корреляционной связи. Задачи корреляционного анализа

Еще Гиппократ в VI в. до н.э. обратил внимание на наличие связи между телосложением и темпераментом людей, между строением тела человека и предрасположенностью к тем или иным заболеваниям. Определенные виды подобной связи выявлены также в животном и растительном мире.

Для описания связей между переменными величинами применяют математическое понятие функции f, которая ставит в соответствие каждому определенному значению независимой переменной x, определенное значение зависимой переменной y:

y = f(x),

где x – аргумент, y – соответствующее ему значение функции f(x).

Однозначную зависимость между переменными величинами x и y называют функциональной, при которой любому значению одного из признаков соответствует строго определенное значение другого. Например, радиусу круга соответствует определенная площадь круга.

Функциональная связь характерна для физико-химических процессов.

Такого рода однозначные или функциональные связи между переменными величинами встречаются далеко не всегда. Известно, например, что между ростом и массой тела у человека существует положительная связь: более высокие индивиды имеют обычно и большую массу тела, чем низкорослые. Однако, из этого правила существуют исключения, когда люди невысокого роста оказываются тяжелее высокорослых. Причиной таких «исключений» является тот факт, что каждый биологический признак представляет собой функцию многих переменных: на него влияют и генетические, и средовые факторы, что и обусловливает варьирование признаков. Поэтому зависимость между биологическими признаками имеет не функциональный, а статистический характер. При этом в статистической совокупности определенному значению одного признака, рассматриваемого в качестве аргумента, соответствует не одно и то же числовое значение, а целая гамма распределяющихся в вариационный ряд числовых значений другого признака, рассматриваемого в качестве зависимой переменной или функции. Эта зависимость между переменными величинами называется корреляционной или корреляцией, при которой значению каждой средней величины одного признака соответствует несколько значений другого взаимосвязанного с ним признака.

В социально-гигиенических исследованиях, клинической медицине и биологии зависимость между явлениями имеет характер корреляционной связи.

Если функциональную связь легко обнаружить и измерить на единичных и групповых объектах, то этого нельзя выявить с корреляционными связями, которые можно изучать только на групповых объектах методами математической статистики.

Задачи корреляционного анализа сводятся к:

1) установлению направления и вида связи между варьирующими признаками;

2) измерению силы корреляционной связи;

3) проверке достоверности выборочных показателей корреляции.

Корреляционный анализ находит широкое применение в работе врача любой специальности: при оценке физического развития детей и подростков, для определения зависимости между условиями труда, быта и состояния здоровья; при определении зависимости показателей заболеваемости от пола, возраста, стажа работы и т.д.

Измерить и оценить статистическую достоверность корреляционной связи можно при помощи коэффициента корреляции (rxy) и его средней ошибки (µr).

Коэффициент корреляции (rxy) позволяет одним числом охарактеризовать силу связи между изучаемыми явлениями и дает представление о ее направлении.

Корреляционная связь между признаками бывает прямой (положительной) и обратной (отрицательной), прямолинейной и криволинейной.

При прямой связи с увеличением значений одного признака возрастает среднее значение другого признака. Коэффициент корреляции, определяющий прямую связь, обозначается знаком плюс (+).

При обратной связи с увеличением одного признака убывает среднее значение другого. Коэффициент корреляции, характеризующий обратную связь, обозначается знаком (–).

По силе связи значение коэффициента корреляции колеблется от единицы (полная связь) до нуля (отсутствие связи). Чем больше среднему значению одного признака соответствует значений другого признака, тем выше сила связи между ними.

Прямолинейная связь отличается относительно равномерным изменением средних значений одного признака при равных изменениях другого.

В случае криволинейной зависимости - при равномерном изменении одного признака могут наблюдаться возрастающие и убывающие средние значения другого признака.

Измерение и оценка связи между явлениями при прямолинейной корреляции осуществляется с помощью коэффициента корреляции (rxy), а при криволинейной – корреляционным отношением η.

Коэффициент корреляции указывает лишь на направление и силу связи между двумя переменными величинами, но не дает возможности судить о том, как количественно меняются величины одного по мере изменения величин другого признака. Ответ на этот вопрос дает применение метода регрессии.

 

 

2. Расчеты параметрического коэффициента корреляции методом квадратов (Пирсона), непараметрического коэффициента корреляции методом рангов (Спирмена). Определение достоверности коэффициента корреляции

Степень зависимости случайных величин хi и yi характеризуется значением коэффициента корреляции.

Параметрический коэффициент корреляции Пирсонаприменяется для оценки связи между количественными признаками, подчиняющимися нормальному закону частотного распределения. Принимается нулевая гипотеза (Н0), утверждающая, что признаки, представленные в разных выборках независимы друг от друга, а коэффициент корреляции близок к нулю. Альтернативная гипотеза (Н1) предполагает наличие зависимости между рассматриваемыми признаками, причем величина коэффициента корреляции указывает на силу имеющейся зависимости.

Для проверки достоверности гипотезы Н0 следует после нахождения значения коэффициента корреляции (rxy) воспользоваться специальной таблицей наибольших (критических) значений коэффициента корреляции (rкр), в которой при заданном уровне значимости α (0,01; 0,05) и известном числе степеней свободы n′ = n – 2 представлены максимальные значения, которые может иметь величина коэффициента корреляции при справедливости нулевой гипотезы. Если найденный rxy < rкр, то наблюдаемое отклонение от нуля незначимо, и нулевая гипотеза принимается: величины независимы, если rxy > rкр, то принимается гипотеза Н1: рассматриваемые величины зависимы.

 

Алгоритм расчета параметрического коэффициента корреляции методом линейной корреляции Пирсона:

N N

1. Определить суммы рядов х и y (∑хi и ∑yi).

i=1 i=1

2. Вычислить средние арифметические рядов x и y (`x и`y ).

3. Рассчитать разность (dх) каждого показателя ряда х и среднего арифметического этого ряда (dх = хi –`x), а также разность (dy) каждого показателя ряда y и среднего арифметического`x (dy = yi – `y).

4. Величины dх и dy возвести в квадрат (dx² и dy²).

5. Показатели dх и dy перемножить между собой.

6. Рассчитать коэффициент линейной корреляции (rxy):

rxy = +   N ∑(dх * dy) i=1
N N ∑ dx² * ∑ dy² i=1 i=1

7. Оценить представительность (репрезентативность) коэффициента корреляции по таблице критических значений (таблица 4.1).

 

Таблица 4.1 Критические значения коэффициента корреляции (rxy)

n′ = n – 2 Уровни значимости n′ = n - 2 Уровни значимости
0,05 0,01 0,05 0,01
0,75 0,87 0,37 0,47
0,71 0,83 0,36 0,46
0,67 0,80 0,36 0,46
0,63 0,77 0,35 0,45
0,60 0,74 0,33 0,42
0,58 0,71 0,30 0,39
0,55 0,68 0,29 0,37
0,53 0,66 0,27 0,35
0,51 0,64 0,25 0,33
0,50 0,62 0,23 0,30
0,48 0,61 0,22 0,28
0,47 0,59 0,21 0,27
0,46 0,58 0,20 0,25
0,44 0,56 0,17 0,23
0,43 0,55 0,16 0,21
0,42 0,54 0,14 0,18
0,41 0,53 0,11 0,15
0,40 0,52 0,10 0,13
0,40 0,51 0,09 0,12
0,39 0,50 0,07 0,10
0,38 0,49 0,06 0,09
0,37 0,48 0,06 0,09

 

8. Оценить тесноту корреляционной связи по таблице 4.2.

 

Таблица 4.2 Степень тесноты связи коэффициента корреляции

Степень связи Величина коэффициента
Малая (слабая) 0,01 – 0,30
Средняя (умеренная) 0,31 – 0,70
Большая (сильная) 0,71 – 1,00

Примечание: О наличии тесной корреляции можно говорить при rxy не менее 0,7.

Непараметрический коэффициент ранговой корреляции Спирмена применяется для оценки связи между количественными признаками, не подчиняющимися закону нормального частотного распределения или качественными (порядковыми) характеристиками. В последнем случае, значение признака невозможно измерить, но разные значения можно сравнивать между собой и располагать их в порядке возрастания или убывания качества.

Например, 1 сорт, 2 сорт и т.д., 1-е место, 2-е место, 3-е место и т.д., т.е. любой последующий объект по качеству уступает предыдущему. Порядковый номер каждого объекта называется рангом, упорядочивание объектов – ранжирование.

Для исследования качественных показателей выдвигаются непараметрические гипотезы, которые проверяются с помощью соответствующих критериев, оперирующих рангами, не использующих какие-либо данные о законе распределения. Если применить ранговый критерий к количественным признакам, то он окажется менее эффективным, чем соответствующий параметрический критерий, так как выборка, состоящая из количественных значений более содержательна в информационном плане, по сравнению с порядковыми значениями. При работе с количественными признаками ранговые критерии реже, чем параметрические, отвергают нулевую гипотезу. И если нулевая гипотеза отвергнута ранговым критерием, то и параметрические критерии не приведут к иному результату.

 

Алгоритм расчета непараметрического коэффициента ранговой корреляции по методу Спирмена:

1. Определить ранги (х и y).

2. Рассчитать разность рангов (d).

3. Вычислить квадрат ранга (d²).

4. Рассчитать коэффициент ранговой корреляции:

N

rxy = 1 – 6 *∑ d²/n (n² – 1),

i=1

где n – число пар коррелируемых рядов;

6 – постоянный коэффициент.

5. Установить репрезентативность коэффициента по таблице 4.3.

Если rxy < rкр при данном уровне значимости, то принять нулевую гипотезу о том, что ряды признаков не связаны между собой. Если rxy > rкр при данном уровне значимости - принять альтернативную гипотезу о существовании корреляционной связи рассматриваемых признаков.

 

Таблица 4.3 Критические значения коэффициента корреляции рангов (rкр)

n Уровни значимости n Уровни значимости
0,05 0,01 0,05 0,01
1,00   0,42 0,53
0,89 1,00 0,41 0,52
0,78 0,94 0,40 0,51
0,72 0,88 0,39 0,50
0,68 0,83 0,38 0,49
0,64 0,79 0,38 0,48
0,61 0,76 0,37 0,48
0,58 0,73 0,36 0,47
0,56 0,70 0,36 0,46
0,54 0,68 0,36 0,45
0,52 0,66 0,34 0,45
0,50 0,64 0,34 0,44
0,48 0,62 0,33 0,43
0,47 0,60 0,33 0,43
0,46 0,58 0,33 0,42
0,45 0,57 0,32 0,41
0,44 0,56 0,31 0,41
0,43 0,54 0,31 0,40

 

3. Понятие регрессионного анализа. Область применения. Расчет коэффициента регрессии, шкалы регрессии, сигма регрессии. Виды причинно - следственных связей и их характеристика

Регрессия – функция, позволяющая по величине одного корреляционного (связанного) признака определить средние величины другого признака. С помощью регрессии можно выяснить, как количественно меняется одна величина при изменении другой величины. Для определения размера этого изменения применяется коэффициент регрессии.

Коэффициент регрессии Rx/y – абсолютная величина, на которую в среднем изменяется признак при изменении другого признака на единицу.

Формула для расчета коэффициента регрессии:

Rx/y = rxy· σy ,
σx

где Rx/y – коэффициент регрессии,

rxy – коэффициент корреляции,

σx и σy – средние квадратические отклонения для ряда x и ряда y.

С помощью коэффициента регрессии без специальных измерений можно определить величину одного из признаков (например, массы тела), зная значение другого (роста).

Для этих целей служит уравнение линейной регрессии. Рассмотрим его вид при определении зависимости массы тела человека от его роста:

y = Мy + Rx/y (x - Мx),

где y – искомая величина массы тела,

x – известная величина роста,

Rx/y – коэффициент регрессии при определении зависимости массы тела человека от его роста,

Мy – среднее значение массы тела, характерное для данного возраста,

Мx – среднее значение роста, характерное для данного возраста.

В практике исследования физического развития детей и подростков существует метод оценки физического развития по шкалам регрессии.

Индивидуальные значения отдельных признаков очень разнообразны: так, у людей с одинаковым ростом показатели массы тела и окружности грудной клетки могут колебаться в самых широких пределах. Меру разнообразия индивидуальных размеров признака характеризует сигма регрессии (σRx/y), которая рассчитывается по формуле:

 

σRx/y y 1- rxy2

где σy – среднее квадратическое отклонение измеряемого признака (например, массы тела),

rxy – коэффициент корреляции.

Метод регрессионного анализа широко используется в научной деятельности и практической медицине.

Алгоритм расчета коэффициента регрессии:

NN

1. Определить суммы рядов х и y (∑хi и ∑yi).

i=1 i=1

2. Вычислить средни.

С помощью коэффициента регрессии без специальных измерений можно определить величину одного из признаков (например, массы тела), зная значение другого (роста).

Для этих целей служит уравнение линейной регрессии. Рассмотрим его вид при определении зависимости массы тела человека от его роста:

y = Мy + Rx/y (x - Мx),

где y – искомая величина массы тела,

x – известная величина роста,

Rx/y – коэффициент регрессии при определении зависимости массы тела человека от его роста,

Мy – среднее значение массы тела, характерное для данного возраста,

Мx – среднее значение роста, характерное для данного возраста.

В практике исследования физического развития детей и подростков существует метод оценки физического развития по шкалам регрессии.

Индивидуальные значения отдельных признаков очень разнообразны: так, у людей с одинаковым ростом показатели массы тела и окружности грудной клетки могут колебаться в самых широких пределах. Меру разнообразия индивидуальных размеров признака характеризует сигма регрессии (σRx/y), которая рассчитывается по формуле:

 

σRx/y y 1- rxy2

где σy – среднее квадратическое отклонение измеряемого признака (например, массы тела),

rxy – коэффициент корреляции.

Метод регрессионного анализа широко используется в научной деятельности и практической медицине.

Алгоритм расчета коэффициента регрессии:

NN

1. Определить суммы рядов х и y (∑хi и ∑yi).

i=1 i=1

2. Вычислить средние арифметические рядов x и y (`x и `y).

3. Рассчитать разность (dх) каждого показателя ряда х и среднего арифметического этого ряда (dх = хi –`x), а также разность (dy) каждого показателя ряда y и среднего арифметического` y (dy = yi – y).

4. Величины dх и dy возвести в квадрат (dx² и dy²).

5. Показатели dх и dy перемножить между собой.

6. Рассчитать коэффициенты регрессии (Rxy и Ryx):

 

Rxy = N ∑(dх · dy) i=1 ; Ryx = N ∑(dх · dy) i=1
N ∑ dy² i=1 N ∑ dx² i=1

7. Оценить репрезентативность с вычислением ошибки выборки

Rxy и µRyx).

µRxy= ± ; µRyx= ±

 

Степень репрезентативности определяется по T – критерию

при n′= n – 2 и уровне значимости 0,05.

 

txy = Rxy ; tyx = Ryx
µ Rxy µ Ryx

Между коэффициентами корреляции и регрессии имеется определенная связь, позволяющая вычислить один из них через другой. Ее можно выразить формулой:

rxy = +√Rxy · Ryx