Ковариация и коэффициент корреляции

Пусть имеется двумерная случайная величина (X,Y), распределение которой известно, т.е. известна совместная плотность вероятности . Тогда можно найти математические ожидания и дисперсии одномерных составляющих X и Y. Однако математические ожидания и дисперсии случайных величин X и Y недостаточно полно характеризуют двумерную случайную величину (X, Y), т.к. они не выражают степени зависимости её составляющих X и Y. Эту роль выполняют ковариация и коэффициент корреляции.

Ковариацией или корреляционным моментом Kxy случайных величин X и Y называется математическое ожидание произведения отклонений этих величин от своих математических ожиданий, т.е.

Из определения следует, что .

Для дискретных СВ:

Для непрерывных:

Ковариация двух случайных величин характеризует как степень зависимости случайных величин, так и их рассеяние вокруг точки (ax, ay). Об этом также свидетельствуют свойства ковариации случайных величин.

1. Ковариация двух независимых случайных величин равна нулю.

Для независимых случайных величин . Поэтому формула ковариации для непрерывных случайных величин имеет вид:

,

так как каждый из полученных интегралов есть центральный момент первого порядка, равный нулю.

2. Ковариация двух случайных величин равна математическому ожиданию их произведений минус произведение математических ожиданий.

По определению

 

3. Ковариация двух случайных величин по абсолютной величине не превосходит произведения их средних квадратических отклонений:

Возьмем очевидное неравенство

 

 

Ковариация характеризует не только степень зависимости двух случайных величин, но и их разброс. Ковариация величина размерная, её размерность определяется произведением размерностей случайных величин. Это затрудняет использование ковариации для оценки степени зависимости различных случайных величин, имеющих различные размерности. Такого недостатка лишен коэффициент корреляции.

 

Коэффициентом корреляции двух случайных величин называется отношение их ковариации к произведению СКО этих величин:

Свойства коэффициента корреляции:

 

1. Коэффициент корреляции принимает значение на отрезке [-1, 1]. См. предыдущее св-во ковариации.

2. Если СВ независимы, их коэффициент корреляции равен нулю, rxy=0, т.к. Kxy=0. Из независимости СВ следует из некоррелированность. Обратное утверждение неверно: из некоррелированности СВ еще не следует их независимость.

3. Если коэффициент корреляции двух случайных величин равен (по абсолютной величине) единице, то между этими случайными величинами существует линейная функциональная зависимость.

Если

 

 

 

 

 

Постановка задачи:

Составить программу, которая реализует следующую функциональность:

1. Считать из файла случайные величины X и Y.

2. По данным варианта построить поле корреляции и по форме поля корреляции сделать вывод о существовании и виде зависимости.

3. Для определения тесноты корреляционной связи и близости ее к функциональной линейной или нелинейной зависимости используют коэффициент корреляции 4.2:

(3.2)

 

коэффициент корреляции r зависит от разброса точек и их числа. При отсутствии линейной связи r близок к нулю. При наличии точной функциональной зависимости r = 1. Обычно тесноту связи считают удовлетворительной при r ≥ 0,5.

Для удобства вычислений можно составить таблицу вычислений (табл. 3.1).

 

Таблица 3.1 Расчет коэффициентов при неизвестных системы уравнений.

xi yi xi*yi xi2 yi2
         
         
 

 

4. Определить параметры уравнения регрессии: для определения значений коэффициентов используют метод наименьших квадратов 3.3.

(3.3)

 

5. Оценить параметры криволинейной регрессии. Для этого можно использовать замену переменных. Вид нелинейной связи определить самостоятельно. Также возможно рассчитать параметры параболической регрессии.

6. Оценить полученный результат. Для этого находятся значения ординат Yi по полученной зависимости и их отклонения от эмпирических данных. Результаты сводятся в табл. 3.2.

 

Таблица 3.2. Вычисление отклонений теоретических и эмпирических значений функции

xi yi Yi Yi - yi
       
       
       
N        

 

По данным табл. 3.2. определяем максимальное отклонение, сумму отрицательных и сумму положительных отклонений.

 

7. Определить тесноту связи между параметрами