Основные понятия по теме

 

Важной задачей обработки геофизических данных является изучение зависимостей между изучаемыми признаками (например, между различными физическими свойствами горных пород). Другой распространенной задачей обработки данных является их аппроксимация некоторой зависимостью, например полиномом заданной степени. Изучение и построение указанных зависимостей предусматривает оценку тесноты связи и формы проявления этой связи. Эти задачи решаются на основе корреляционно-регрессионного анализа.

Зависимость, при которой изменение одной величины вызывает изменение распределения другой, называется статистической. При статистической зависимости различают корреляцию, когда устанавливают существование взаимосвязи между двумя (или более) случайными величинами и оценивают силу (тесноту) этой связи, и регрессию, когда выясняют характер (форму) зависимости между величинами Х и У и возможность оценки У по Х (или Х по У).

Характеристикой связи между двумя случайными величинами Х и Y служит неслучайная величина коэффициент корреляции. Поскольку средние значения и дисперсии Х и Y, через которые определяется этот коэффициент, неизвестны, используется оценка коэффициента корреляции, называемая выборочным коэффициентом корреляции:

, (4.1)

где оценки средних значений и среднеквадратических отклонений случайных величин Х и Y.

При отсутствии линейной связи коэффициент корреляции равен нулю, однако, при этом выборочный коэффициент не обязательно равен нулю. Необходимо оценить его значимость. Обычно это выполняется по критерию Стьюдента. Он основан на том, что при отсутствии связи величина

(4.2)

распределена по закону Стьюдента с (n-2) степенями свободы.

Гипотеза об отсутствии связи отвергается, если

,

где -квантиль распределения Стьюдента с (n-2) степенями свободы.

Если случайная величина Y линейно зависит от системы случайных величин Х1, Х2 ..., Хk, то теснота линейной связи характеризуется множественным коэффициентом корреляции

,

где - выборочный коэффициент корреляции величины Хi с Y; bi – решение системы линейных уравнений вида Rb=r,

где R – корреляционная матрица, составленная из выборочных коэффициентов парной корреляции rij, .

Для зависимости случайной величины Y от двух переменных Х1 и Х2 множественный (выборочный) коэффициент корреляции будет:

. (4.3)

Значимость множественного коэффициента корреляции определяется на основании F-критерия Фишера: вычисляется величина

. (4.4)

Если , где Fg - g-квантиль распределение Фишера с (n-k-1) и k степенями свободы, гипотеза о наличии линейной связи между Y и Х1,...,Хk отвергается с вероятностью g.

Степень влияния одной из величин, например, x1 на Y (при постоянном значении x2) оценивается частным (парциальным) коэффициентом корреляции случайной величины Х1 и Y по отношению к Х2:

. (4.5)

Аналогично,

(4.6)

. (4.7)

Частный коэффициент корреляции определяется на значимость как обычный коэффициент корреляции. Однако при этом число степеней свободы будет (n-3).

Вычисление частных коэффициентов корреляции обычно дает возможность оценивать искажающее влияние тех факторов, которые при эксперименте плохо контролируются или вообще не поддаются контролю.

Под регрессией понимают сглаживание экспериментальной за­висимости по методу наименьших квадратов. Для оценки формы зависимости необходимо задать конкретный вид функции j(x).

Линейной регрессией между величинами X и Y называется корреляционная зависимость вида Y=a0+a1X. Система нормальных уравнений имеет вид:

или, в матричной форме

 

Коэффициенты регрессии а0 и а1 тогда будут:

 

(4.8)

Важный вопрос анализа – определение доверительного интервала оценки коэффициентов регрессии a0 и a1.

Прежде всего, определяется общая дисперсия

, (4.9)

- стандартная ошибка.

Тогда дисперсия каждого коэффициента определяется следующим образом:

(4.10)

(4.11)

Доверительные интервалы

(4.12)

где tg - g-квантиль распределения Стьюдента с (n-2) степенями свободы.

Если доверительный интервал пересекает ноль, коэффициент не значим.

Нелинейной (криволинейной) регрессией называется любая зависимость, отличающаяся от линейной. Примером является параболическая регрессия второго порядка

.

Система нормальных уравнений:

Другой распространенный в геофизике вид регрессии – экспоненциальная: Так как при этом ln y изменяется по линейному закону, то коэффициенты регрессии определяются из соотношений:

 

(4.13)

Множественная регрессия получается при исследовании связи между несколькими (три и более) величинами, напри­мер: . Система нормальных уравнений в этом случае имеет вид:

(4.14)

Коэффициенты a0, a1, a2 определяют чаще всего по методу Крамера. Теснота связи оценивается множественным коэффициентом корреляции.

 

Вопросы для самоконтроля

 

1 Что оценивается выборочным коэффициентом корреляции?

2 Как вычисляется выборочный коэффициент корреляции?

3 Как определяется коэффициент ранговой корреляции Спирмена?

4 В чем сущность метода наименьших квадратов?

5 Что такое регрессия?

6 Каков смысл коэффициентов линейной регрессии?