Сравнение двух средних выборочных средних значений для независимых выборок

Часто в географических исследованиях возникает задача: значимо ли различаются средние значения, полученные по двум независимым выборкам. Например, по результатам исследования глубины расчленения рельефа в двух районах требуются установить, объединять их в один геоморфологический район по степени расчленения рельефа или различать их как самостоятельные. Здесь также применяется t – критерий Стьюдента, но применения t–критерия отличается при различных предположениях относительно дисперсий этих генеральных совокупностей из которых получены выборки. Поскольку на практике генеральные дисперсии, как правило, неизвестны( например, при небольшом числе наблюдений), здесь описывается только случай неизвестных дисперсий. Обычно вначале по имеющимся выборочным данным проверяют гипотезу о равенстве дисперсий, используя F–критерий, а затем уже выбирают тот или иной вариант t–критерия.

При описанном выше подходе t-критерий применяется следующим образом.

1. Принимается предположение о нормальности распределения генеральных совокупностей Х и Y с параметрами ax, sx и aу, sу. Формулируется нулевая гипотеза Но: ax= aу о равенстве генеральных средних нормальных совокупностей при конкурирующей гипотезе Н1: ax¹ aу или Н1: ax>aу(ax<aу) в зависимости от того, что требуется доказать: простое различие средних значений или то, что одно из них больше другого; задаётся уровень значимости a.

2. Получают две независимые выборки из совокупностей X и Y объёмом nx и ny соответственно.

3. Вычисляется выборочные характеристики , sx и , sy методами, рассмотренными в §13.4.

4. Вычисляются значения t-критерия и число степеней свободны n. Применяемые для этого формулы приведены в табл. 15.1, они различаются в зависимости от предположения о дисперсиях и соотношения между объёмами выборок nx и ny.

5. Из таблицы П.1.6 находится критическое значение t–критерия tкр(a,n) при заданном уровне значимости a и числе степеней n.

6. Делается вывод: если t ³ tкр, то выборочные средние значимо различается на уровне значимости a. В противном случае различие статистически незначимо.

Задача 15.3При исследовании глубины расчленения рельефа в двух районах получены следующие данные:

1: 8 10 11 12 14

2: 14 12 12 14 18

Обе территории расположены в степенной зоне.

Требуется установить, объединять рассматриваемые участки в один геоморфологический район по степени расчленения рельефа или различать их как самостоятельные.

Решение.Используем t-критерий Стьюдента в указанной выше последовательности.

1. Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены результаты. Будем судить о вариативности глубины расчленения рельефа в районах по средним величинам. Таким образом, нулевая гипотеза имеет вид Но: ax= aу. В качестве конкурирующей примем гипотезу Н1: ax¹ aу, поскольку заранее не уверены в том, что степень расчленения рельефа в одном из районов больше другого.

Выбираем уровень значимости a=0,05.

 

2. Получаем две выборки, независимость которых обеспечивается планированием эксперимента(результаты исследования в одном районе не зависят от результатов другого).

3. Рассчитываем выборочные характеристики, методом рассмотренными в §13.4. Расчёты дают:

=11

=14 .

4. По результатам применения F– критерия принимается предположение о равенстве дисперсий (алгоритм применения F-критерия рассмотрен в §15.2). Поэтому значения t-критерия вычисляем по формуле (1) из табл. 15.1:

,

n=2×5-2=8,

 

» 2,03 .

5. Из таблицы П.1.6 находим критическое значение t–критерия при a=0,05 и n=18:

t0,05 =2,31.

6. Вывод: поскольку t < t0,05, то на уровне значимости 0,05 принимаем гипотезу Но. При выделении геоморфологических районов по глубине расчленения рельефа рассматриваемые участки необходимо объединить в один геоморфологический район.


Таблица 15.1

 

Предпо-ложение о дисперсияx и Объемы выборок nx , ny Формулы t-критерия Стандартная ошибки разности   Число степеней свободы   n
            = =     ¹ ¹     nx=ny=n     nx¹ny         nx=ny=n   nx¹ny       =   =     =   = n=2n – 2   n=nx + ny - 2     n=(n-1)     n=

 

§15.5. Расчет теоретической кривой нормального распределения

 

Один из способов построения нормальной кривой по интервальному вариационному ряду состоит в следующем:

1) при расчете теоретических частот niT за оценку математического ожидания а и среднего квадратического отклонения s нормального закона распределения принимают значения соответствующих выборочных характеристик и s, т.е. ;

2) находят теоретические частоты по формуле

,

где n – объем, рi – вероятность попадания значения нормально распределенной случайной величины в i-интервал; вероятность рi определяется по формуле

 

,

 

где – интегральная функция Лапласа, находится по таблице П.1.2 для

причем наименьшее значение z1 полагают равным –¥, а наибольшее zl полагают равным +¥;

3) строят точки (хi, yi) в прямоугольной системе координат, где хi – середина частного интервала, yi = niT/(n×h), и соединяют их плавной кривой.

Близость теоретических частот к наблюдаемым подтверждает правильность допущения о том, что обследуемый признак распределен нормально.

Задача 15.4. Построить нормальную кривую по статистическому ряду распределения диаметра деревьев сосны (см. §13.5, табл. 13.6).

Решение. Положим и s=s=6,83. Для вычисления вероятности рi и теоретических частот niT составим таблицу 15.2.

 

 

Таблица 15.2

Расчет теоретической кривой нормального распределения

Интервалы ai – bi ni zi zi+1 Ф(zi) Ф(zi+1) рi npi niT yi
15,7 – 20,2 – ¥ –1,55 –0,5 –0,4394 0,0606 5,45 0,01
20,2 – 24,7 –1,55 –0,89 –0,4394 –0,3133 0,1261 11,35 0,03
24,7 – 29,2 –0,89 –0,23 –0,3133 –0,0910 0,2223 20,01 0,05
29,2 – 33,7 –0,23 0,43 –0,0910 0,1664 0,2574 23,17 0,06
33,7 – 38,2 0,43 1,09 0,1664 0,3621 0,1957 17,61 0,04
38,2 – 42,7 1,09 1,75 0,3621 0,4599 0,0978 8,80 0,02
42,7 – 47,2 1,75 2,41 0,4599 0,4920 0,321 2,89 0,01
47,2 – 51,7 2,41 3,06 0,4920 0,4988 0,0068 0,61 0,003
51,7 – 56,2 3,06 0,4988 0,5 0,0012 0,11
  1,0000

Построим теоретическую нормальную кривую j(х). Для этого из середины частных интервалов восстановим перпендикуляры высотой yi (табл. 15.2, гр. 10). На рис. 13.2. концы этих перпендикуляров отмечены точками. Полученные точки соединены плавной кривой. Сравнение гистограммы и нормальной кривой наглядно показывает согласованность между теоретическим и эмпирическим распределениями.

§15.6. Проверка гипотезы о нормальном законе распределения

Часто для проверки соответствия эмпирического ряда распределения нормальному закону используют критерий χ2, получивший название критерия согласия Пирсона. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими частотами, которые можно ожидать при принятии определенной нулевой гипотезы.

Порядок применения критерия χ 2 заключается в следующем:

1. Формируется гипотеза Н0: j(х) = jнорм(х) – плотность распределения j(х) генеральной совокупности, из которой взята выборка, соответствует теоретической модели jнорм(х) нормального распределения. Альтернативная гипотезы
Н1: j(х) ¹ jнорм(х). Выбирается уровень значимости a.

2. Получается выборка объема n ³ 40 независимых наблюдений и представляется эмпирическое распределение в виде интервального вариационного ряда.

3. Рассчитываются выборочные характеристики и s. Их используют в качестве генеральных параметров а и s нормального распределения, с которым предстоит сравнивать эмпирическое распределение.

4. Вычисляются значения теоретических частот niT попадания в i-й интервал группировки (без округления).

Если окажется, что вычисленные теоретические частоты niT некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их теоретических частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.

5. Значения χ2–критерия рассчитываются по формуле:

,

где ni –эмпирические частоты; niT – теоретические частоты; k – число интервалов группировки после объединения.

6. Определяем по таблице П.1.5 распределения χ2(Хи – квадрат) критическое значение χкр2(a,n) для числа степеней свободы n = k–3 и заданного уровня значимости a.

7. Если χнабл2 χкр2, то выдвинутая гипотеза о нормальном законе распределения не отвергается ( не противоречит опытным данным).

Если χнабл2кр2, то выдвинутая гипотеза о нормальном законе распределения отвергается с вероятностью ошибки a.

Пример 15.1. Воспользуемся данными табл. 15.2 для проверки соответствия эмпирического распределения нормальному распределению. Все вспомогательные расчеты, необходимые для вычисления χ2, сведем в табл. 15.3.

Таблица 15.3

Интервалы ai – bi ni niT (ni –niT)2
15,7 – 20,2 5,45 2,102 0,386
20,2 – 24,7 11,35 0,122 0,011
24,7 – 29,2 20,01 8,940 0,447
29,2 – 33,7 23,17 14,669 0,633
33,7 – 38,2 17,61 21,252 1,207
38,2 – 42,7   0,069   0,006
42,7 – 47,2
47,2 – 51,7
51,7 – 56,2
  χнабл2=2,69

Для нашего примера χнабл2= 2,69, a = 0,05, n=6–3=3 (число интервалов после объединения стало равным 6) и χкр2=(0,05;3)=7,8.

Так как χнабл2кр2, то, согласно критерию Пирсона, гипотеза о нормальном законе не отвергается. Можно сделать вывод, что распределение диаметра деревьев сосны является нормальным.

§15.7. Методы описательной статистики в пакете STADIA 6.0 для Windows

Методами описательной статистики принято называть методы описания выборок х1, х2,…,хn с помощью различных показателей и графиков.

Проиллюстрируем работу методов описательной статистики на рассмотренном выше примере.

Пример 15.2. Для выборки диаметров деревьев сосны (табл. 13.2.) вычислить показатели описательной статистики.

Подготовка данных. Находясь в электронной таблице пакета, следует ввести данные таблицы с клавиатуры, в первой столбец, назначив ему имя,
например d.

Выбор процедуры. После выбора пункта меню Статист или нажатия клавиши F9 программа выведет на экран меню Статистические методы.

С помощью мыши выберите в меню пункт 1=Описательная статистика. На экране появится окно Анализ переменных (рис. 15.1). Выделив переменную d в списке переменных, нажмите мышью на кнопку со стрелкой вправо. Затем нажмите клавишу Утвердить.

Результаты. На экране в окне Результаты появится значения основных описательных статистик и запрос системы Выдать дополнительную статистику. В ответ на запрос можно нажать Да, и тогда программа выведет остальные описательные статистики (рис. 15.2.).

Пример 15.3. Сгруппировать данные примера 16.2 в диапазоне от 15,7 см до 56,2 см с шагом группировки 4,5 см, и вычислить частоты попадания в полученные интервалы группировки. Проверить согласие распределения выборки диаметров сосны с нормальным распределением.

Подготовка данных осуществляется так же, как в примере 15.2.

ОПИСАТЕЛЬНАЯ СТАТИСТИКА. Файл: fet1.std Переменная Размер <---Диапазон---> Среднее---Ошибка Дисперс Ст.откл Сумма d 90 17,9 53,6 30,7 0,714 45,8 6,77 2,76E3   Переменная Медиана <--Квартили--> ДовИнтСр. <-ДовИнтДисп-> Ош.СтОткл d 30,3 26,2 34,5 1,4 40,5 49,7 1,85   Переменная Асимметр. Значим Эксцесс Значим d 0,612 0,0071 0,82 0,0595  

 


Рис. 15.2. Окно результатов процедуры описательной статистики

Выбор процедуры. В меню статистических методов следует выбрать процедуру 2=Гистограмма/Нормальность, нажав на экране соответствующую кнопку мышью или нажав цифру 2.

Заполнение полей ввода данных. На экране появится окно Анализ переменных (рис. 15.1), в котором следует выбрать переменную d для анализа. Далее последует запрос пакета о параметрах группировки данных (рис. 15.3). Введем число интервалов группировки равным 9, левую границу группировки данных – 15,7 и правую границу – 56,2, как показано на рис. 15.3. Затем нажмите кнопку Утвердить.


Рис. 15.4. Экран результатов процедуры «Гистограмма и нормальность»

Результаты. На экране появятся результаты расчетов, включающие таблицу табуляции частот (рис. 15.4), а также заключение системы Гипотеза 0: Распределение не отличается от нормального.

В первом столбце таблицы указан левый конец интервала группировки, во втором значения первого столбца трансформированы следующим образом: из каждого элемента первого столбца вычитается среднее значение выборки и полученная разность делится на стандартное отклонение выборки. Следующие четыре столбца содержат частоту, относительную частоту, накопленную частоту и относительную накопленную частоту соответственно.

После нажатия Enter появится запрос системы Вывести график? При ответе Да программа выводит гистограмму и подобранную по выборке кривую плотности нормального распределения в специальное графическое окно. Полученные графики показаны на рис. 15.5.

Выводы: Согласно результирующим уровням значимости трех критериев нормальности (Р > 0.05) можно принять гипотезу о нормальном распределении выборки.

Рис. 15.5. Гистограмма с наложенным графиком нормальной кривой

§15.8. Анализ нормальных выборок в пакете STADIA

Ниже на примерах будут рассмотрены некоторые из основных процедур анализа нормальных выборок.

Пример 15.4. Построим 95% доверительные интервалы для среднего значения и дисперсии по выборке диаметров деревьев сосны (табл. 13.2) и проверим гипотезу о равенстве среднего значения выборки заданной величине 31,7.

Решение этой задачи в пакете осуществляет процедура 1=Описательная статистика из меню Статистические методы. Экран выдачи результатов этой процедуры для данных диаметров сосны приведен на рис. 15.2.

Для получения левого конца доверительного интервала для среднего следует вычесть из полученной оценки для среднего 30,7 величину ДовИнтСр, то есть 1,4. Для получения правого конца доверительного интервала для среднего следует прибавить к среднему указанную выше величину.

В пакете отсутствует процедура, в явном виде реализующая критерий Стьюдента для проверки гипотезы о равенстве среднего значения нормально распределенной выборки заданному числу. Для решения этой задачи при уровне значимости a = 0,05 против двусторонних альтернатив следует посмотреть, попадает ли гипотетическое значение 31,7 в полученный интервал для среднего. В данном случае гипотетическое значение попадает в 95% доверительный интервал (29,3; 32,1). Поэтому гипотезу Н: а = 31,7 можно принять на указанном уровне значимости 0,05.

Проведем анализ однородности двух нормальных выборок. Для этого рассмотрим следующий пример.

Пример 15.5. При исследовании глубины расчленения рельефа в двух районах получены следующие данные:

1: 20 17 16 15 15 18 19 19 21 17

2: 17 16 15 14 14 19 17 19 16 21

Требуется установить, объединять рассматриваемые участки в один геоморфологический район по степени расчленения рельефа или различать их как самостоятельные.

Подготовка данных. Поместим наблюдения по районам в переменные х1 и х2 электронной таблицы пакета.

Выбор процедуры. В меню Статистически методы выберем пункт 4 = Стьюдента и Фишера.

Заполнение полей ввода данных. На экране появится окно Анализ переменных. С помощью мыши выделим в левом поле этого окна имена переменных х1 и х2. Нажав кнопку со стрелкой вправо, перенесем их в правое поле и нажмем кнопку запроса Утвердить.

Результаты. На рис.15.6 приведены значения статистик Фишера и Стьюдента для проверки гипотез о равенстве дисперсий и средних значений двух нормальных выборок. В зависимости от результатов сравнения дисперсий применяются различные формулы вычисления статистики Стьюдента.

Выводы: Как можно видеть из полученных результатов анализа, ни критерий Стьюдента, ни критерий Фишера не выявляет заметных различий между средними значениями и дисперсиями анализируемых выборок. Следовательно, при выделении геоморфологических районов по глубине расчленения рельефа рассматриваемые участки необходимо объединить в один геоморфологический район.

 

Рис. 15.6 Результаты проверки различия между средними

и дисперсиями выборок

 

ГЛАВА 16. ЭЛЕМЕНТЫ РЕГРЕССИОННОГО И КОРРЕЛЯЦИОННОГО
АНАЛИЗА

§16.1. Понятие функциональной, статистической и корреляционной
зависимости

 

Условимся обозначить через Х независимую переменную, а через Y зависимую переменную.

В географических исследованиях в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество значений другой переменной, причем сказать заранее, какое именно значение примет зависимая величина Y, нельзя. Такая зависимость получила название статистической (или стохастической, вероятностной). Более часто появление такой зависимости объясняется действием на результирующую переменную не только контролируемого или контролируемых факторов (в данном случае таким контролируемым фактором является переменная Х), а и многочисленных неконтролируемых случайных факторов. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, степени эрозионного расчленения местности от характера подстилающих пород и т.д.

Допустим, что существует стохастическая зависимость случайной переменной Y от Х. Зафиксируем некоторое значение х переменной Х. При Х=х переменная Y в силу ее стохастической зависимости от Х может принять любое значение из некоторого множества, причем какое именно – заранее не известно. Поэтому, прежде всего, стараются выяснить, изменяются или нет при изменении х условные математические ожидания М(Y/Х=х). Если при изменении х условные математические ожидания М(Y/Х=х) изменяются, то говорят, что имеет место корреляционная зависимость величины Y от Х.

Функция j(х)=М(Y/Х=х), описывающая изменение условного математического ожидания случайной переменной Y при изменении значений х переменной Х, называется функцией регрессии, а ее график - линией регрессии.

Для отыскания функции регрессии, вообще говоря, необходимо знать закон распределения случайной двумерной величины (Х,Y). В нашем распоряжении лишь выборка ограниченного объема. Поэтому в этом случае речь может идти об оценке (приближенном выражении) функции.

В качестве оценок условных математических ожиданий принимают условные средние, которые находят по данным наблюдений (по выборке).

Условным средним называют среднее арифметическое наблюдавшихся значений Y, соответствующих Х=х.

Условное математическое ожидание М(Y/х) является функцией от х, следовательно, его оценка, т.е. условное среднее `ух, также функция от х; обозначив эту функцию через j*(х), получим уравнение

.

Это уравнение называют выборочным уравнением регрессии; функцию j*(х) называют выборочной регрессией, а ее график – выборочной линией регрессии.

Как найти по данным наблюдений параметры функции j*(х), если вид ее известен? Как оценить силу (тесноту) связи между величинами Х и Y и установить, коррелированы ли эти величины? Ответы на эти вопросы изложены ниже.

 

§16.2. Линейная парная регрессия

Пусть функция регрессии линейная, т.е. М(Y/Х=х)= a+bх. Найдем оценки а и b параметров a и b.

Предположим, что в результате n независимых опытов получены n пар чисел (х1, у1), (х2, у2),…, (хn, yn). Рассмотрим случай, когда различные значения х признака Х и соответствующие им значения у признака Y наблюдались по одному разу. Тогда выборочное уравнение можно записать так: .

Для нахождения оценок а и b применим метод наименьших квадратов. Суть этого метода в том, что отыскиваются такие значения а и b, которые обеспечивают минимум суммы квадратов отклонений измеренных значений уi от прямой линии, задаваемой параметрами а и b, т.е.

 
 

Для отыскания минимума приравняем нулю соответствующие частные производные:

.

Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно а и b:

(16.1)
Решения этой системы уравнений можно записать в следующем, удобном для расчетов виде:

 

(16.2)
Обычно b называют коэффициентом регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.

Пример 16.1. Найти выборочное уравнение прямой линии регрессии по данным n =8 наблюдений:

 

х 1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5

y 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0

 

 

Такие результаты наблюдений могут быть получены в любой экспериментальной работе. Например, при изучении зависимости содержания подвижного марганца (у) от гидролитической кислотности (х), объема биомассы травянистой растительности в агроландшафте (у) от количества выпадающих за вегетационный период осадков (х) и т.д.

Решение. Экспериментальные данные изобразим в виде точек в системе декартовых координат. Ломаная линия, соединяющая эти точки, называется эмпирической линией регрессии. По виду ломанной можно предположить наличие корреляционной зависимости Y по Х между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки (рис.16.1).

 

 

Y 7

9 5 8

8 6

7 3

6 4

5 1

4

0 1 2 3 4 5 6 7 8 9 10 11 12 х

Рис. 16.1

 

 

Составим расчетную таблицу 16.1.

 

Таблица 16.1

хi yi x i2 xiyi
1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0 2,25 16,00 25,00 49,00 72,25 100,00 121,00 156,25 7,50 18,00 35,00 45,50 80,75 90,00 121,00 112,50
å 59,5 61,5 541,75 510,25

 

 

Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (17.2):

а= (61,5× 541,75 – 510,25 ×59,50)/ (8 ×541,75 – 3540,25) = 3,73,

b = (8× 510,25 – 59,50× 61,50)/ (8 ×541,75 – 3540,25) = 0,53.

Таким образом, уравнение регрессии имеет вид

.

Прямая, построенная по этому уравнению, показана на рис. 17.2 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия.

Построенная таким образом линия регрессии позволяет с некоторой вероятностью не только предсказать в интервале от х=1,5 до х=12,5 любые значения функции у при отсутствующих в табл. 16.1 значениях фактора х, но и за пределами данного интервала.

 

у

12 7

11

10 5

9 8

8 6

7 3

1 2 2
6 4

5

4

2

 
 


0 1 2 3 4 5 6 7 8 9 10 11 12 х

Рис.16.2

 

Составленное уравнение регрессии можно проверить на точность зависимости между переменными (х, у) по коэффициенту точности выравнивания линии r1, отражающему степень приближения расчетных данных к фактическим значениям эмпирического ряда. Этот коэффициент определяется следующим образом:

 

, (16.3)
где (уi ) – отклонение индивидуальных вариант от общего среднего арифметического по y; ( ) – отклонение индивидуальных экспериментальных вариант по y от расчетных по уравнению.

Составим таблицу расчета данных для определения коэффициента точности выравнивания линии.

 

Таблица 16.2

xi уi уi i )2
1,5 1,0 5,0 7,0 8,5 10,0 11,0 12,5 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0   4,53 5,85 6,38 7,44 8,24 9,03 9,56 10,35 -2,6875 -3,1875 -0,6875 -1,1875 1,8125 1,3125 3,3125 1,3125 7,2227 10,1602 0,4727 1,4102 3,2852 1,7227 10,9727 1,7227 0,47 -1,35 0,62 -0,94 1,26 -0,03 1,44 -1,35 0,2209 2,8225 0,3844 0,8836 1,5876 0,0009 2,0736 1,8225
        36,9691   8,7956

= 7,6875

На основании исходных данных, полученных в табл. 16.2, используя формулу (16.3), имеем

Принято считать: если r1 > 0,95, то уравнение регрессии адекватно отражает существующую связь. При r1< 0,95 необходимо найти другую математическую зависимость между признаками. В приведенном примере

r1= 0,87< 0,95, поэтому следует подобрать другую математическую зависимость. Критерий оценки r1 на точность выравнивания линии уравнения регрессии используется и для других форм регрессионной зависимости.

Проверку адекватности линейной модели можно провести по графику остатков:

,

где уi – измеренные значения, соответствующие значениям xi ; – значения функции регрессии при х=хi .

Если остатки di сконцентрированы в горизонтальной полосе вдоль оси абсцисс, то линейную модель можно считать адекватной. Если зона, где расположены остатки, расширяется, это означает, что дисперсии неодинаковы при различных значениях хi . Это требует изменения регрессионной модели. Если остатки имеют тенденцию закономерно изменяться, то не учтены какие-то факторы, существенно влияющие на связь между величинами Y и х. В этом случае также нужно изменить модель и ввести неучтенные факторы.

В заключение построим график остатков для предыдущего примера (рис.16.3). Для этого используем столбцы уi и табл. 16.2.

di 7

1,4 5 х

1,3 х

1,2

1,1

1,0

0,9

0,8

0,7 3

0,6 1 х

0,5 х

0,4

0,3

0,2

0,1

0

-0,1 1 2 3 4 5 6 7 8 9 10 11 12 у

-0,2

-0,3 х

-0,4 6

-0,5

-0,6

-0,7

-0,8

-0,9 х

-1 4

-1,1

-1,2

-1,3 х х

-1,4 2 8

Рис. 16.3

Как следует из рис. 16.3, зона, где расположены остатки, расширяется, поэтому следует подобрать другую математическую зависимость. Такие же выводы получены при проверке на точность зависимости между переменными по коэффициенту точности выравнивания линии r1.

 

 

§16.3. Выборочный коэффициент корреляции

 

Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r=0, то связь между признаками отсутствует. Равенство r=0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной ) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.

Практическая значимость коэффициента корреляции определяется его величиной, возведенной в квадрат, получившая название коэффициента детерминации.

Например, если r = 0,8, то r2 = 0,64, т.е. 64% всех изменений одного признака связано с изменением другого.

Выборочный коэффициент корреляции определяется равенством

 

, (16.4)
где хi , уi - варианты (наблюдавшиеся значения) признаков Х и Y; n – объем выборки; - выборочные средние.

Чтобы получить исходные данные для формулы (16.4), сопряженные варианты обрабатывают по рекомендуемой форме (табл.16.3). Приведем расчет показателей для вычисления коэффициента корреляции r с использованием данных примера предыдущего параграфа.

Таблица 16.3

xi ( )2 yi ( )2 ( )( )
1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5 -5,9375 -3,4375 -2,4375 -0,4375 1,0625 2,5625 3,5625 5,0625 35,2539 11,8164 5,9414 0,1914 1,1280 6,5664 12,6914 25,6289 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0 -2,6875 -3,1875 -0,6875 -1,1875 1,8125 1,3125 3,3125 1,3125 7,2227 10,1602 0,4727 1,4102 3,2852 1,7227 10,9727 1,7297 15,9570 10,9570 1,6758 0,5195 1,9258 3,3633 11,8008 6,6445
59,5 99,2187 61,5 36,9691 52,8437

.

Выборочный коэффициент корреляции r является оценкой коэффициента корреляции rг генеральной совокупности. Допустим, что выборочный коэффициент оказался отличным от нуля. Так как выборка отобрана случайно, то еще нельзя заключить, что коэффициент корреляции генеральной совокупности rг также отличен от нуля. В конечном счете нас интересует именно этот коэффициент, поэтому возникает необходимость проверить гипотезу о значимости (существенности) выборочного коэффициента корреляции (или, что то же, о равенстве нулю коэффициента корреляции генеральной совокупности).

Для того чтобы при заданном уровне значимости a проверить нулевую гипотезу Ho: rг = 0 о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе

H1: rг ¹ 0, надо вычислить наблюдаемое значение критерия:

и по таблице П.1.6. критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы ν = n-2 найти критическую точку tкр(a, ν) для двухсторонней критической области. Если ½tнабл ½< tкр – нет оснований отвергнуть нулевую гипотезу. Если ½tнабл ½ >tкр - нулевую гипотезу отвергают.

Для данного примера найдем наблюдаемое значение критерия:

.

Поскольку tнабл = 4,32 >tкр = 2,45 при ν= 6 и a= 0,05, то нулевую гипотезу отвергаем. Другими словами, выборочный коэффициент корреляции значимо отличается от нуля, т.е. Х и Y коррелированны.

§16.4. Анализ криволинейных связей

В том случае, когда по правилам, изложенным в предыдущем параграфе, гипотеза линейности может быть отброшена или когда при графическом изображении точек нелинейность явно просматривается “на глаз”, есть смысл получить по экспериментальным данным нелинейную (квадратичную или высших порядков) формулу парной зависимости. Следует только помнить, что речь идет о зависимости, нелинейной по независимой переменной х. По параметрам зависимость остается линейной.

Определение параметров (постоянных) нелинейных уравнений регрессии также основано на способе наименьших квадратов. Технически наиболее просто проводятся вычисления по этому способу, когда уравнение регрессии может быть представлено в виде линейной связи относительно оцениваемых параметров. При этом требуется решить систему из стольких уравнений, сколько параметров входит в предполагаемое уравнение связи. В общем случае способ получения отдельных уравнений такой системы состоит в том, что сначала отыскивается общий вид уравнений системы, для чего все члены исходного уравнения связи последовательно умножаются на коэффициенты при определенных параметрах, и в результате получается столько уравнений, сколько параметров содержит исходное уравнение. К примеру, в уравнении параболы второго порядка общего вида y=a+bx+cx2 требуется определить значения a, b, c. Коэффициенты при этих параметрах соответственно равны 1, x и x2 . Умножая все члены исходного уравнения на 1, получим вид первого уравнения системы, умножая на х – второго, на х2 – третьего:

у= a + bx + cx2 ,

yх =aх +bx2+ cx3 ,

2 = a х2+ bx3 + cx4 .

Если в каждое из этих уравнений последовательно подставить все пары значений х и у и затем все полученные уравнения одного вида просуммировать, то получится система уравнений, решая которую относительно a, b и c можно получить искомые оценки по способу наименьших квадратов.

Так, если имеется n пар значений х и у , то первое уравнение будет получено в результате суммирования:

y1= a + bx1 + cx12

y2= a + bx2 + cx22

…………………

уn= a + bxn + cxn2

________________

.

Аналогичным образом можно получить и другие два уравнения, и тогда система уравнений примет вид:

(16.5)
Легко убедиться, что такой же способ составления системы использован и в случае линейной регрессии.

 

Пример 16.2. Найти выборочное уравнение парной квадратичной регрессии по данным n = 5 наблюдений:

x 1,7 3,4 4 4,1 5,3

y 25 34 57 82 98

 

Решение. При построении эмпирической линии регрессии (рис.16.4) видно, что зависимость между функцией и аргументом близка к параболической, поэтому используем общее уравнение параболы второго порядка.

 

y _ _ _ - эмпирическая линия регрессии

______- теоретическая линия регрессии

100 5

80 4

60

40 1 3 =22,8560 - 6,9576 х + 4,1200х2

20 2

0 1 2 3 4 5 6 х

 

Рис. 16.4

 

 

Система уравнений в общем виде для этого случая нами уже получена (16.5). Методику расчета коэффициентов уравнения параболической регрессионной зависимости приведем в табл. 16.4.

 

 

Таблица 16.4

 

x у ху х2 х2у х3 х4
1,7 3,4 4,1 5,3 42,5 115,6 228,0 336,2 519,4 2,89 11,56 16,00 10,81 28,09 72,25 393,04 912,00 1378,42 2752,12 4,91 39,30 64.00 68,92 148,88 8,35 133,62 256,00 282,57 789,06
S 18,5 1241,7 75,35 5508,53 326,01 1469,60

 

 

Взятые из табл.16.4 значения сумм, подставляем в систему (16.5):

 

 

 

Решая эту систему, найдем a = 22,856; b = -6,9576; c = 4,1200 и соответственно уравнение регрессии вида:

.

 

Коэффициент точности выравнивания линии r1 рассчитываем таким же образом, как в §16.3.

Используя метод наименьших квадратов, можно построить практически любые формы нелинейной парной связи. В табл.16.5 приведены часто встречающиеся парные зависимости и линеаризующие преобразования переменных. Качество предсказания результатов проверяют с помощью уравнения . После вычисления коэффициентов и по методу наименьших квадратов (как для парной линейной зависимости) выполняют обратные преобразования, т.е. по и определяют b0 и b1 в соответствии с указаниями табл. 16.5.

 

 

Таблица 16.5

Функция Линеаризующие преобразования
преобразование переменных выражения для величин b0 и b1
у´ х´
y= bо + b1/x y 1/x b0 b1
y= 1/( bо + b1x) 1/y x b0 b1
y= x/( bо + b1x) x/y x b0 b1
y= bо × b1x lg y x lg b0 lg b1
ln y x ln b0 b1
y/( bо + b1 e –x ) 1/y e -x b0 b1
lg y lg x lg b0 b1
y= bо + b1 lg x y lg x b0 b1
y= bо /(b1 + x) 1/y x b1/ b0 1/ b0
y= bо x/(b1 +x) 1/y 1/x b1/ b0 1/ b0
ln y 1/x ln b0 b1
y= b0 + b1 xn y xn b0 b1

 

Вычисление оценок параметров уравнений регрессии обычно представляет собой достаточно трудоемкую процедуру, особенно, если объем корреляционных рядов велик, а число параметров в уравнении регрессии превышает два. Поэтому подбор функций и расчет коэффициентов уравнений целесообразно осуществлять с помощью статистических пакетов на компьютере.

 

§16.5. Корреляционная таблица

При больших объемах выборочных наблюдений прибегают к построению корреляционных таблиц, или корреляционных решеток. В таких таблицах столбцы соответствуют отдельным классам с серединами xi по признаку Х (i=1,2,…k, где k- число классов по Х), а строки – классам с серединами yj по признаку Y (j=1,2,… m, где m- число классов по Y). В каждую клетку, находящуюся на пересечении отдельных столбцов и строк, вписываются частоты nij , показывающие, сколько раз встречаются значения признака Х, попадающие в класс с xi , когда сопряженные значения второго признака принадлежат к классу yj .

Так, из корреляционной табл. 16.6 следует, что при содержании физической глины менее 10% (х1 =5) величина наименьшей влагоемкости менее 5% (у1 = 2,5) была встречена 3 раза (n11=3).

Таблица 16.6

Корреляционная таблица зависимости наименьшей влагоемкости (у,%)

от содержания в почве физической глины (х, %)

Y X
ny
2,5 - - - - - - -
7,5 - - - - - - -
12,5 - - - - -
17,5 - - - - -
22,5 - - -
27,5 - - - -
n х n =86
10,4 15,6 17,5 22,5 24,2 24,2 27,5 27,5  

 

При том же содержании глины в 15 случаях была обнаружена наименьшая влагоемкость в пределах 10,0 – 14,9% (у2 = 12,5), причем та же величина наименьшей влагоемкости была зафиксирована и в тяжелых почвах: в 10 случаях, когда х2 =15 и один раз при х3 = 25. Черточка означает, что соответственная пара чисел, например, (15; 25) не наблюдалась.

В корреляционной таблице сумма частот по столбцам nx характеризует распределение частот одного признака (х), а сумма частот по строкам ny- распределение частот второго признака. Очевидно, что объемы выборок по обоим признакам S nx = S ny одинаковы и равны объему корреляционной таблицы n. В нашем примере

S nx = 31 +24+8+3+3+3+8 +6= 86 и S ny = 3+ 10 + 26+ 22 + 9 +6 = 86.