Проверка гипотезы о распределении генеральной совокупности. Критерий Пирсона

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине) или о параметрах известных распределений, проверяемое по выборке (по результатам наблюдений).

Наряду с высказанной гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза отвергается, принимается противоречащая ей гипотеза.

Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной)называют гипотезу H1, которая противоречит основной.

Не располагая сведениями о всей генеральной совокупности, высказанную гипотезу сопоставляют, по определенным правилам, с выборочными сведениями и делают вывод о том, можно принять гипотезу или нет. Процедуру сопоставления высказанной гипотезы с выборочными данными называют проверкой гипотезы. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода заключается в том, что будет принята неправильная гипотеза.

Обычно ошибка первого рода влечет за собой ошибку второго рода: если отвергнута гипотеза о том, что предприятие получает прибыль, то, естественно, принимается решение о том, что оно не имеет прибыли.

Однако на практике возможны и другие ситуации. В большинстве случаев рассматриваются гипотезы о законах распределения. Если отвергается правильный закон распределения, то совершается ошибка первого рода. Но после этого может быть принято решение уточнить данные, т.е. другая гипотеза не принимается. Если же принимается другое распределение, то совершается ошибка второго рода.

В целях проверки нулевой гипотезы в рассмотрение вводят специально подобранную случайную величину, распределение которой известно. Ее обозначают U или Z, если она распределена нормально, F илиν2по законуФишера-Снедекора, T − по закону Стьюдента, по закону хи-квадрат. Для общности ее можно обозначить К.

Случайную величину К, которая служит для проверки нулевой гипотезы, называют статистическим критерием.

Для проверки гипотезы сначала по данным выборки вычисляют значения входящих в критерий величин, а затем и сам критерий. Вычисленное по выборке значение критерия называют наблюдаемым значением kнабл.

Область возможных значений критерия разбивают на две области: в одной находятся те значения, при которых гипотеза принимается, в другой − те, при которых она отвергается.

Критической областью называют область значений критерия, при которых нулевая гипотеза отвергается. Областью принятия гипотезыназывают совокупность значений критерия, при которых гипотеза принимается. Критическими точками (границами) kкрназывают точки, отделяющие критическую область от области принятия гипотезы.

Критические области разделяются на правосторонние и левосторонние области. Правосторонняя область определяется неравенством К >kкр, левосторонняя −К < kкр. Это односторонние области. Существуют также и двусторонние области, определяемые неравенствами К < k1кр, К > k2кр, где k2кр>k1кр (k1кри k2кр критические точки).

Для отыскания односторонней критической области необходимо найти критическую точку, исходя из условия:

Р ( К >kкр )=α(для правосторонней области).

Для каждого критерия, т.е. соответствующего распределения, обычно составлены таблицы, по которым находят kкр.

После того как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение критерия. Если kнабл > kкр (для правосторонней области), то нулевую гипотезу отвергают, если наоборот, то принимают.

Критерием согласия называют критерий проверки гипотезы о предлагаемом законе распределения. Рассмотрим лишь один из них, использующий χ2-распределение и получивший название критерий согласия Пирсона.

Первоначально формулируют гипотезу о модели закона распределения случайной величины, затем по результатам наблюдений находят оценки неизвестных параметров этой модели (для нормального закона распределения таких параметра два). Найденные оценки подставляют в модель закона вместо неизвестных параметров. В результате предполагаемая модель оказывается полностью определенной и, используя ее, рассчитывают вероятности pi того, что случайная величина X примет зафиксированные в наблюдениях значения xi, эти вероятности называют теоретическими. Следует обратить внимание на следующее обстоятельство: сумма вероятностей ряда распределения должна быть равна единице, т.е.

Предположим, что выборка представлена в виде интервального статистического ряда. Зная границы каждого интервала и принятый закон распределения, можно найти вероятность попадания случайной величины в этот интервал pi. Если предполагается, что закон распределения нормальный, то теоретическая вероятностьнаходят по формуле:

(2.2.6)

где ai и bi нижняя и верхняя соответственно границы интервала; Ф(х) − функция Лапласа.

Затем находят теоретическую частоту появления события n∙pi . Следует обратить внимание на то, что критерий согласия Пирсона можно использовать только в том случае, когда

Поэтому тот интервал, для которого это условие не выполняется, объединяют с соседним и соответственно уменьшают число интервалов, которое обозначают, как и прежде символом l.

В качестве критерия выбирают случайную величину

(2.2.7)

Эта случайная величина при n→∞ стремится к закону распределения с k степенями свободы. Число степеней свободы определяется как k=l-1-r, где l− число интервалов, r − число параметров предполагаемого распределения (для нормального распределения их два). Таким образом, для нормального распределения k=l-3.

Далее, задавая уровень значимости α и учитывая число степеней свободы k, из таблиц распределения находят критическое значение , при котором выполняется условие

Сравнивая вычисленное по формуле (2.2.7) значение со значением , принимают решение о значимости допустимой гипотезы распределения случайной величины.

Пример.Для интервального статистического ряда проверить гипотезу о нормальности распределения

Таблица 2.2.5

Границы интервалов 5–7 7–9 9–11 11–13 13–15 15–17

Решение. Объем выборки n=98. Для каждого интервала найдем середины xi.

Таблица 2.2.6

Границы интервалов 5–7 7–9 9–11 11–13 13–15 15–17
Середины интервалов                        

 

Для проверки гипотезы о нормальном распределении выборки найдем оценки математического ожидания и дисперсии по формулам (2.1.3) и (2.1.5):

Выдвигаем основную гипотезу:

H0: генеральная совокупность подчиняется нормальному закону распределения.

Тогда альтернативная гипотеза принимает вид:

H1: закон распределения не является нормальным.

Задаемся уровнем значимости α=0,05.

Расширяя границы первого и последнего интервалов (табл. 2.2.6), результаты всех вычислений сведем в таблицу 2.2.7.

Таблица 2.2.7

Границы интервала Частота pi n∙pi
–∞–7 0,0681 6,6738 0,2635
7–9 0,1995 19,551 1,5761
9–11 0,3350 32,830 1,5659
11–13 0,2682 26,2836 0,0306
13–15 0,1064   0,5595
15–+∞ 0,0228
  1,0000   3,9955

В таблице 2.2.7 в четвертом столбце представлены результаты вычислений теоретических вероятностей, найденных по формуле (2.2.6). Значения функции Лапласа можно отыскать в таблице 2 приложений.

Частота шестого интервала меньше 5, поэтому объединяем его с пятым интервалом во втором и четвертом столбце (табл. 2.2.7).

Пятый столбец таблицы 2.2.7 является результатом вычислений по формуле:

Не следует забывать, что p>

Не следует забывать, что пятый и шестой интервалы объединены.

Таким образом,

Так как после объединения осталось 5 интервалов (l=5), а по выборке определены оценки двух параметров, т.е.r=2, то число степеней свободы равно k=5-2-1=2.По таблице 4 приложения найдем значение для p=1–α=0,95 и k=2

Сравнивая полученные значения, видим, что

следовательно, гипотеза о нормальном распределении не отвергается.