Исследование статистических различий между двумя выборками

Постановка задачи о проверке значимости различий.

Гипотеза однородности выборок

 

Пусть для изучения некоторой переменной C сформированы две выборки:

– объем первой выборки;

– объем второй выборки.

Получение этих выборок может отличаться по времени регистрации, месту сбора информации, типу объектов и т.д.

Возникает вопрос: значимо либо незначимо различаются эти выборки? Другими словами, извлечены эти выборки из одной и той же генеральной совокупности либо их следует отнести к различным генеральным совокупностям?

Проведем данную описательную постановку вопроса на математический язык и сведем к задаче проверки статистической гипотезы.

Выдвинем нулевую гипотезу , состоящую в том, что генеральные совокупности, из которых извлечены данные выборки, одинаковы, т.е. имеют одинаковые функции распределения:

,

при альтернативной гипотезе

.

Выдвинутая гипотеза означает отсутствие статистических различий и называется гипотезой однородности выборок. Таким образом, возникает следующая математическая задача:требуется на заданном уровне значимости проверить гипотезу однородности об отсутствии статистических различий между двумя выборками.

Различным конкретизациям гипотезы однородности соответствуют свои критерии проверки, которые называются критериями однородности.

Критерий однородности Фишера – Стьюдента

 

Этот объединенный критерий состоит в последовательном применении к данным выборкам классических критериев Фишера и Стьюдента.

 

Критерий Фишера

 

Условия применимости этого критерия:

· данные выборки независимые;

· соответствующие генеральные совокупности имеют нормальное распределение.

Поскольку нормальный закон распределения имеет два параметра и , то для совпадения функций распределения и достаточно убедиться в соответствующих равенствах одноименных параметров. Предварительно следует проверить гипотезу о равенстве генеральных дисперсий.

На заданном уровне значимости для данных выборок (при указанных предположениях) проверяется гипотеза о равенстве генеральных дисперсий:

при .

В качестве статистики критерия проверки используется случайная величина

,

характеризующая отношение большей "исправленной" дисперсии к меньшей. Установлено, что эта случайная величина F при условии справедливости выдвинутой гипотезы имеет распределение Фишера с и степенями свободы. Здесь – объем выборки, по которой вычислена большая "исправленная" дисперсия, а – объем выборки с меньшей "исправленной" дисперсией.

По данным выборкам вычисляем наблюдаемое значение статистики Фишера .

По таблице квантилей распределения Фишера (табл.П7)[7] для уровня значимости (вдвое меньше заданного) и найденным числам степеней свободы и определяем критическую точку статистики Фишера в соответствии с равенством

,

где (порядок квантили).

Критерий Фишера (разрешающее правило) проверки гипотезы однородности состоит в следующем:

1. Если , то гипотеза сохраняется (генеральные дисперсии практически совпадают).

2. Если же , то гипотеза решительно отвергается (выборки значимо отличаются друг от друга).

 

Критерий Стьюдента

 

Он применяется после критерия Фишера только в том случае, если гипотеза о равенстве генеральных дисперсий по критерию Фишера сохраняется.

Условия применимости критерия Стьюдента:

· выборки независимые;

· генеральные совокупности имеют нормальное распределение;

· независимые генеральные дисперсии равны .

Заметим, что последнее требование при последовательном применении критериев будет автоматически выполнено.

На заданном уровне значимости для данных выборок проверяется гипотеза о равенстве генеральных математических ожиданий:

при .

В качестве статистики критерия проверки используется случайная величина

.

Установлено, что при условии справедливости выдвинутой гипотезы эта случайная величина имеет t-распределение Стьюдента с степенями свободы.

По данным выборок вычисляем наблюдаемое значение статистики Стьюдента .

По таблице квантилей распределения Стьюдента (табл.П6)[8] для заданного уровня значимости и найденного числа степеней свободы определяем критическую точку статистики Стьюдента в соответствии с равенством

,

где (порядок квантили).

Разрешающее правило проверки гипотезы состоит в следующем:

1 Если , то гипотеза сохраняется (генеральные математические ожидания практически совпадают).

2 Если же , то гипотеза отвергается (выборки значимо различаются друг от друга).

 

Примечание: При применении объединенного критерия Фишера – Стьюдента обязательным требованием является нормальность распределения. При этом гипотеза однородности (об отсутствии значимых статистических различий между выборками) подтверждается только в случае сохранения обеих гипотез, проверяемых соответственно по критерию Фишера ( ) и критерию Стьюдента ( ). Если хотя бы одна из этих частных гипотез отвергается, то можно уверенно утверждать о наличии значимых статистических различий между данными выборками.

 

 

Критерий однородности Вилкоксона

 

Этот критерий рекомендуется применять в тех случаях, когда распределение генеральной совокупности отличается от нормального или это распределение фактически неизвестно.

Условия применимости критерия Вилкоксона:

· изучаемая переменная является непрерывной случайной величиной;

· данные выборки независимые;

· .

На заданном уровне значимости проверяется гипотеза однородности (об отсутствии значимых статистических различий между данными выборками):

при .

Предварительно расположим элементы обеих выборок в виде одного объединенного вариационного ряда (в порядке неубывания наблюдаемых значений). Каждому элементу объединенного ряда присвоим ранг – порядковый номер в ряде. Если несколько элементов объединенного ряда совпадают по величине, то применим так называемый способ средних рангов, а именно каждому из элементов однородной группы присвоим ранг, равный среднему арифметическому их порядковых номеров.

Пусть – сумма рангов элементов 1-й выборки, – сумма рангов элементов 2-й выборки.

Составим выражения ,

;

при этом должно соблюдаться контрольное соотношение

.

Найдем величину .

В качестве статистики критерия Вилкоксона проверки гипотезы однородности используется случайная величина

.

Установлено, что при условии справедливости выдвинутой гипотезы эта случайная величина Z имеет стандартное нормальное распределение (0;1).

По данным выборок вычисляем наблюдаемое значение статистики Вилкоксона .

По таблице квантилей стандартного нормального распределения (0;1) (табл.П1)[9] для заданного уровня значимости определяем критическую точку статистики Z в соответствии с равенством:

,

где (порядок квантили).

Разрешающее правило (критерий) проверки гипотезы однородности заключается в следующем:

1. Если , то гипотеза сохраняется (выборки практически однородны).

2. Если же , то гипотеза решительно отвергается (выборки значимо отличаются друг от друга).

Пример. Даны две независимые выборки

 

 

Требуется на уровне значимости проверить гипотезы однородности этих выборок с помощью:

1) критерия однородности Фишера – Стьюдента;

2) критерия Вилкоксона.

Решение поставленной задачи начнем с применения объединенного критерия Фишера – Стьюдента при молчаливом предположении нормальности распределения.

1. Сначала с помощью критерия Фишера проверим гипотезу о равенстве генеральных дисперсий при .

Предварительно для данных выборок найдем выборочные средние и исправленные дисперсии:

.

Далее вычислим наблюдаемое значение статистики Фишера:

и найдем числа степеней свободы:

, .

По таблице квантилей распределения Фишера определим критическую точку статистики Фишера:

.

Заметим, что порядок квантили .

Сравнивая и , обнаруживаем, что , и в соответствии с разрешающим правилом критерия Фишера заключаем, что гипотеза о равенстве генеральных дисперсий сохраняется.

Теперь с помощью критерия Стьюдента проверим гипотезу о равенстве генеральных математических ожиданий при .

Для этого вычислим наблюдаемое значение статистики Стьюдента:

и найдем число степеней свободы .

По таблице квантилей распределения Стьюдента определим критическую точку статистики Стьюдента:

.

Так как , то в соответствии с разрешающим правилом критерия Стьюдента заключаем, что и гипотеза о равенстве математических ожиданий сохраняется.

Таким образом, согласно объединенному критерию Фишера – Стьюдента данные выборки практически однородны, т.е. различаются статистически незначимо.

2. Перейдем к применению критерия однородности Вилкоксона.

Сначала расположим элементы обеих выборок в виде одного объединенного вариационного ряда и присвоим им порядковые номера (условно строгая ранжировка). При этом элементы второй выборки для отчетливости их выделения пометим чертой сверху:

 

 
 

 

 

Затем применим способ средних рангов:

4,5 4,5 6,5 6,5 10,5
18,5 18,5

 

Далее последовательно находим

;

.

Затем вычисляем наблюдаемое значение статистики Вилкоксона:

.

По таблице квантилей стандартного нормального распределения (0;1) для заданного уровня значимости определяем критическую точку статистики Z:

.

Так как , то в соответствии с разрешающим правилом критерия Вилкоксона заключаем, что гипотеза однородности сохраняется, что свидетельствует об отсутствии значимых статистических различий между двумя данными выборками.