Проверка гипотезы равенства средних двух выборок (t - критерий)

Проверка однородности двух выборок производится с помощью критерия Стьюдента (или t – критерия). Рассмотрим постановку задачи проверки однородности двух выборок. Пусть произведено две выборки объемом и . Необходимо проверить нулевую гипотезу о том, что генеральные средние двух выборок равны. То есть, и . n1

Прежде чем рассматривать методику решения задачи рассмотрим некоторые теоретические положения, используемые для решения задачи. Известный математик У.С. Госсет (ряд своих работ публиковал под псевдонимом Стьюдент) доказал, что статистика t (6.4) подчиняется определенному закону распределения, который в последствии был назван законом распределения Стьюдента (второе название закона – ”t – распределение”).

, (6.4)

где

- среднее значение случайной величины X;

- математическое ожидание случайной величины X;

- среднеквадратичного отклонения среднего выборки объема n.

Оценка среднеквадратичного отклонения среднего рассчитывается по формуле (6.5):

, (6.5)

где

- среднеквадратичного отклонения случайной величины X.

Распределение Стьюдента имеет один параметр – количество степеней свободы .

Теперь вернемся к исходной постановке задачи с двумя выборками и рассмотрим случайную величину равную разности средних двух выборок (6.6):

(6.6)

При условии выполнения гипотезы о равенстве генеральных средних справедливо (6.7):

(6.7)

Перепишем соотношение (6.4) применительно нашему случаю:

(6.8)

Оценка среднеквадратичного отклонения может быть выражена через оценку среднеквадратичного отклонения объединенной совокупности (6.9):

(6.9)

Оценка дисперсии объединенной совокупности может быть выражена через оценки дисперсии, рассчитанные по двум выборкам и :

(6.10)

С учетом формулы (6.10) соотношение (6.9) можно переписать в виде (6.11). Соотношение (6.9) является основной расчетной формулой задачи сравнения средних:

При подстановке значения в формулу (6.8) будем иметь выборочное значение t-критерия . По таблицам распределения Стьюдента при количестве степеней свободы и заданном уровне значимости можно определить . Теперь, если , то гипотеза о равенстве двух средних отвергается.

Рассмотрим пример выполнения расчетов для проверки гипотезы равенства двух средних в EXCEL. Сформируем таблицу данных (рис. 6.22). Данные сгенерируем с помощью программы генерации случайных чисел пакета ”Анализ данных”:

- X1 выборка из нормального распределения с параметрами объемом ;

- X2 выборка из нормального распределения с параметрами объемом ;

- X3 выборка из нормального распределения с параметрами объемом ;

- X4 выборка из нормального распределения с параметрами объемом .

Проверим гипотезу равенства двух средних (X1-X2), (X1-X3), (X1-X4). В начале рассчитаем параметры выборок признаков X1-X4 (рис. 6.23). Затем рассчитаем значение t - критерия. Расчеты выполнит с помощью формул (6.6) – (6.9) в EXCEL. Результаты расчетов сведем в таблицу (рис. 6.24).

Рис. 6.22. Таблица данных

Рис. 6.23. Параметры выборок признаков X1-X4

Рис. 6.24. Сводная таблица расчета значений t – критерия для пар признаков (X1-X2), (X1-X3), (X1-X4)

По результатам, приведенным в таблице на рис. 6.24 можно сделать заключение, что для пары признаков (X1-X2) гипотеза равенства средних двух признаков отвергается, а для пар признаков (X1-X3), (X1-X4) гипотезу можно считать справедливой.

Такие же результаты можно получить с помощью программы “Двухвыборочный t-тест с одинаковыми дисперсиями” пакета Анализ данных. Интерфейс программы приведен на рис. 6.25.

Рис. 6.25. Параметры программы “Двухвыборочный t - тест с одинаковыми дисперсиями”

Результаты расчетов проверки гипотез равенства двух средних пар признаков (X1-X2), (X1-X3), (X1-X4), полученные с помощью программы приведены на рис. 6.26-6.28.

Рис. 6.26. Расчет значения t – критерия для пары признаков (X1-X2)

Рис. 6.27. Расчет значения t – критерия для пары признаков (X1-X3)

Рис. 6.28. Расчет значения t – критерия для пары признаков (X1-X4)

Двухвыборочный t-тест с одинаковыми дисперсиями иначе называется t-тестом с независимыми выборками. Большое распространение так же получил t-тестом с зависимыми выборками. Ситуация, когда необходимо применять этот критерий возникает тогда, когда одна и та же случайная величина подвергается измерению дважды. Количество наблюдений в обоих случаях одинаково. Введем обозначения для двух последовательных измерений некоторого свойства одних и тех же объектови , , а разность двух последовательных измерений обозначим :

(6.12)

В этом случае формула для выборочного значения критерия приобретает вид:

, (6.13)

где

(6.14)

(6.15)

В этом случае количество степеней свободы . Проверку гипотезы можно выполнить с помощью программы “Парный двухвыборочный t-тест” пакета анализа данных (рис. 6.29).

Рис. 6.29. Параметры программы “Парный двухвыборочный t-тест”

6.5. Дисперсионный анализ –классификация по одному признаку (F - критерий)

В дисперсионном анализе проверяется гипотеза, которая является обобщением гипотезы равенства двух средних на случай, когда проверяется гипотеза равенства одновременно нескольких средних. В дисперсионном анализе исследуется степень влияния одного или нескольких факторных признаков на результативный признак. Идея дисперсионного анализа принадлежит Р. Фишеру. Он использовал его для обработки результатов агрономических опытов. Дисперсионный анализ применяется для установления существенности влияния качественных факторов на исследуемую величину. Английское сокращенное название дисперсионного анализа – ANOVA (analysis variation).

Общая форма представления данных с классификацией по одному признаку представлена в таблице 6.1.

Таблица 6.1. Форма представления данных с классификацией по одному признаку

  Классификация по одному признаку
Номер наблюдения
n
Среднее по столбцу
Общее среднее      

Каждый набор значений по столбцам соответствует набору значений одного и того же признака, соответствующего определенному правилу классификации. То есть такая таблица может быть получена по таблице данных, содержащей два столбца. В первом столбце исходной таблицы располагаются значения исследуемого признака во втором – номера классов заданной классификации. На практике количество наблюдений по столбцам совпадает далеко не всегда. Поэтому при рассмотрении расчетных формул мы будем рассматривать более общий случай, считая, что количество значений в столбцах различно и равно , где k – количество классов в классификации.

 

Средние по столбцам рассчитаем по формуле:

(6.16)

Тогда, учитывая, что общее число наблюдений во всех столбцах равно , общее среднее рассчитаем по формуле:

(6.17)

Для любого наблюдения имеет место следующее равенство:

(6.18)

Соотношение (6.18) показывает, что отклонение наблюдения от общего среднего может быть разделено на две части. Первая часть это отклонение среднего по столбцу от общего среднего (отклонение по столбцу) или факторное отклонение. Вторая часть – это отклонение наблюдения от среднего по столбцу (остаточное отклонение). Возведем отклонения в формуле (6.18) в квадрат и просуммируем значения по всем наблюдениям. Тогда получим меры вариации:

(6.19)

В словесной формулировке эту формулу можно выразить как:

общая вариация = вариация столбцов + остаточная вариация.

Это соотношение называется основным тождеством вариации: оно разделяет общую вариацию наблюдений на вариацию, обусловленную классификацией столбца, и вариацию, обусловленную случайной ошибкой.

Проиллюстрируем расчеты вариации на конкретном примере. На рис 6.29 представлена таблица, в которой приведены пятилетние нормы прибыли на акции для фирм в трех отраслях промышленности.

Предварительно расчетным путем убедимся в справедливости соотношения 6.18. Для этого рассчитаем правую и левую часть выражения 6.18 для всех элементов таблицы и проверим тождество. На рис. 30 представлены расчеты для первого столбца таблицы рис. 6.29. Справедливость формулы для остальных столбцов таблицы данных студенты могут проверить самостоятельно, проведя аналогичные расчеты для этих столбцов.

Рис. 6.29. Пятилетние нормы прибыли на акции для фирм в трех отраслях промышленности

Рис. 6.30. Результаты проверки тождества 6.18

Общая вариация для рассматриваемого примера:

(6.20)

Вариацию столбцов рассчитаем по формуле:

(6.21)

Остаточная вариация может быть рассчитана, как по общей формуле, так и как разность общей вариации и вариации столбцов:

(6.22)

Контроль вычислений подтверждает справедливость формулы (6.19):

(6.23)

Рассмотрим технику выполнения расчета вариаций в EXCEL. В начале выполним предварительные расчеты, которые приведены на рис. 6.31.

Рис. 6.31. Предварительные расчеты

На основе предварительного расчета произведем окончательный расчет вариаций Рис. 6.32.

Рис. 6.32. Окончательный расчет вариаций

 

Статистическая гипотеза состоит в том, что все средние по столбцам равны некоторому общему среднему. Если гипотеза справедлива, то вариация столбцов будет достаточно мала по сравнению с остаточной вариацией . Гипотеза проверяется с помощью критерия Фишера:

(6.24)

В формуле 6.24 вариация делится на количество степеней свободы (использованных связей). Так как и имеют соответственно и степеней свободы, то имеет степеней свободы. Для нашего примера выборочное значение F - критерия будет равно 9,15:

(6.25)

По таблице распределения Фишера при уровне значимости 0,05 и степенях свободы 2 и 29 определяем критическое значения критерия Фишера – 3,32. В EXCEL критическое значение определяем с помощью функции “FРАСПОБР”. Пример обращения к функции приведен на рис. 6.32. Поскольку выборочное значение критерия превосходит критическое, гипотеза отвергается.

Рис. 6.32. Расчет критического значения для F – распределения.

Расчет параметров необходимых для решения задачи дисперсионного анализа приведен на рис. 6.32.

Для выполнения расчетов, необходимых для проверки гипотезы, выдвигаемой в однофакторном дисперсионном анализе можно воспользоваться специальной программой "Однофакторный дисперсионный анализ" Пакета анализа данных (рис. 6.34). Ввод параметров программы осуществляется в диалоговом окне, представленном на рис. 6.35. Результаты расчетов программы представлены на рис. 6.36. Сравнение результатов по формулам и с помощью программы подтверждают полную идентичность результатов.

Рис.6.32. Выводы по решению задачи дисперсионного анализа

Рис.6.33. Обращение к программе "Однофакторный дисперсионный анализ"

Рис. 6.34. Параметры программы "Однофакторный дисперсионный анализ"

Однако, нельзя не отметить некоторые недостатки работы программы. Проблема состоит в форме представления данных в виде классифицированной таблицы. На практике исходные данные чаще всего представляются в форме таблицы ”объект-свойство”. Такая таблица включает множество признаков, которые используются для решения целого спектра задач анализа данных. Задача дисперсионного анализа может быть только одной из ряда решаемых задач. Кроме того, даже для задачи дисперсионного анализа может быть определено несколько вариантов классификации. Тогда для решения частной задачи придется строить вспомогательные таблицы, что крайне неудобно. Поэтому рассмотрим решение задачи дисперсионного анализа в случае представления данных в форме таблицы ”объект-свойство”. Для демонстрации вычислений в EXCEL будем использовать тот же пример с прибыльностью акций по отраслям промышленности. Форма таблицы ”объект-свойство” приведена на рис. 6.36

Рис. 6.35. Результаты работы программы "Однофакторный дисперсионный анализ"

Все данные по исследуемому признаку представлены в одном столбце ”Стоимость акций”. Классификация по отраслям задана в отдельном столбце и определена номером класса. Причем, классификация могла быть задана и в текстовом виде. Порядок объектов в данном случае не имеет значения и ни как не отражается на расчетах.

На первом шаге вычислений производится расчет средних значений и определяются входные параметры задачи (рис. 6.36). Для проведения аналогии в таблице на рис. 6.36 используется термин не класс, столбец. Особое внимание при выполнении расчетов необходимо уделить использованию функции ”СУММЕСЛИ”. Как показал опыт, студенты плохо владеют этой полезной функцией EXCEL. Диалоговое окно функции ”СУММЕСЛИ” приведено на рис. 6.37.

Рис. 6.36. Первый шаг расчета

Рис. 6.37. Диалоговое окно функции ”СУММЕСЛИ”

На втором шаге выполняются вспомогательные расчеты в столбцах “Расчет общей вариации” и “Расчет остаточной вариации”. Расчетные формулы приведены на рис. 6.38. Все результаты по расчету параметров необходимых для решения задачи дисперсионного анализа приведены на рис. 6.39.

Рис. 6.38. Промежуточные расчеты в таблице ”объект-свойство”

Рис. 6.39. Решение задачи дисперсионного анализа с данными, заданными в таблице ”объект-свойство”