Тема 2. Статистическая проверка гипотез

Оценку генерального параметра получают на основе выборочного показателя с учетом ошибки репрезентативности. Ошибка выборки – это разница между значениями показателя, полученного по выборке и генеральным параметром. В другом случае в отношении свойств генеральной совокупности выдвигается некоторая гипотеза о величине средней, дисперсии, характере распределения, форме и тесноте связи между переменными. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими (теоретическими). Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений относительно правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных. Основой проверки статистических гипотез являются данные случайных выборок. При этом безразлично, оцениваются ли гипотезы в отношении реальной или гипотетической генеральной совокупности. Последнее открывает путь применения этого метода за пределами собственно выборки: при анализе результатов эксперимента данных сплошного наблюдения, но малой численности. В этом случае рекомендуется проверить, не вызвана ли установленная закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых находится изучаемая совокупность.

Статистической гипотезой (обозначается Н) называется произвольное предположение о свойстве генеральной совокупности, которое проверяется, опираясь на данные выборки. Так может быть выдвинута гипотеза о том, что средняя m в генеральной совокупности равна некоторой величине а (записывается Н: m = а) или о том, что генеральная средняя больше некоторой величины Н : m > в.

Различают простые и сложные гипотезы. Гипотеза называется простой, если она однозначно характеризуется параметром распределения случайной величины. Например, Н: m = а. Гипотеза называется сложной, если она состоит из конечного или бесконечного числа простых гипотез, при этом указывается некоторая область вероятных значений параметра. Например, Н: m > в. Эта гипотеза состоит из множества простых гипотез Н: m = с, где с – любое число большее в.

Гипотезы о параметрах генеральной совокупности называются параметрическими, о распределениях – непараметрическими.

Гипотеза о том, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются, называется нулевой гипотезой или нуль - гипотезой(обозначается Н₀). При этом предполагается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер. Например, Н₀: m₁ = m₂и т.д.

Нулевая гипотеза отвергается тогда, когда по выборке получается результат, который при истинности выдвинутой нулевой гипотезы маловероятен. Границей невозможного или маловероятного обычно считают a = 0,05, т.е. 5% или 0,01, 0,001. Если ориентироваться на правило «трех сигм» (оно состоит в следующем: s = 1/6(х_m_ах - х_min), так как в нормальном распределении в размахе вариации «укладывается» 6s (±3s)) , то вероятность ошибки a должна быть равна 0,0027. Однако для этого уровня вероятности ошибки значений критериев редко табулируются: как правило, значения критериев в статистико-математических таблицах рассчитаны для вероятностей ошибки 0,05; 0,01; 0,001.

Статистическим критерием называют правило, устанавливающее условия отклонения проверяемой нулевой гипотезы.

Проверка статистических гипотезсостоит из следующих этапов:

· формулируется в виде статистической гипотезы задача исследования;

· выбирается статистическая характеристика гипотезы;

· выбираются испытуемая и альтернативная гипотезы на основе анализа возможных ошибочных явлений и их последствий;

· определяется область допустимых значений, критическая область, а также критическое значение статистического критерия (t; F; c²) по соответствующей таблице;

· вычисляется фактическое значение статистического критерия;

· проверяется гипотеза на основе сравнения фактического и критического значений критерия, и в зависимости от результатов проверки гипотеза либо отклоняется, либо нет.

При проверке гипотез по одному из критериев возможны 2 ошибочных решения:

1) неправильное отклонение Н₀: ошибка 1-го рода;

2) неправильное принятие Н₀: ошибка 2-го рода.

В то время, как фактически Н₀ верна (1) и Н₀ не верна (2), принимают 2 ошибочных решения:

· Н₀ отклоняется и принимается альтернативная гипотеза;

· Н₀ не отклоняется/

Если, например, установлено, что новое минеральное удобрение лучше, хотя на самом деле его действие не отличается от старого, то это ошибка 1-го рода. Если мы решили, что оба вида удобрения одинаковы, то допущена ошибка 2-го рода.

Вероятности, соответствующие неверным решениям, называется риском 1 и риском 2. Риск 1 равен вероятности ошибки a (уровню значимости), риск 2 равен вероятности ошибки b. Поскольку a всегда больше 0, то всегда есть риск ошибки b. Обычно задают значение a и пытаются сделать возможно b малым. Вероятность 1-b называется мощностью критерия: чем она больше, тем меньше вероятность ошибки 2-го рода.

Альтернативная гипотеза Н₁ может быть сформулирована по-разному в зависимости от того, какие отклонения от гипотетической величины нас особенно беспокоят: положительные, отрицательные либо и те, и другие. Соответственно альтернативные гипотезы могут быть записаны как:

Н₁: m > а, Н₁: m < а, Н₁: m ¹ а