ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ
Тема 7
В целом ряде случаев средние и относительные величины для какой-либо совокупности рассчитываются на основе данных выборочного наблюдения,суть которого заключается в том, что из генеральной совокупности наудачу, чисто случайно, отбирается я единиц, составляющих выборочную совокупность; для отобранных единиц рассчитываются обобщенные характеристики (средние или относительные показатели), а затем результаты выборочного обследования распространяются на всю генеральную совокупность. Основной задачей при этом является определение ошибок выборки, т.е. возможных расхождений между выборочной средней и генеральной или между выборочной долей единиц , обладающих изучаемым признаком, и генеральной долей .
Различают среднюю и предельную ошибки выборки.
Средняя ошибка выборкихарактеризует среднюю величину возможных расхождений выборочной и генеральной средней (или доли) и представляет собой по форме и содержанию среднее квад-ратическое отклонение возможных значений выборочной средней от генеральной.
В математической статистике доказывается, что — дисперсия возможных значений выборочной средней — в я раз меньше дисперсии изучаемого признака в генеральной совокупности,
т.е.
Исходя из этого средняя ошибка выборочной средней при повторном отборе определяется по формуле
где — дисперсия изучаемого показателя в генеральной совокупности*; п — объем (численность) выборки.
* Так как дисперсия изучаемого показателя в генеральной совокупности неизвестна, то фактически в формулу подставляется выборочная дисперсия, которая при большом числе наблюдений близка к дисперсии генеральной совокупности.
Как видно из формулы, средняя ошибка выборки при повторном отборе зависит от показателя вариации и от объема выборки
Средняя ошибка выборочной доли определяется по формуле
Где — выборочная доля единиц, обладающих изучаемым признаком;
— дисперсия доли (альтернативного признака).
При бесповторном отборе в формулах под знаком радикала появляется множитель , где — численность генеральной совокупности.
Говоря об ошибках выборки, следует иметь в виду, что в каждой конкретной выборке разность или может быть меньше, больше или равна И вероятность каждой такой ошибки различна.
Отклонение выборочной характеристики от генеральной называется предельной ошибкой выборки.
Предельная ошибка выборки, обозначаемая через рассчитывается как кратная средняя ошибка, т.е.
где — средняя ошибка выборки;
— коэффициент доверия, т.е. показатель, зависящий от вероятности , с которой предельная ошибка определяется.
Общая формула предельной ошибки выборки для средней
приобретает вид
(для повторного отбора)
или
(для бесповторного отбора),
а для доли — соответственно
и
Теоретической основой определения (расчета) той или иной ошибки выборки служит ряд известных теорем теории вероятностей, в частности теоремы П.Л. Чебышева, Я. Бернулли и А.М. Ляпунова.
Теорема Чебышева(применительно к выборочному методу) гласит: сколь угодно близка к единице вероятность того, что при достаточно большом объеме выборки и ограниченной дисперсии разность между выборочной средней и генеральной будет сколь угодно мала, т.е.
Теорема Бернуллиявляется частным случаем теоремы Чебышева и касается расхождения между долями единиц, обладающих изучаемым признаком, в выборочной и генеральной совокупности, т.е. разности
Согласно так называемой центральной предельной теореме Ляпуновапри большом объеме выборки распределение вероятностей появления того или иного значения выборочной средней, а следовательно, и отклонения последней от генеральной подчиняется закону нормального распределения и поэтому вероятность заданной предельной ошибки может быть найдена как функция от с помощью интеграла вероятностей Лапласа:
Где — нормированное отклонение выборочной средней от генеральной.
Значения интеграла Лапласа для разных рассчитаны и приведены в специальных таблицах (см. Приложение 2). Так, при вероятность Р=0,683. Это означает, что с вероятностью 0,683 (или 68,3%) можно гарантировать, что отклонение генеральной средней от выборочной не превысит однократной средней ошибки, т.е. что в генеральной совокупности среднее значение признака будет находиться в пределах
Аналогично при с вероятностью Р=0,954 (точнее, 0,9545) можно гарантировать, что предельная ошибка не выйдет за размер
Сказанное относится и к расхождениям между выборочной долей единиц , обладающих определенным признаком, и генеральной долей . Так:
Наряду с абсолютной величиной предельной ошибки в статистической практике рассчитывается относительная ошибка— процентное отношение абсолютной ошибки к исследуемому параметру:
Можно и непосредственно определить относительную ошибку
по формуле где — коэффициент вариации.
Выборка считается репрезентативной, если
Формулы предельной ошибки несколько конкретизируются и в зависимости от применяемого вида выборки. Так, указанные формулы применимы для собственно случайной и механической выборок. Для типической (районированной) выборки, т.е. когда генеральная совокупность делится на группы по какому-либо существенному признаку, а затем из каждой группы производится случайный отбор и общая средняя величина признака (или доля) определяется по групповым выборочным показателям, в формуле предельной ошибки выборки учитывается средняя из групповых дисперсий , т.е.
В этом случае ошибка выборки зависит от внутригрупповой вариации.
При серийной (гнездовой) выборке, когда из генеральной совокупности, разбитой на определенные равновеликие серии (гнезда), случайно отбираются серии, внутри которых проводится сплошное наблюдение, величина ошибки выборки зависит не от числа обследованных единиц, а от числа обследованных серий и от величины межсерийной дисперсией
Серийная выборка в основном проводится как бесповторная, и формула ошибки выборки в этом случае имеет вид
где — межсерийная дисперсия;
— число отобранных серий;
— число серий в генеральной совокупности.
Все рассмотренные формулы используются при так называемой большой выборке
Если то выборка именуется малой* и при расчете ошибок выборки необходимо учитывать следующие моменты. Во-первых, в формуле средней ошибки в знаменателе принимается п - 1, т.е.
И во-вторых, при нахождении вероятности допуска той или иной ошибки или определении доверительных интервалов исследуемого показателя в генеральной совокупности пользуются таблицами вероятности Стьюдента (см. Приложение 3), где определяется в зависимости от объема выборки и При этом надо иметь в виду, что найденное по таблице Приложения 3 значение функции характеризует вероятность того, что фактический (рассчитанный) коэффициент доверия не превысит заданного t (табличного), т.е. и графически эта вероятность равна площади, ограниченной кривой распределения Стьюдента и осью абсцисс в интервале от
Следовательно, характеризует вероятность того, что т.е. что выйдет за пределы с правой стороны. Если же рассматривать по модулю, т.е. то вероятность выхода его за заданные пределы в обе стороны будет равна
Отсюда вероятность нахождения в пределах от будет равна
Иными словами, при малой выборке вероятность попадания среднего значения изучаемого признака в генеральной совокупно-
* Понятие малой выборки некоторыми авторами распространяется до n<30.
Формулы предельной ошибки выборки позволяют решить следующие три задачи:
1. Определить доверительные пределы: для генеральной средней
для доли
2. Определить вероятность допуска той или иной заданной ошибки
В этом случае определяется и по таблице Приложения 2 (при ) находится вероятность
При т.е. при малой выборке, сначала рассчитывается и по таблице Приложения 3, определяется , а затем уже рассчитывается
3. Определить необходимую численность выборки , обеспечивающую с определенной вероятностью заданную точность
Формулы для n получаются из соответствующих формул предельной ошибки.
Как видно, в формулах для определения необходимой численности выборки, получаемых из формул случайной ошибки выборки, предполагается обязательное знание величины дисперсии признака или
Обычно в этих формулах используется значение дисперсии признака в аналогичных предшествующих исследованиях или же проводится пробное обследование небольшого числа единиц, для которых определяется значение . Если изучается доля определенных единиц в совокупности, а какие-либо сведения о дисперсии отсутствуют, принимается максимальное значение , равное 0,25.