Стратифицированная выборка

Стратифицированная, расслоенная выборка (stratified sampling) -двухэтапный метод вероятностной выборки, согласно которому генеральная совокупность сначала делится на подгруппы или спои (араты). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент сово­купности относился к одному и только одному слою, и ни один элемент не был упущен.

Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется ме­тод простой случайной выборки.

Формально, выбор элементов из каждого слоя может осущест­вляться только с помощью SRS. Однако на практике иногда применяется систематический от­бор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя.

Главная задача стратифицированной выборки — увели­чение точности без увеличения затрат.

Переменные, используемые для деления совокупности на слои, называются стратифика­ционными переменными.

Критерии для их выбора: однородность, неоднородность, взаимосвя­занность и стоимость.

Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям — наоборот, как можно более разнородными.

Кроме того, стратификационные переменные должны быть тесно связаны с исследуемой ха­рактеристикой. Чем больше переменные соответствуют этим критериям, тем эффективнее уменьшение нежелательных отклонений в выборке. В конце концов, переменные должны снижать стоимость процесса расслоения, будучи простыми в оценке и применении. Как правило, для стратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности.

Для стра­тификации можно использовать несколько переменных, однако больше двух применяют ред­ко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора.

 

Другое важное решение связано с использованием пропорциональной или непропорцио­нальной выборки.

При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности.

При непропорциональном стратификационном отборе объем выборки, полу­ченной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя.

 

Логика непропорциональной выборки проста.

Во-первых, слои относи­тельно большего размера больше влияют на определение средней для генеральной совокупно­сти. Следовательно, эти слои больше влияют на формирование результатов выборочного на­блюдения. Таким образом, слои должны быть представлены большим количеством элементов.

Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим сред­неквадратичным отклонением. (Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Обратите внимание, что эти ме­тоды идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквад­ратичное отклонение в каждом слое.

При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магази­нах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в не­больших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.

Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие се­мьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую слу­чайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно пред­ставлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода SRS с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.