Этапы построения выборки
1 этап - Определение исследуемой совокупности.
Исследуемая совокупность - это множество элементов или объектов, которые обладают интересующей исследователя информацией и о которых требуется сделать выводы.
Определить исследуемую совокупность означает принять решение о том, какие элементы или объекты должны иметь шанс быть включенными в выборку, а какие - нет.
Исследуемая совокупность определяется в терминах:
1) элемент исследуемой совокупности — это объект, о котором или от которого должна быть получена информация. При опросах это, как правило, потенциальный респондент;
2) единицы отбора — это элементы или группы элементов, которые доступны для отбора в ходе построения выборки.
3) пространственная протяженность - выбор географических границ, в рамках которых будет проводиться исследование;
4) время — выбор временного диапазона, в течение которого будет производиться собственно опрос.
2 этап - Выбор основы для построения выборки.
Основу для построения выборки составляют списки элементов исследуемой совокупности или правила нахождения этих элементов.
Правила нахождения элементов исследуемой совокупности:
1) таблица шестизначных чисел (для Оренбурга или семизначных для Москвы и др.) или одиннадцатизначных (для сотовой связи), сгенерированных случайным образом для использования при опросе в качестве телефонных номеров;
2) правила отбора интервьюером домохозяйств, в которых будет проводиться опрос. При использовании этого способа интервьюеру задаются маршрут (например, определенная улица), правило отбора домов (например, посещать каждый второй по порядку дом с левой стороны улицы, начиная с первого) и правило отбора квартир в домах (например, в соответствии со списком трехзначных случайных чисел).
Часто эти два способа комбинируются: на одних ступенях построения выборки используют списки, а на других — правила нахождения.
Существуют три способа коррекции несоответствия в списках:
1) переопределение исследуемой совокупности: ее называют так, чтобы она соответствовала основе выборки, имеющейся в наличии.
2) отсев лишних элементов выборки на стадии проведения опроса. Потенциальным респондентам задаются «вопросы-фильтры». На основе полученных ответов принимается решение, проводить с ними интервью или не проводить.
3) так называемое взвешивание, выравнивание данных путем задания весовых коэффициентов, позволяющих скорректировать ошибки основы выборки.
3 этап - Выбор способа построения выборки.
Способы построения выборки принято классифицировать по трем основаниям.Они делятся на:
1) байесовские и традиционные;
2) с возвращениеми без возвращения;
3) вероятностные и невероятностные.
При байесовском подходе данные обрабатываются после опроса каждого респондента, поэтому выборочные статистики становятся точнее с каждым новым интервью. При этом фиксируются затраты на опрос и решается задача минимизации математического ожидания потерь, которые могут возникнуть, если решение, принятое по его результатам, окажется ошибочным. Минимум указанной величины достигается путем включения в выборку респондентов такого типа, информация о которых в наибольшей степени снижает вероятность принятия ошибочного решения. Теоретически этот подход очень привлекателен. Однако он сложен организационно и неприменим, когда цена ошибки неизвестна.
При традиционном подходе отбор всех элементов выборки выполняется до начала сбора данных.
При построении выборки с возвращением после того, как элемент был отобран из списка, используемого в качестве основы выборки, он по-прежнему остается в списке и может быть отобран вновь с той же вероятностью, что и любой другой элемент.
При построении выборки без возвращения такая ситуация невозможна.
В зависимости от выбранного подхода выборочные статистики рассчитываются по-разному. Однако численно эти различия очень малы и становятся заметными, лишь когда размер исследуемой совокупности сопоставим с размером выборки.
Наиболее важное решение — это выбор между вероятностными и невероятностными способами построения выборки.
4 этап - Определение необходимого размера выборки.
Под размером выборки подразумевается число элементов, которые должны быть в нее включены.
Необходимый размер выборки зависит от ряда качественных и количественных факторов.
Качественные факторы:
1) чем важнее решение, тем больше информации нужно для его обоснования и тем точнее она должна быть. Соответственно, нужна большая выборка. Однако каждая дополнительная единица повышения точности требует все больше затрат. Случайная ошибка выборки уменьшается обратно пропорционально корню квадратному из числа элементов в выборке. Соответственно, чтобы снизить ее вдвое, нужно увеличить выборку в четыре раза;
2) на размере выборки сказывается природа исследования. Для поисковых исследований качественными методами размер выборки обычно мал. Для окончательных исследований, например, описательными методами, требуются значительные по объему выборки;
3) если предполагается использовать точные методы анализа, выборка должна быть больше. То же относится к ситуации, когда нужно получить оценки не только для всех элементов выборки в целом, но и для отдельных подгрупп элементов (например, для представителей разных сегментов рынка);
4) необходимый размер выборки можно приблизительно оценить, зная, в каких пределах он обычно находится в аналогичных исследованиях, представлен в таблице 1.
Таблица 1 - Минимальный и типичный размер выборки при разных исследованиях
Задачи исследования | Размер выборки | |
Минимальный | Типичный | |
Выявление проблем (например, оценка потенциала рынка) | 1000-2500 | |
Решение проблем (например, относительно цены товара) | 300-500 | |
Тестирование продукта | 300-500 | |
Тестирование телевизионной, радио- или печатной рекламы (в расчете на один рекламный продукт) | 200-300 |
5) размер выборки определяется финансовыми и временными ресурсами, а также численностью квалифицированного персонала для сбора данных.
Количественные факторы. Приведем формулу для расчета размера выборки, исходя из допустимой случайной ошибки выборки и уровня доверительной вероятности. Если в результате исследования требуется определить среднее значение некоторого показателя, необходимый для этого размер выборки можно рассчитать по формуле:
, (1)
где D - величина погрешности, которую решено считать допустимой;
t - значение границы доверительного интервала по таблицам стандартизованного нормального распределения (т.е. с нулевым средним и единичной дисперсией) для выбранного уровня доверительной вероятности; например, при уровне доверительной вероятности 90 % t = l,64, при 95 % t = l,96, при 99 % t = 2,58;
s - стандартное отклонение показателя, среднее значение которого требуется определить.