Этапы построения выборки

1 этап - Определение исследуемой совокупности.

Исследуемая совокупность - это множество элементов или объектов, которые обладают интересующей исследователя информацией и о которых требуется сделать выводы.

Определить исследуемую совокупность означает принять решение о том, какие элементы или объекты должны иметь шанс быть включенными в выборку, а какие - нет.

Исследуемая совокупность определяется в терминах:

1) элемент исследуемой совокупности — это объект, о котором или от которого должна быть получена информация. При опросах это, как правило, потенциальный респондент;

2) единицы отбора — это элементы или группы элементов, которые доступны для отбора в ходе построения выборки.

3) пространственная протяженность - выбор географических границ, в рамках которых будет проводиться исследование;

4) время — выбор временного диапазона, в течение которого будет производиться собственно опрос.

2 этап - Выбор основы для построения выборки.

Основу для построения выборки составляют списки элементов исследуемой совокупности или правила нахождения этих элементов.

Правила нахождения элементов исследуемой совокупности:

1) таблица шестизначных чисел (для Оренбурга или семизначных для Москвы и др.) или одиннадцатизначных (для сотовой связи), сгенерированных случайным образом для использования при опросе в качестве телефонных номеров;

2) правила отбора интервьюером домохозяйств, в которых будет проводиться опрос. При использовании этого способа интервьюеру задаются маршрут (например, определенная улица), правило отбора домов (например, посещать каждый второй по порядку дом с левой стороны улицы, начиная с первого) и правило отбора квартир в домах (например, в соответствии со списком трехзначных случайных чисел).

Часто эти два способа комбинируются: на одних ступенях построения выборки используют списки, а на других — правила нахождения.

Существуют три способа коррекции несоответствия в списках:

1) переопределение исследуемой совокупности: ее называют так, чтобы она соответствовала основе выборки, имеющейся в наличии.

2) отсев лишних элементов выборки на стадии проведения опроса. Потенциальным респондентам задаются «вопросы-фильтры». На основе полученных ответов принимается решение, проводить с ними интервью или не проводить.

3) так называемое взвешивание, выравнивание данных путем задания весовых коэффициентов, позволяющих скорректировать ошибки основы выборки.

3 этап - Выбор способа построения выборки.

Способы построения выборки принято классифицировать по трем основаниям.Они делятся на:

1) байесовские и традиционные;

2) с возвращениеми без возвращения;

3) вероятностные и невероятностные.

При байесовском подходе данные обрабатываются после опроса каждого респондента, поэтому выборочные статистики становятся точнее с каждым новым интервью. При этом фиксируются затраты на опрос и решается задача минимизации математического ожидания потерь, которые могут возникнуть, если решение, принятое по его результатам, окажется ошибочным. Минимум указанной величины достигается путем включения в выборку респондентов такого типа, информация о которых в наибольшей степени снижает вероятность принятия ошибочного решения. Теоретически этот подход очень привлекателен. Однако он сложен организационно и неприменим, когда цена ошибки неизвестна.

При традиционном подходе отбор всех элементов выборки выполняется до начала сбора данных.

При построении выборки с возвращением после того, как элемент был отобран из списка, используемого в качестве основы выборки, он по-прежнему остается в списке и может быть отобран вновь с той же вероятностью, что и любой другой элемент.

При построении выборки без возвращения такая ситуация невозможна.

В зависимости от выбранного подхода выборочные статистики рассчитываются по-разному. Однако численно эти различия очень малы и становятся заметными, лишь когда размер исследуемой совокупности сопоставим с размером выборки.

Наиболее важное решение — это выбор между вероятностными и невероятностными способами построения выборки.

4 этап - Определение необходимого размера выборки.

Под размером выборки подразумевается число элементов, которые должны быть в нее включены.

Необходимый размер выборки зависит от ряда качественных и количественных факторов.

Качественные факторы:

1) чем важнее решение, тем больше информации нужно для его обоснования и тем точнее она должна быть. Соответственно, нужна большая выборка. Однако каждая дополнительная единица повышения точности требует все больше затрат. Случайная ошибка выборкиуменьшается обратно пропорционально корню квадратному из числа элементов в выборке. Соответственно, чтобы снизить ее вдвое, нужно увеличить выборку в четыре раза;

2) на размере выборки сказывается природа исследования. Для поисковых исследований качественными методами размер выборки обычно мал. Для окончательных исследований, например, описательными методами, требуются значительные по объему выборки;

3) если предполагается использовать точные методы анализа, выборка должна быть больше. То же относится к ситуации, когда нужно получить оценки не только для всех элементов выборки в целом, но и для отдельных подгрупп элементов (например, для представителей разных сегментов рынка);

4) необходимый размер выборки можно приблизительно оценить, зная, в каких пределах он обычно находится в аналогичных исследованиях, представлен в таблице 1.

Таблица 1 - Минимальный и типичный размер выборки при разных исследованиях

Задачи исследования	Размер выборки
Минимальный	Типичный
Выявление проблем (например, оценка потенциала рынка)		1000-2500
Решение проблем (например, относительно цены товара)		300-500
Тестирование продукта		300-500
Тестирование телевизионной, радио- или печатной рекламы (в расчете на один рекламный продукт)		200-300

5) размер выборки определяется финансовыми и временными ресурсами, а также численностью квалифицированного персонала для сбора данных.

Количественные факторы. Приведем формулу для расчета размера выборки, исходя из допустимой случайной ошибки выборки и уровня доверительной вероятности. Если в результате исследования требуется определить среднее значение некоторого показателя, необходимый для этого размер выборки можно рассчитать по формуле:

, (1)

где D - величина погрешности, которую решено считать допустимой;

t - значение границы доверительного интервала по таблицам стандартизованного нормального распределения (т.е. с нулевым средним и единичной дисперсией) для выбранного уровня доверительной вероятности; например, при уровне доверительной вероятности 90 % t = l,64, при 95 % t = l,96, при 99 % t = 2,58;

s - стандартное отклонение показателя, среднее значение которого требуется определить.