ТЕМА 6. Генеральная совокупность и совокупная выборка.

План лекции:

1. Понятие и определение величины генеральной совокупности, расслоение генеральной совокупности.

2. Подходы к структуре выборки.

3. Ошибка выборки (доверительный интервал).

 

 

Вопрос 1. Понятие и определение величины генеральной совокупности, расслоение генеральной совокупности.

 

Все множество изучаемых объектов (потребители, конкуренты, магазины и др.) в целом называется генеральной совокупностью или просто совокупностью.

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:

- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)

- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)

- Юридические лица России (2,2 млн. на начало 2005 года)

- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Иногда совокупность является достаточно малой по своей численности и можно изучить все ее составляющие. Чаще всего для экономии времени и средств проводится изучение только части совокупности, называемой выборкой.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.

Пример:

- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.

- Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.

- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.

Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.

Пример:

Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Этапы разработки выборочного плана:

1. Определение соответствующей совокупности согласно поставленным целям исследования.

2. Получение «списка» совокупности для установления контура выборки.

3. Проектирование выборочного плана – определение состава и объема выборки.

4. Определение методов доступа к совокупности.

5. Достижение нужной численности выборки.

6. Проверка выборки на соответствие требованиям.

7. В случае необходимости формирование новой выборки.

Точность, с которой выборка отражает совокупность в целом, зависит от структуры и размера выборки.

 

Вопрос 2. Подходы к структуре выборки.

 

Различают два подхода к структуре выборки - вероятностный и детерминированный.

 

Вероятностный подход предполагает, что любой элемент совокупности может быть выбран с определенной (не нулевой) вероятностью. Наиболее простой и распространенной на практике является простая случайная выборка, при которой каждый элемент совокупности имеет равную вероятность выбора для исследования. Вероятностная выборка более точна, поскольку позволяет оценить степень достоверности собранной информации, хотя она более сложна и дороже, чем детерминированная.

 

Детерминированный (не вероятностный) подход предполагает, что выбор элементов совокупности производится методами, основанными либо на соображениях удобства, либо на решении исследователя, либо на контингентных группах, либо отбор на основе суждений, либо на основе квот. Метод формирования выборки, основанный на соображениях удобства, состоит в выборе любых элементов совокупности исходя из простоты установления контакта с ними. Несовершенство этого метода связано с возможной низкой репрезентативностью полученной выборки, т.к. удобные для исследователя элементы совокупности могут быть недостаточно характерными представителями совокупности в силу неслучайного и необоснованного их отбора.

 

Однако, он получил довольно широкое распространение на практике и прежде всего при проведении предварительных исследований, направленных на уточнение основных проблем, в силу своей простоты, экономичности и оперативности.

 

Метод формирования выборки, основанный на решении исследователя, заключается в выборе элементов совокупности, которые, по его мнению, являются ее характерными представителями. Этот метод является более совершенным, поскольку в его основе лежит ориентация на характерных представителей изучаемой совокупности, хотя и определяемых на основе субъективных представлений исследователя.

 

Метод формирования выборки, основанный на контингентных нормах, состоит в выборе характерных элементов совокупности в соответствии с полученными ранее характеристиками совокупности в целом. Эти характеристики могут быть получены в результате проведения предварительных исследований. Данный метод является более совершенным, так как позволяет получить выборочные совокупности не менее представительные, чем вероятностные выборки при значительно меньших затратах на проведение обследования.

После определения структуры выборки устанавливается объем выборки, который определяет достоверность информации.

Объем выборки - количество элементов выборочной совокупности

Чем больше объем выборки, тем выше ее точность и больше затраты на проведение обследования.

При вероятностном подходе к структуре выборки ее объем может быть определен с помощью известных статистических формул и заданных требований к ее точности. Чтобы уменьшить в два раза ошибку выборки, ее объем следует увеличить вчетверо, чтобы сократить в 3 раза, объем должен возрасти в 9 раз и т.д.

При детерминированном подходе к структуре выборки в общем случае не представляется возможным математическим путем точно определить ее объем в соответствии с заданным критерием достоверности полученной информации. В этом случае он может быть определен эмпирически. Например, при обследовании покупателей высокая точность выборки обеспечивается, даже если ее объем не превышает 1% всей совокупности, а при проведении опросов покупателей средних и крупных розничных предприятий, количество опрашиваемых составляет 500 - 1000 человек.

Для определения объема выборки на практике используют следующие подходы:

– произвольный подход, основанный на применении «правила большого пальца» (например, бездоказательно устанавливается размер выборки в 5 % от совокупности);

– определение объема выборки на основе неких заранее оговоренных условий (например, заказчик исследования знает, что при изучении общественного мнения выборка составляет 1000 – 1200 человек, и рекомендует придерживаться данной цифры);

– определение объема выборки исходя из бюджета исследования;

– определение объема выборки на основе статистического анализа (определяется минимальный объем выборки исходя из определенных требований к надежности и достоверности получаемых результатов).

Наиболее теоретически обоснованный подход к определению объема выборки основан на расчете доверительных интервалов.

Доверительный интервал — это допустимое ± отклонение данных от истинных, то есть допустимая ошибка.

Размер доверительного интервала зависит от требований к точности исследования. Если увеличить допустимую ошибку, то размер выборки уменьшится, не смотря на то, что уровень статистической значимости будет равен 95 %.

 

Вопрос 3. Ошибка выборки (доверительный интервал).

 

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.

Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.

Пример:

Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.

Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.

Пример:

- Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).

- Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Статистическая значимость результата представляет собой меру уверенности в его истинности (в смысле репрезентативности выборки).

При организации сбора данных выделяют три альтернативных подхода: сбор осуществляется силами предприятия либо специально созданной временной группой, либо осуществляется заказ сбора данных у специализирующихся на этом компаний.

Кроме ошибок выборки, связанных с методом формирования выборки и размером выборки, существуют невыборочные ошибки. Их можно разделить на следующие пять групп:

1) все типы ошибок, условленные тем, что не все респонденты выборки дали ответы;

2) ошибки сбора данных;

3) ошибки обращения с полученными данными;

4) ошибки анализа собранных данных;

5) ошибки интерпретации полученных результатов.

Невыборочные ошибки можно также классифицировать на ошибки лиц, осуществляющих сбор данных, и респондентов. Кроме того, невыборочные ошибки подразделяются на преднамеренные и непреднамеренные.

Контроль преднамеренных ошибок интерьеров осуществляется двумя способами: путем надзора за их работой (например, сопровождение контролирующими лицами, прослушивание телефонных опросов) и путем проверки выполненной работы (например, проверка согласованности ответов респондента, повторные контакты с респондентами).

Уменьшение непреднамеренной ошибки интерьеров осуществляется путем проведения ориентационных сессий и путем разыгрывания ролей (интервьюер – респондент).

Контроль преднамеренных ошибок респондентов направлен на снижение числа случаев лжи и отказов участвовать в обследовании. Для уменьшения непреднамеренных ошибок респондентов в первую очередь необходимо тщательно прорабатывать вопросники и инструкции к ним.