Контроль и ремонт выборки

Расчеты репрезентативной выборки

Таблица 2.9

Объем генеральной совокупности
Объем выборки

Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособно­го населения составляет 100 тыс. человек, выявили, что 33% оп­рошенных покупателей предпочитают продукцию местного мясо­комбината, то с 95%-ной39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Качество социологической информации может снизить множе­ство факторов: неправильно сформулированные анкетные вопро­сы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др.

Практика эмпирических исследований — зарубежных и отече­ственных, фундаментальных и прикладных — свидетельствует, что ошибки, в том числе при составлении выборки, встречаются по­чти в каждом исследовании. Другой вопрос — значимые или незна­чимые смещения такого рода. А поскольку ошибки, накладки и сме­щения происходят всегда, то для специалистов, занятых контролем и ремонтом выборки, работа всегда найдется. Да и саму эту область методической науки преждевременная старость не ожидает. Не только в науке, но и в любой другой сфере профессия контролеров и ремонтников всегда была хлебной и престижной.

Контролем выборки будем называть процесс научного сравне­ния генеральной и выборочной совокупностей, выявление степе­ни их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле — это уравнивание выборочных и генеральных распределений социаль­но-демографических характеристик респондентов.

Под ремонтам выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.

Таким образом, второй прием выступает практической реали­зацией первого, аналитического, а оба они составляют два обяза­тельных этапа проведения социологического исследования.

Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистичес­кой обработки данных, включающей коррекцию: а) выборочной совокупности; б) распределений социально-демографических ха­рактеристик респондентов; в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных. Указанные виды коррекции призваны отремонтировать самое главное — выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой

и содержательной, но запустили ее на плохом массиве, т.е. нере­презентативной выборке. Усилия всего коллектива пошли насмар­ку, так как цена такой информации почти нулевая. Вот почему в рассматриваемых ниже видах коррекции, даже если они касаются заполнения анкеты и к выборке имеют вроде бы косвенное отно­шение, фокус внимания один-единственный — выборка.

Основная цель ремонта выборки — повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций40.

Коррекция выборочной совокупности. Далеко не всегда отобран­ные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.

Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов: выбор следующего по списку респондента (например, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем слу­чае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, най­денных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к приме­ру, в вашу выборку попал работающий пенсионер такой-то наци­ональности и овдовевший, то желательно подыскать ему в каче­стве замены другого пенсионера сходного возраста, национально­сти, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если спи­сок генеральной совокупности невелик и найти замену не удает­ся, следует отказаться от эквивалентного метода и перейти к дру­гому.

Коррекция распределений демографических характеристик респон­дентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной со­вокупности, то можно применить три способа: 1) удалить те груп­пы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представ-

ленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить — представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все мож­но оставить и так.

Взвешивание исходных данных — математический способ повы­шения или понижения значения ответов конкретной группы рес­пондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респон­денту определенного веса (коэффициента, на который нужно ум­ножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова41, взвешивание — единственный способ восстановления репрезента­тивности в панельных исследованиях без потери точности. По­скольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний ре­шить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невоз­можно контролировать со стороны, другим исследователям. Самый простой способ — численность конкретной социально-демографи­ческой группы, например подростков от 13 до 17 лет, из генераль­ной совокупности (N) делят на количество респондентов, представ­ляющих данную возрастную группу (п), полагая, что один респон­дент представляет мнение jVчеловек генеральной совокупности.

Сотрудники Института социологии АН СССР А.А. Давыдов и А. О. Крыштановский в свое время установили любопытные фак­ты42. Оказывается, демофафические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жиз­нью, оценкой темпов перестройки, одобрением деятельности по­литических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических собы­тиях. Для этих индикаторов перевзвешивание проводить не нуж­но. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.

Специалисты ВЦИОМ обеспечивают при анализе данных тща­тельный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста.

Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из обще­го массива.

Коррекция пропущенных ответов. Пропуски чаще всего воз­никают в открытых и табличных вопросах. Самый простой спо­соб коррекции — исключить их или всю анкету из научного ана­лиза. При пропуске не содержательного вопроса, а того, что. имеется в паспортичке, поступают так. Если социально-демо­графические характеристики не связаны с содержательными от­ветами, то анкете с пропущенными значениями следует присво­ить наиболее часто встречающиеся в выборке социально-демо­графические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак44.

Если данных получено много, то ремонт выборки может осу­ществляться за счет сокращения выборочной совокупности. Это, по мнению А.А. Давыдова и А.О.Крыштановского, наиболее ра­циональный подход к ремонту выборки, поскольку данная стра­тегия не опирается ни на какие дополнительные допущения. Если объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следу­ют из собранного материала и истинность которых трудно про­верить.

Переформирование выборки осуществляется тогда, когда про­верка показала, что выборка не представляет совокупность в це­лом. В этом случае выбираются новые респонденты, и они добав­ляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.

Далеко не все социологи, организующие эмпирическое иссле­дование, включают данные о контроле и ремонте выборки в его «паспортичку». Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществ­лялся ремонт выборки45. Для сравнения отметим: за рубежом ре­монт выборки уже давно стал распространенным методом повы­шения качества социологической информации.

Раньше причины отставания таились в отсутствии вычисли­тельной техники, специализированного программного обеспе­чения, методических пособий, недостаточной квалификации исследователей. Сегодня есть и техника, и нужные программы, но проблема не решена. Видимо, ее нельзя свести лишь к тех­ническим аспектам.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочны­ми средними. В социологии при обследованиях взрослого насе­ления чаще всего используют данные переписей населения, теку­щего статистического учета, предшествующих опросов на том же объекте. В качестве контрольных параметров обычно применяются социально-демографические признаки (пол, возраст, националь­ность, семейное положение). Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой спо­соб контроля называется апостериорным, т.е. осуществляемым после опыта.

Например, институт Дж. Гэллапа, использующий выборки объемом 1500 чел., контролирует репрезентативность по имею­щимся в национальных цензах данным о распределении населе­ния по полу, возрасту, образованию, доходу, профессии, расовой принадлежности (белый — цветной), месту проживания, величи­не населенного пункта46. В исследованиях, проводимых ВЦИОМ, надежность выборочных данных определяется методом апосте­риорного контроля. В анкету мониторинга обязательно включа­ют несколько вопросов, по которым имеется надежная информа­ция в Госкомстате РФ. К ним обычно относятся пол, возраст, об­разование, тип поселения, семейное положение, сфера занятости, должностной статус респондента. Четыре показателя — пол, воз­раст, образование и место жительства респондента используются для выделения контролируемых групп при определении весов опрошенных — они должны соответствовать аналогичным группам в генеральной совокупности47. Поскольку из официальной статистики известно, сколько в России мужчин и женщин, то легко сравнить по этим цифрам данные мониторинга и определить погрешность.

В обследованиях Центра «Социо-Экспресс» Института социо­логии РАН репрезентативность всероссийской выборки (проект­ный объем 2 тыс. чел.) контролируется по региональным пропор­циям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов. Опрос производится методом форма­лизованного интервью по месту жительства. В основе размещения выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50—500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские насе­ленные пункты. Авторы полагают, что предельная ошибка их вы­борки не превышает 3%48.

Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик ис­следования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммер­ческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не мо­гут являться объектом коммерческой тайны. Более того, отсут­ствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях49.