III. Репрезентативность выборки

«Тайну вы, надеюсь, сохраните»

За день до выборов в бундестаг в газетах публикуются данные опросов населения, предсказывающие с точностью до 1% исход избирательной кампании. Читатели удивлены: эти результаты получены на основании 1800 интервью. Выбор этих 1800 опрашиваемых, создание «репрезентативной выборки» часто считается неким тайным средствомдемоскопии.

В действительности математико-статистический аппарат составляет ту часть демоскопического метода, которая наиболее понятна, легче всего усваивается, а также достаточно разработана, по этим вопросам имеется богатая специальная литература[64].

Читателю, интересующемуся проблемами выборки, можно рекомендовать прежде всего раздел «Теория и техника выборочного метода и статистическая проверка гипо тез» в соответствующем томе 103/104книги: Kellerer. Statistik im modernen Wirtschafts- und Sozialleben (S. 110). Наличие этой работы позволяет нам излагать некоторые вопросы выборки конспективно, а иногда просто ссылаться на соответствующие страницы этой книги.

Прогнозы выборов в государственные органы убедительно доказывают, что выборочный метод можно применять при организации опросов, то есть в работе с людьми. Рассмотрение такого рода примеров делает понятным, как по результатам опросов нескольких сотен и тысяч людей можно судить о поведении и установках миллионов.

Про американца доктора Джорджа Гэллапа часто говорят, что он изобрел «исследование общественного мнения», «выборочный опрос». Это не так, репрезентативные опросы развивались постепенно начиная с конца XVIII века. Гэллап привлек всеобщее внимание к исследованиям общественного мнения и добивался доверия к выборочному методу. Особое значение имела его драматическая борьба в 1936 году с американским журналом «Literary Digest», когда Гэллап проводил выборочные опросы с несколькими тысячами интервью, а его противники подготовили неверный прогноз на основании колоссального исследования с рассылкой 10 млн.анкет.

Сравнительно небольшая ошибка в прогнозе Гэллапа в 1948 году — 5% отклонения от действительных результатов голосования, но прежде всего выбор для опроса «не тех» людей — снова оживила все сомнения. К тому же возникла теория о пригодности выборочного метода только для обществ ярко выраженной социальной инте-грированности, как, например, американское. Утверждалось, что в Германии будто бы выборочный метод неприменим. Эта точка зрения снова была убедительно опровергнутапрогнозами выборов в ФРГ[65].

Вероятностные расчеты, на которых базируется выборочный метод и которые объясняют также степень точности прогнозов выборов, делались уже в XVII веке. Но лишь в начале XX века была найдена связь между математикой, лежащей в основе «закона больших чисел», и опросами населения.

В следующемразделе объясняется«закон больших чисел»иегоприменениеврепрезентативныхопросах.

Математическая основа выборочного метода «закон больших чисел»[66]

Если из большого мешка с орехами достать любые 10 штук и 5 из них будут пустыми, можно делать выводы о содержимом всего мешка. Педант, однако, возразит, что ничего еще не известно об остальных орехах в мешке, и он будет, безусловно, прав: утверждать можно лишь то, что в мешке сверху не менее 5 пустых и не менее 5 полных орехов. Но если признать его абсолютную правоту, то, следуя его образу мыслей, пришлось бы вообще отказаться от оценок и выводов, так как в действительности невозможно или почти невозможно получить полные и точные сведения о всех предпосылках для различного родаоценок и выводов.

Если теперь человек, который вытащил 5 пустых орехов, сделает из этого вывод, что в мешке «почти половина» всех орехов пустые, то он имеет для этого определенное основание. Большинство оценок, с помощью которых мы ориентируемся в нашем поведении, основано на еще болеескудном опыте.

Правда, статистик считает выборку в 10 штук недостаточной и с помощью вероятностных расчетов объясняет, почему он так неохотно делает выводы на основании такого небольшого количества. Легко вычислить, что в нашем случае имеется в виду, когда говорят «почти половина», то есть насколько оценка соответствует действительному содержанию мешка.

При этом важно не то, сколько штук каждого сорта имеется, а то, каково соотношение или каков состав в процентах. Статистические данные о больших количествах чего-либо обычно даются в процентном выражении. Если содержимое мешка хорошо, то есть равномерно перемешано, для нас безразлично, каков его объем: содержит ли он 2000, 20 00Q или два миллиона орехов. Статистик может лишь строить предположения о том, какова вероятность того, что доля пустых орехов в нашем мешке не превысит определенной величины. Так, покупатель может интересоваться, какова вероятность того, что не более 80% орехов пустые. В выбранном примере с 10 орехами, из которых 5 плохих, можно с вероятностью 49 из 50 утверждать, что пустых орехов в мешке не более 80%. Иначе говоря, шансы находятся в отношении 49 : 1, что в мешке не больше 80% пустых орехов. Й они находятся в отношении только 3:1, что в мешке максимум 60% гнилых орехов.

Человека, которого интересует этот мешок орехов, не удовлетворят такие неточные сведения. Он попытается выяснить точнее, какую часть содержимого мешка будут составлять пустые орехи. Статистик ему посоветует увеличить выборку, то есть взять из мешка не 10, а, может быть, 100 орехов. Если получится результат 50 пустых на 50 целых орехов, то можно предположить с вероятностью 95 из 100, что часть полных орехов в мешке составляет от 40 до 60% и с вероятностью 99 из 100, что в мешке не меньше 35% и не больше 65% плохих орехов.

Если заинтересованный человек не удовлетворится этим расчетом, то из мешка нужно будет достать еще боль ше орехов, например 1000 штук. Если в этом Случае снова окажется 500 пустых орехов и 500 полных, то имеется вероятность 95 из 100, что мешок содержит полных орехов не меньше 47 процентов и не больше 53 процентов. Мы видим, что надежность предсказания о содержимом мешка увеличивается с увеличением числа проверяемых орехов, с увеличением выборки. Как получаются эти данные о надежности статистических предсказаний, показывают рисунки 9 и 10. Каков должен быть объем выборки, зависит от требуемой точности выводов, или лучше от того, какая точность решения данной проблемы необходима и достижима. Для некоторых естественнонаучных и медицинских исследований возможность статистической оценки 50 случаев уже значительна. Иногда это могут быть также и миллионы отдельных процессов, сведения о которых автоматически фиксируются измерительными инструментами.

О «законе больших чисел» в статистике говорят тогда, когда порядок стандартной ошибки тот же, что и при распространенных измерениях в торговле и на производстве. Измерения с ошибкой менее 1,6 процента в повседневной жизни в общем проводятся только относительно времени и длины. Большинство весов, например буханки хлеба, имеют значительно большие допуски, почтовые весы редко имеют точность больше 2 процентов (это учитывается почтой). Существует так называемый допуск при розливе, который становится действительно заметным только при 10 процентах и более. У дешевых измерительных электрических инструментов допускаются отклонения около 5 процентов, на тахометрах автомобилей не редкость показания с ошибкой в 10 процентов. Пока расчет вероятности осуществляется правильно и указаны его предпосылки (для особого статистического случая), то результаты выборки в пределах от 200 до 2000 элементов вполне могут конкурировать с измерениями, которые считаются в повседневной жизни достаточно надежными и обязательными.

В основе всех этих примеров лежит «закон больших чисел», местом рождения которого является игорный стол. Со времени его первой формулировки, данной Симоном де Пуассоном, прошло более ста лет. В течение этого времени он претерпел многообразные интерпретации. Иные математики обосновывали его преимущественно теоретически, другие главным образом со стороны практической статистики. В редакции Антуана Огюстена Курно этот закон определяется следующим образом:

1. События, вероятность которых очень невелика, случаютсячень редко.

2. Вероятность того, что отклонение относительной повторяемостиотсоответствующейвероятностинепревышаетзаданнуювеличину, будет тем больше, чем больше объем наблюдаемой серии.

Вывод: при достаточно большом объеме наблюдаемой серии относительная повторяемость соответствующей ей вероятности очень редкоотклоняетсябольше,чемназаданнуюмалуювеличину.

Этот закон приобрел такое же влияние в области физики, химии, биологии, медицины, физиологии и социальных наук, как и использование интегрального и дифференциального исчисления. Но статистикам не дает покоя недоверие, которое оказывают применению любой теории на практике. Имеется много сотен серий опытов с разноцветными шариками или с бросанием монет, игральных костей, а также многочисленные результаты анализа номеров рулетки, в которых проверялась пригодность теории вероятности. Все эти опыты в общей сложности подтвердили пригодность теории, исключая такие эксперименты, где, например, условия благоприятствовали появлению одних и тех же определенных чисел (неравномерныекости).

Вестергаард (Westergaard), например, из мешка, наполненного наполовину красными, наполовину белыми шариками, доставал 100 раз по 100 шариков: из них было 5011 белых шариков, 4989 красных. Так как шарики доставали сериями по 100 штук, то получили 100 выборок. Они оценивались по отдельности. Результат этих расчетов для белых шариков представлен на рис. 14. Эта иллюстрация показывает, что в 9 из 100 выборок оказалось точно 50 белых шариков. В 11 из этих выборок было 49 белых шариков.

Только две выборки дали лишь 40белыхшариков. Кривая на рис. 14 показывает идеальный крайний случай прибесконечномповторенииэксперимента. Еслисравнитьееконтурысконтурамикривойнарисунке9, то выявится полное совпадение.

Р(ЮО)

12 т Число

>—

-Количество белых шариков-Рис. 14.

Как уже сказано, так называемое стандартное отклонение превышается в одной трети случаев, двойное стандартное отклонение — в среднем лишь 5 раз при 100 выборках. В результатах эксперимента, изображенных на рис. 14, стандартное отклонение составляет 5 процентов. Последующий расчет приводит к выводу, что только 30 выборок дают отклонение больше 5 процентов и 5 выборок находятся за пределами двойного стандартного отклонения, то есть отклоняются от средней величины больше, чем на 10 процентов. Этот и многие другие эксперименты, а также эксперименты с косвенным дока зательством, особенно в физике, не оставляют сомнения, что с помощью вероятностного исчисления возможно получить достаточно точные результаты. Правда, для этого необходимы определенные предпосылки для расчетов — проблема, которая заслуживает специального рассмотрения. Уже наш пример с орехами в мешке требует дополнительного исследования, не переместились ли пустые орехи наверх вследствие случайного сотрясения мешка и не накопились ли они там, или не было ли в мешке одного сорта в среднем больше, чем другого, и поэтому такихореховв выборке оказалось больше.

Правило получения корректной выборки из совокупности в простейшей формулировке гласит: каждый элемент совокупности должен иметь равные возможности попасть в выборку. Этим предусматривается также, что выборочный метод можно применять всегда там, где имеется совокупность однородных, но различимых членов или составных частей или других единиц. При этом не обязательно, как в нашем примере с орехами, иметь дело с предметами. Те же законы пригодны также для анализа событий и случаев, и поэтому игры в кости или в рулетку также являются популярными примерами: при этом отдельные броски или туры игры являются единицами совокупности внутри одной игровой серии. На таких простых примерах может экспериментировать каждый, кто захочет проверить сам, как с увеличением числа случаев соотношения становятся все более точными.

Для объяснения и простой проверки выборочного метода особенно хороши кости или белые и черные шарики. На практике все же обычно нас интересуют другие совокупности: в анкетном исследовании речь идет большей частью о населении или важных группах населения, то есть о совокупностях взрослых людей,или избирателей, или домашних хозяек. Элементы таких совокупностей — люди. Таким образом выполняется указанное выше условие применения выборочного метода: элементы совокупности однородны, но различимы.

Кто не понимает этого важного пункта, может подумать, что закон больших чисел найден на игральных костях или на белых и черных шариках, и поэтому было бы наивным применять его к людям. Это, конечно, полное непонимание сути дела. Теория выборочного метода — это математическая модель, которая применима на практике всегда, если имеются определенные условия. Разумен и соответствующим образом применяемый выборочный метод — прекрасный пример того, как человеческий разум может упорядочить многообразие явлений и расчленить их в целях познания или для осуществления планомерной деятельности. Самое удивительное в этом принципе — его простота. Именно поэтому он может применяться ко всему многообразию предметов и явлений, которые для поверхностного наблюдателя не имеют между собой ничего общего.

Практическое применение этого принципа к населению и группам населения несравненно труднее, чем простые статистические эксперименты, которые можно проводить, сидя за зеленым игорным столом. Если, например, нужно получить выборку населения в Федеративной Республике Германии, то понадобятся точные и полные данные, как распределяется население по землям, округам, районам и общинам и как люди или семьи регистрируются или учитываются официальными учреждениями.

Практическая трудность состоит, таким образом, в том, что трудно получить точные данные о всей совокупности, выборочная совокупность формируется в процессе кропотливой работы, и затем людей опрашивают. Другое обстоятельство, которое бросается в глаза, напротив, не доставляет столько трудностей: люди в отличие от черных и белых шариков различаются не по паре признаков, а по бесчисленным признакам; для каждого из этих бесчисленных признаков соответствующим образом справедлив закон больших чисел, если правильно применен выборочный метод и установлен надежный признак выборки.

Снова вернемся к нашему примеру с мешком орехов. Если по тому же принципу, по которому брались орехи из мешка, выбрать из всего населения Федеративной республики около 1000 человек, то их можно, например, делить на мужчин и женщин или на лиц, окончивших народную школу, и лиц с более высоким уровнем школьного образования. Те же самые статистические вероятности, которые встречались в примере с мешком орехов, могут быть вычислены также для этой выборки и для всего населения. Если при этом выяснится, что на 1000 человек приходится 550 женщин и 450 мужчин, то из этого будет сделан вывод, что все население составляют «приблизительно» 55 процентов женщин и 45 процентовмужчин. Затем можно указать вероятность, что в действительности женщин не менее 52 и не более 58 процентов: вероятность 95 из 100. Мы получаем здесь вероятность для оценки точности результатов выборки, как в примере с орехами. Еще на одном примере следует показать, что выборка населения, если она произведена правильно, подчиняется тем же статистическим законам распределения, что и выборка на орехах или черных и белых шариках. На модели репрезентативной выборки в 4000 человек исследовалась частота посещения церкви западногерманским населением. В выборочной совокупности были получены следующиерезультаты:

Посещение церкви

Июль/август 1956 г. %

Регулярно Нерегулярно Редко Никогда

30,3 24,6 28,6 16,5

Если эту выборочную совокупность из 4000 человек распределить на группы по 40 человек, то получим 100 подвыборок. Это распределение.; создает такие же условия, как если бы опрашивали 100 репрезентативных выборок по 40 человек в каждой. Эти подвыборки не обязательно обнаруживают один и тот же процент лиц, которые ходят в церковь «редко». В этих подвыборках получаются результаты с большим или меньшим отклонением. По закону больших чисел при этом небольшие отклонения должнывстречаться чаще,чем значительные.

,В дискуссии о_ результатах выборочных исследований часто упускают из вида, что незначительные различия между двумя результатами не должныj-сразу же становиться основой социологических или психологических интерпретаций. В таких случаях нужно сразу же обращаться к теории, так как она объясняет, является ли расхождение между двумя числами существенным или имеет лишь случайный характер. В дальнейшем эту проблему следует подробнее рассмотреть.

Репрезентативная выборочная , совокупность взрослогонаселения Федеративной республики (900 мужчин

 

 

I2345678910II12 13 14 15 16 I/ 1819 20
>--------- Количество ,,редко"посещающих церковь в подвыборках-------------------

Рис. показывает замеры в отдельности. Они подтверждают теоретические ожидания. 27,5 процента «редких» посетителей церкви, то есть 11 из 40 опрошенных, имелось, например, в 18 из 100 подвыборок; напротив, только в одной подвыборке их доля равнялась 10 процентам, то есть 4 из 40 опрошенных. Кривая показывает, какого распределения следовало ожидать, если бы исследовались не100, алюбоебольшоеколичествоподвыборок.

 

и 1100 женщин) отвечала на вопрос: «Каково Ваше мнение: одобряете Вы или не одобряете введение всеобщей воинской повинности?»

37% мужчин и 40% женщин «одобряли». Так как в обоих случаях речь идет о результатах выборочного исследования и статистические ошибки не исключаются, то возникает вопрос, не кроется ли причина расхождения в относительной неточности измерения и не получим ли мы для мужчин и женщин одинаковые результаты, если опросим все 38 миллионоввзрослых.

Расчеты по формуле говорят о шансах около 9 процентов за то, что полученное расхождение может носить характер случайности. Наоборот, 91 шанс из 100 говорит за то, что женщины «одобряют» несколько чаще, чем мужчины. Однако для социолога этот результат был бы недостаточно надежен, и он лишь предположил бы с оговорками, что женщины, по-видимому, чаще одобряют всеобщую воинскую повинность, чем мужчины. Напротив, он мог бы с полным правом утверждать, что мужчины значительно чаще «не одобряют» (55%), чем женщины (41%). Здесь он должен учитывать вероятность ошибки только в 0,0000001%.^

Однако не следует допускать ошибку прямо противоположного свойства и оставлять без внимания все результаты, которые статистически не являются значимыми. Не все значения в пределах допуска обладают одинаковой вероятностью быть выявленными в выборочном исследовании. Наиболее близкие к «истинному» значению обладают большей возможностью, это показано на рис. 15. Вследствие этого можно сказать: обнаруженное в выборочном исследовании значение (величина) обладает большей вероятностью, чем другие значения в пределах допуска, быть истинным значением. В случае незначимых величин следует, кроме того, проверять, подтверждается ли это другими результатами; тогда их можно использовать для анализа слабо выраженных тенденций.

Объяснение к работе со следующими таблицами: для читателя, интересующегося математикой, даются табл. I и II, где он может найти числовыезначенияошибокиграницынадежности.

Предположим, что в выборке из 500 человек 25% составляют холостые. На табл. I ищут п = 500 и р — оценку 25/75. В точке пересечения находят а = 1,94 процента. Теперь можно вычислить с вероятностью 68,269 процента, что доля холостых в действительности находится где-то между 23 и 27 процентами. Наряду с этим остается еще вероятность в 31,731 процента, что в действительности имеется меньше 23 процентов и более 27 процентов холостых. Для кого эта надежность слишком мала, тот может поискать на табл. II соответствующую величину для 2ст = 3,88 процента. Здесь ожидаемая вероятность составляет 95,45 процента, то есть доля холостых приблизительно находится в пределах от 21 до 29 процентов.

Таблица I

СТАТИСТИЧЕСКИЕ ОТКЛОНЕНИЯ Значения а—простое стандартное отклонение (%)

Уровень значимости 68,269%

п—величинавыборочной совокупности

р—частота признака в генеральной совокупности (%)

 

                р                  
п      
 
5,00 4, 4, 4,33 4, 3,57 3,            
4,08 4, 3, 3,54 3, 2,91 2, 2,        
3,55 3, 3, 3,07 2, 2,53 2, 1, 1,    
3,16 3, 2. 2,75 2: 2,26 1, 1, 1, 0:
2,90 2, 2: 2,50 2, 2,07 1, 1, 1, 0,
2,50 2, 2, ,30 2,16 2: 1,78 1, 1, и 0,
2,24 2, 2, 1,94 1, 1,60 1, 1, 0. 0:
2,05 2, 1, 1,78 ,64 1,46 1, 1, И 0: 0,
1,89 1. ,74 1,64 ,51 1,35 1. ,13 ,02 ,82 0. ,53
1,77 1, ,63 1,53 ,42 1,26 1, 0. 0. ,77 о, ,50
1,58 1. ,45 1,37 1. ,26 1,13 0, 0, о, 0,
1,45 ,42 ,33 1,25 ,16 1,03 ,86 ,78 ,63 ,41
1,35 1, ,31 ,23 1,16 ,07 0,96 о; ,81 ,72 ,59 ,38
1,25 ,22 ,15 1,08 ,00 0,90 ,75 ,68 0, ,55 ,35
1,18 ,16 ,09 1,02 ,95 0,84 ,71 ,64 ,51 ,33
1,12 ,10 ,03 0,97 ,90 0,80 ,67 ,60 ,49 ,31
2 500 1,00 ,98 ,92 0,86 ,80 0,71 ,60 ,54 ,44 ,28
3 000 0,92 ,90 ,84 0,79 ,73 0,65 ,55 ,50 ,40 ,26
0,79 ,77 ,73 0,69 ,63 0,56 ,47 ,43 ,34 ,22
5 000 0,70 ,69 ,65 0,61 ,56 0,50 ,42 ,38 ,31 ,20
6 000 0,65 ,64 ,60 0,56 ,52 0,46 ,39 ,35 ,28 ,18
7 000 0,60 ,59 ,55 0,52 ,48 0,43 ,36 ,32 ,26 ,17
8 000 0,56 ,55 ,52 0,48 ,45 0,40 ,34 ,30 ,24 ,16
10 000 0,50 ,49 ,46 0,43 ,40 0,36 ,30 ,27 ,22 ,14
15 000 0,41 ,40 ,38 0,35 ,33 0,29 ,24 ,22 ,18 ,11

Примечание. Пустоты в правом верхнем углу объясняются тем, что между маленьким «п» и маленьким «р» (или при «р», близком к 100%) величина для о* не может быть выражена одним числом. (Би-номное распределение заметно асимметрично и отклоняется от нормального распределения, то есть числовые выражения ошибок в направлениях вверх и вниз принимают различные значения.) Стандартнуюошибку («среднюю ошибку»)

Таблица II

СТАТИСТИЧЕСКИЕ ОТКЛОНЕНИЯ Значения 2ст—двойное стандартное отклонение (%)

Уровень значимости 95,45%

и—величина выборочной совокупности

р — частота признака в генеральной совокупности (%)

 

                  р                    
п                  
                   
10,00 ,80 ',20 ,66 ,00 ,14                
8,16 £ ;,оо ,52 ,08 ,52 ,82                
7,10 ,94 ,52 ,14 ,68 ,06 ,26            
6,32 ,20 ,82 ,50 ,06 ,52 ,80 ,42        
5,80 ,68 ,30 ,00 ,64 ,14 ,48 ,14        
5,00 ,90 ,60 ,32 ,00 ,56 ,00 ,70 ,18    
4,48 ,40 ,12 ,88 ,60 ,20 ,68 ,42 ,94    
4,10 ,00 ,78 ,56 ,28 ,92 ,46 ,22 ,78    
3,78 ,70 ,48 ,28 ,02 ,70 ,26 ,04 ,64    
3,54 ,46 ,26 ,06 ,84 ,52 ,12 ,90 ,54 ,00
3,16 ,10 ,90 ,64 ,52 ,26 ,90 ,70 ,38 ,88
2,90 ,84 ,66 ,50 ,32 ,06 ,74 ,56 ,26 ,82
2,70 ,62 ,46 ,32 ,14 ,92 ,62 ,44 ,18 ,76
1 600 2,50 ,44 ,30 ,16 ,00 ,80 ,50 ,36 ДО ,70
2,36 ,32 2, ,18 ,04 ,90 ,68 ,42 ,28 ,02 ,66
2 000 2,24 2. ,20 ,06 1, ,94 ,80 1. ,60 ,34 ,20 ,98 ,62
2 500 2,00 1, ,96 1, 1, 1, 1, 1, 1, ,08 0, ,88 ,56
3 000 1,84 1, 1, 1, 1, 1, 1, 1. ,00 0. ,80 ,52
4 000 1,58 1, 1, ,46 1, 1, 1, 0, 0, 0, 0. ,44
5 000 1,40 1, 1, 1, 1, 1, 0, 0, 0, о, ,40
6 000 1,30 1, 1, 1, 1, 0, 0, 0, о, 0. ,36
7 000 1,20 1, 1, 1, 0, 0, 0, о, о, о,
8 000 1,12 1, 1, 0, 0, о, о, 0, о, 0,
10 000 1,00 0, 0, 0, 0, о, о, о, 0, о,
15 000 0,82 0, 0, о, о, о, о, о, о, 0,

Примечание. Пустоты в правом верхнем углу объясняются тек, что при маленьком «п» и при маленьком <ф» (или «р», близьом к 100%) нельзя выразить величину сг одним единственным числом. (Би-номное распределение становится заметно асимметричным и отклоняется от нормального распределения, то есть ошибки в направлениях вверх и ваиз приобретают различные значения выражения.)

Уменьшеннаямодель

Социологическо-статистическую модель репрезентативной выборки, лежащую в основе исследования, с помощью опроса, следует представлять себе следующим образом. Весь круг интересующих лиц, который определяется еще до работы над исследованием, состоит из людей различного возраста, профессии и т. д. в отдельных землях Федеративной республики и категориях общин различной величины. Идея репрезентативной выборки заключается в том, чтобы создать на примере этой группы людей равноценную уменьшенную модель. В уменьшенной модели всей совокупности представлены также исследуемые мнения и категории ответов в соответствующем соотношении, если эта модель составлена корректно по определенному методу.

Ограничение генеральной совокупности: кого исследовать?

Сразу после того, как сформулирована задача исследования, следует установить (определить), какой круг лиц долженбытьисследован, какуюсовокупность, «популяцию», какой «универсум» должны описывать результаты исследования.

Даше для самого обычного опроса населения должны быть, например, определены возрастные границы: нужно ли исследовать мнения части населения, имеющей право голоса, или всех людей старше 16 лет, или, чтобы лучше учесть молодых покупателей, с 14 лет включительно. Следует ли проводить верхнюю возрастную границу, например: какие газеты читают люди в возрасте от 16 до 70 лет?

Таким образом, имеются многочисленные и разнообразные ограничения генеральной совокупности. Это могут быть, вероятно, одни лишь мужчины или одни лишь женщины, население определенного города или определенной области или жители одной какой-то категории населенных пунктов, например жители деревенских общин, подписчики ежедневной газеты, владельцы автомобилей, люди одной профессии, работники одного предприятия, а также, может быть, их жены. Здесь нужно принять решение — кто интересует исследователей.

Может быть, придется получать информацию не об индивидах, а о семьях. Это перечисление можно продолжать очень долго. Но все же нельзя совершенно произвольно определять генеральную совокупность. Уже при определении круга лиц, к которым будут относиться результаты исследования, нужно думать о практических возможностях составления репрезентативной выборки.

Мнение всех здравомыслящих

Условием формирования выборки является, как правило, однозначное объективное определение изучаемой совокупности. Все примеры, перечисленные выше, содержат такие объективные характеристики, хотя, если подходить серьезно, они еще нуждаются в уточнении. «Подписчики ежедневной газеты»: идет ли речь о главе семьи или о всех взрослых в семье подписчиков? «Владельцы легкового автомобиля»: должны ли это быть «владельцы» в юридическом смысле слова или «имеющие в распоряжении»— например, лица,которым предоставлена служебная машина?

«Определить мнение всех здравомыслящих» — такое задание вовсе не содержит объективного основания для вычленения группы лиц, к которым будут относиться выводы исследования. Также невозможно устроить опрос «хороших врачей», но можно было бы исследовать мнения «всех врачей», или «всех практикующих врачей», или «всех практикующих врачей и специалистов», или «всех врачей больниц». Даже размер практики врача мог бы стать основанием для определения выборочной совокупности.

Почему иногда приходится опрашивать не тех людей?

Предположим, что нужно исследовать, какие рисунки предпочитают покупатели на шерстяных одеялах, чтобы на основании этого планировать выпуск новой продукции. Кажется ясно, что лучше всего опросить людей, которые в недалеком будущем собираются купить новое шерстяное одеяло.

Если опрос планируют шире и спрашивают также тех, кому за последние десять лет приходилось покупать шерстяные одеяла, то в этом случае можно сделать странное наблюдение.

Люди, которые в ближайшее время собираются купить шерстяное одеяло, при богатом выборе предлагаемых образцов очень редко выбирают клетчатые одеяла. Люди, которые за последние годы сами покупали одеяла, делают совершенно иной выбор. Среди них очень многие выбирают клетчатые одеяла. Если их спрашивают, какие одеяла они купили себе сами, выясняется интересный факт: из года в год продается все больше клетчатых одеял; те, кто делал покупки недавно — не более двух лет назад,— в большинстве случаев высказывались за клетчатые одеяла. Таким образом, фабрикант не может ориентироваться на людей, планирующих покупку, которые в интервью так редко предпочитали клетчатые одеяла[67]. Лучший прогноз сбыта можно составить на основании мнения тех людей, которые лишь недавнокупили шерстяноеодеяло.

Это не единичный случай. Аналогичные явления можно часто наблюдать в связи с предметами, которые приобретаются не часто. Предпочтения остаются прежними до тех пор, пока не начинают готовиться к новой покупке, не рассматривают с возобновившимся интересом купленные знакомыми одеяла и не разглядывают в магазине выставленные во всем блеске новейшие образцы. Те, кто купил одеяла недавно, имеют уже ориентацию, которую сформируют у себя также будущие покупатели.

Можно сформулировать правило: в исследованиях о будущем поведении, о будущих решениях нужно опрашивать так называемых_<<не тех» людей, то есть не тех, кто в ближайшее время будет решать, а тех, кто в недалеком прошлом уже решил. От них можно узнать лучше и достовернее о том, что будут делать будущие покупатели.

Правило легко сформулировать, но его соблюдение требует нередко сложных размышлений о нашем привычном мире, о нашей ориентации на других людей, а также из области статистики. Если, например, для подготовки закона о жилищном строительстве хотят узнать о финансовых планах людей, намеревающихся строить собственные дома, об их мнениях по поводу выбора места строительства, тонужнабольшаярешительность,чтобы об ратиться со всеми вопросами именно к тем, кто только что закончил строительство своего дома. Вдруг будущие владельцы собственных домов будут вести себя совсем иначе, будут иметь другие планы и желания? Все это нужно взвесить. Вероятность мала, но при этом велика опасность получить нереалистичные сведения от людей, которые по многочисленным вопросам еще не имеют того опыта, который в конечном итоге будет определять их решение.

«Не тех» лиц стоит опрашивать также в целях сравнения. Возьмем пример из исследования мотивации. Чтобы узнать, по каким причинам определенные люди не решаются купить мотоцикл или мотороллер фирмы «Y», нужно для сравнения провести репрезентативное выборочное исследование среди лиц,, купивших «Y»

Только из сравнения с реакцией сторонников марки «Y» можно узнать, почему покупатели, не покупающие марку «Y», приняли такое решение. Это сравнение выглядит приблизительно так[68]:

ВОПРОС: «Каковы Ваши планы: собираетесь ли Вы когда-нибудь купить машину или о машине не можетбыть и речи?»

Покупатели мотоциклов, которые собирались купить марку «Y» и затем:

купили марку «Y» не купили марку «Y»

Планируют купить автомобиль 32% 49%

Не думают покупать автомобиль 68% 51%

100%

100%

Решение не покупать марку «Y», таким образом, очевидно, связано с желанием купить автомобиль[69]. Как это объяснить?

Перед покупателями, которые не выбрали марку «Y», при покупке неосознанно стоял мысленный образ автомобиля, который, хотя и недоступен, все же предпочтительнее, чем мотоцикл..

 

«Выбирает случай? Это легкомыслие!»

Фабрикант, решившийпровестианализ спросанатовары, обращается за консультацией о методах исследования в Институт по изучению конъюнктуры. При этом он неизбежно теряет доверие к исследователям, когда в отделе статистики математик настойчиво советует ему: «Выбор опрашиваемых обычно проводится чисто случайно...»

Снова и снова мы убеждаемся, что двойной смысл основных понятий статистики затрудняет понимание и даже ведетк недоразумениям.

«Случайность» для математика означает совершенно противоположное тому, что мы обычно понимаем под словом «случай». Для него это строгий, последовательно осуществляемый метод, помогающий выполнить основное требование: «Каждый элемент генеральной совокупности в репрезентативном исследовании должен иметь соизмеримые и отличные от нуля возможности попасть в выборку»[70].

Случайность, которая удовлетворяет этому условию, знакома нам по лотерее: каждый, кто покупает билет, верит в то, что были приняты все надлежащие меры, чтобы каждый билет имел равные и отличные от нуля возможности выигрыша.

Точно такие же условия должны быть созданы для отбора людей с помощью вероятностного метода в опросах населения. Здесь нецелесообразно рассматривать особые случаи в статистике (см., в частности, с. 144 о методе стратифицированной выборки). Важно обеспечить, чтобы в принципе каждый представитель группы населения, мнение или поведение которой исследуется, имел равные с другими возможности попасть в выборку. При этом вероятностные методы предназначены для того, чтобы исключить «всякий субъективный момент при отборе»[71].

Основные типы вероятностной выборки

— Г. Келлерер показывает на ряде примеров, как осуществляется вероятностный метод выборки. При этом он рассматривает четыре основных типа выборки: Простая,

— стратифицированная,

— территориальная,

— многоступенчатая.

Приводятся следующие примеры простой выборки:

«В одном ведомстве по вопросам труда заведены личные карточки, 8000 шт. (N=8000), по одной на каждого зарегистрированного человека. Объем выборки определен: п = 400. Следуя традиционным путем, нужно было бы положить все карточки в большую емкость и хорошо перемешать, а затем вытащить 400 штук. Тысячи лотерейных билетов, скатанные в одинаковые ролики, можно привести с помощью барабана в случайный порядок, для карточек из картотеки такой способ вряд ли пригоден. Кроме того, карточк при этом были бы приведены в ненужный беспорядок, возможно дажеповреждены.

Выход в этой ситуации лежит в нумерации карточек от 1 до 8000 для последующего применения таблицы случайных чисел. Это табличные ряды, например, из 10 000 цифр, которые расположены в совершенно случайном порядке. Изготовление таких таблиц — множество их имеется в продаже — наряду с этим возможно также машиннымспособом...

Применяя такую таблицу — ее можно назвать «урной про запас»,—следует действовать так:

Отмечаем начало в любом месте таблицы и постоянно берем четыре следующих друг за другом числа. Мы получаем, например, 1081, 0412, 6357, 3180, 0089... Тогда в картотеке мы отбираем карточки с порядковыми номерами 1081, 412, 6357, 3180, 89... Номера свыше 8000 мы пропускаем.

Проще-^обстоит дело при «систематическом методе^.отбора». Объем выборки п = 400 — это двадцатая часть|от 8000 "карточек в только что приведенном примере. Мы начинаем с какого-нибудь числа в пределах 20, например с 3. Затем после этого номера «3» берется каждая 20-я карточка, так мы получаем номера 3, 23, 43 ... 7983. Особенно удачен этот метод там, где все элементы совокупности уже пронумерованы и стоят в правильном порядке...

Третий метод — это «способ конечных цифр». Он также предполагает пронумерованную совокупность — от 1 до N. Для того чтобы выбрать из нее 20% всех случаев, следует отобрать все элементы, номера которых оканчиваются, например, на 2 или 9, так как каждая из этих цифр — 2 или 9 — представлена в 10% всей совокупности. Для того чтобы получить 3% всего объема, достаточно выбрать все элементы, порядковый номер которых кончается парами цифр 21, или 48, или 73. Преимуществом этого способа является то, что карты не должны лежать в порядке возрастания от 1 до N.

Отбор по буквам или по дням рождения часто также обеспечивает хорошее приближение к настоящей вероятностной выборке. На больших группах населения мы применяем способ выбора лиц, фамилии которых начинаются с определенной буквы, или же всех лиц, которые родились в определенный день — например, 8 декабря какого-нибудькалендарногогода. Конечно,можновзять также несколько начальных букв или дней рождения, чтобы увеличить объем выборки. При этом мы исходим из в целом получающей подтверждение гипотезы, что нет никакой связи между начальными буквами фамилии или днем рождения, с одной стороны, и интересующими нас статистическими признаками населения — с другой. Так, мы предполагаем, что календарный день рождения не оказывает влияния на доход соответствующего лица, что 20—25-летние мужчины в Федеративной Республике Германии, фамилия которых начинается с буквы Д, так же распределяются по весовым категориям, как и мужчины того же возраста, фамилии которых начинаются с другой буквы»[72] ы.

Стратифицированную выборку применяют тогда, когда генеральная совокупность, которую хотят выборочно исследовать, не гомогенна (не однородна). В этом случае составляют различные страты, обладающие большей гомогенностью, и затем проводят дальнейший отбор внутри этих страт, чтобы уменьшить область рассеивания, которая тем меньше, чем больше гомогенность «исходной массы». Г. Келлерер приводит пример из практики составления переписей сельскохозяйственных предприятий, когда, чтобы скорее получить предварительные результаты, осуществляется выборочный анализ.

ТерриториальнуювыборкуГ.Келлерер описывает на следующем примере:

«Если требуется, например, провести репрезентативный опрос хотя бы среди квартиросъемщиков крупного города А, то сталкиваются с серьезной трудностью— нет списка всех квартиросъемщиков, который можно использовать для составления выборочной совокупности. Но выход есть: вся городская территория на основании плана города с очень крупным масштабом делится, например, на М = 2000 кварталов; их нумеруют в форме серпантина от 1 до 2000. Когда будет сделана эта предварительная работа, можно подвергнуть обследованию каждый 20-й квартал. Теперь нам нужно в 100 выбранных кварталах собрать точные данные о всех квартиросъемщиках. Эта территориальная выборка может быть удачной даже тогда, когда; у нас есть действительный список всех квартиросъемщиков — по_ двум причинам:

а) «территориальная выборка» ограничивается определенными кварталами и поэтому уменьшаются расходы на дорогу и потери времени;

б) список жителей никогда не бывает совершенно точным, так как постоянно происходит пополнение и выезд. В территориальной выборке заложен учет текучести в принципе».

В четвертом основном типе — многоступенчатой выборке — сначала также выбираются в известной мере «гнезда» из всей генеральной совокупности способом систематической случайности, например отбираются определенные округа или населенные пункты в стране. Внутри «гнезд» или «ячеек» (англ. spots) отбор происходит по принципам простой выборки. В качестве примера двухступенчатой стратифицированной выборки Г. Келлерер приводит исследования «Анализ читательской аудитории», организованные группой из 40 издателей, рекламных агентов и распространителей. Опрос должен был выяснить численность и состав читательской аудитории популярных немецких журналов.

«Целью подобного анализа читателей является выяснение численности, географического распределения, демографической, экономической и социальной структуры читателей целого ряда известных газет...»

«До сих пор специально для этого основанная «Группа поанализу читателей» в Федеративной Республике Германии провелачетыре крупных исследования читательской аудитории в 1954,1956, 1957/58 и 1959/60 годах. Мы описываем применявшийся методв исследованиях 1956 года[73]. В качестве генеральной совокупностибыло избрано население всей ФРГ, включая Западный Берлин,в возрасте от 16 до 70 лет, так как эта группа наиболее интереснас точки зрепия распространения печати. Для того чтобы, несмотряна глубину поставленного вопроса, получить возможно большеответов, исследование проводилось в форме интервью. В общей. сложности в двухступенчатую стратифицированную выборку было

включено17 000 человек.Они отбирались последующей схеме:

а) Сначалався обследуемаятерриториябыларазделенанадесять групп «А» и семь групп «Б».Самостоятельные группы «А»образовывали такие большие города, как Гамбург, Бремен, Западный Берлин. Остальные семь федеральных земель были соответственно разделены на группу «А» (она включала все населенные пунктыс числом жителей 2000 и больше) и на группу «Б» (населенные пункты с числом жителей меньше 2000).Эта стратификация целесообразна, поскольку условия жизни в населенных пунктах с числомжителей меньше 2000 человек отличаются от таковых в крупныхнаселенных пунктах. Кроме того, не исключены региональные различия: например, в земле Северный Рейн — Вестфалия особенностичитателей не такие, как в Баварии.

б) Внутри групп «А» сучетом географического положениябыли сформированы «ячейки», куда входило по нескольку общинили части нескольких общин. «Ячейки» охватывали ровно 600 000 человек (таким образом, Гамбург и Западный Берлин были распределенымежду несколькими «ячейками»). Врезультатеполучено 62 «ячейкиА». Внутри групп «Б» также были сформированы «ячейки». При этом исследователи объединяли общины по карте в направлении с севера на юг. В каждой «ячейке-Б» оказалось примерно 350 000 жителей, всего таких ячеек было 38. Эта работа опиралась на данные ведомственной статистики о количестве жителей в общинах. На первом этапе отбора в каждой из этих 100 ячеек методом простой выборки было вычленено по 8 выборочных районов. При этом строго учитывалось, чтобы каждая община имела возможность попасть в выборочную совокупность пропорционально своей величине. Так, например, община с 12 000 жителей обладала в четыре раза большей вероятностью попасть в выборку, чем община с 3000 жителей. Поскольку в результате этого на определенную часть крупных общин приходилось два или больше выборочных района, в целом было получено всего 624 выборочные общины. В каждой из этих отобранных общин с помощью местной картотеки населения систематическим способом отбора было выделено установленное количествоадресов (второй этап выборки).

В 62 х 8 выборочных районах «ячеек-А» было взято по 25 адресов,_а в 38 X 8 выборочных районах «ячеек-Б»— по Ш/з адресов. Так учитывалось, что в каждой «ячейке-А» около 600 тыс. жителей, а в «ячейке-Б» только 350 тыс. На Западный Берлин выпало 747_адре-сов. Итак, в общей сложности получилось 62 X 8 X 25 + 38 X X 8 X 14V3 + 747 « 17 500адресов.

Они были распределены по сети интервьюеров таким образом, что каждый из почти 500 интервьюеров по всей стране и в Западном Берлине получил список домов, которые он должен был посетить. Интервьюеры должны были сперва выяснить объективные данные о лицах в возрасте от 16 до 70 лет в строго указанной последовательности, с учетом пола и возраста. С помощью ряда чисел от 1 до 9 в случайной последовательности, который был приложен к каждому адресу, следовало затем определять респондента. Например: следует провести интервью в семье из 4 человек в возрасте от 16 до 70 лет. Если к адресу приложен ряд случайных чисел: 7, 5, 2, 6, 1, 3, 8, 9, 4, то следовало опрашивать второго члена семьи потому, что 2 — первая цифра, которая в этом ряду слева направо меньше или равна 4. Единицей обследования здесь является не семья, а отдельный человек. Нужно следить за тем, чтобы при выборе опрашиваемого лица исключить любой субъективный момент.

Если соответствующего человека не было дома, то интервьюер должен снова посетить его и даже при необходимости несколько раз. Бывает и так, что, несмотря на троекратные попытки визитов, все же не удавалось застать этого человека дома. Другая часть опрашиваемых отказывалась от интервью. Этими или другими причинами можно объяснить, что было проведено лишь 14 200 интервью. На практике, таким образом, в выборке появлялись пробелы. Мы затрагиваем здесь трудный вопрос исследования рынка и общественного мнения, так называемую проблему «белых пятен», возникающую из-за того, что неопрошенные и (или) не давшие ответа лица могут сильно отличаться в своем отношении к исследуемым проблемам. Только если доля пробелов невелика, с ней можно примириться» [74]

 

Списки, картотеки или территориальный отбор

Сущность метода вероятностной выборки заключается в том, что отбор людей или других элементов следует производить по «правилам случая» из генеральной совокупности, на изучение которой направлено данное исследование. Для этого необходимо всю совокупность представить каким-либо образом в форме, доступной для процедуры выборки. Это могут быть либо полные и постоянно обновляемые списки или картотеки па всех членов совокупности; когда их нет или их использование связано со значительными практическими трудностями, можно воспользоваться способом «территориального отбора». Такой пример опроса жильцов дает Г. Келлерер[75].

При территориальном отборе людей или домов нужно особо учесть, чтобы в выборку попали также те группы лиц, которые при опросах часто остаются без внимания — например, люди, живущие во флигеле или в мансарде, члены семьи квартиросъемщика. Кроме того, нужно следить, чтобы при отборе не отдавалось предпочтение тем, кого легко застать дома. По этой причине определять выборку и проводить интервью следует раздельно[76].

Ниже приводятся две инструкции в качестве примера применения вероятностной выборки в картотеках и территориального отборав районе города.

Инструкция

для выявления адресов из учетной картотеки общины (населенные пункты с количествомжителей более 50 тыс.)

Мюнхен

Мы просим Вас отобрать в этой общине соответственно нашей инструкции75 адресов

I. ВЫБОР КАРТОТЕКИ:

Во-первых, узнайте, сколько существует картотек, в которых зарегистрированы все жители общины (по крайней мере все жители в возрасте от 12 лет).

ЗАПИШИТЕ, ПОЖАЛУЙСТА:

Сколько имеется в наличииполных картотек.

Всего ........... картотек,из них:

— пластина, содержащая данные, систематизированные

по улицам и районам города.................................................................. ( ) А;

— пластина, содержащая данные, не систематизированные по улицам и районам города ( ) Б;

— картотека,упорядоченная по улицам и районам города ....... ( ) В;

— картотека,не упорядоченная по улицам и районамгорода ( ) Г.

В случае, если имеется несколько картотек (пластин):

Среди картотек, которые Вы только что обозначили кодами от А до Г, выберите для определения адресов ту, буква кода которойстоит ближе к началуалфавита.

Для выбранной таким образом картотеки (пластины) выясните и запишите следующее:

1. Включаетли картотека(пластина) жителейтолькоэтойобщины?

2. Зарегистрированы ли в ней жители всейполитическойобщины(тоестьвключая все районы)?

3. Содержит ли она имена всех жителей вообще или по меньшей мере всех жителей с 12-летнего возраста?

4. Предоставленали картотека в Ваше распоряжение полностью"} (Части картотеки, которые расположены в других помещениях и не могут быть объединены в одном месте,— пожалуйста,измерьте их длину там, где они находятся, и рассматривайте ихкак непосредственные составные части картотеки, с которой Выработаете.)

Если Вы не можете утвердительно ответить на все четыре вопроса, картотеку использовать НЕЛЬЗЯ! Если у администрации нет другой картотеки, которая удовлетворяла бы требованиям, изложенным во всех четырех вопросах, дайте нам тотчас же знать, о каком виде картотек и какой их классификации идет речь. Затем ждите нашего решения!

II. ВЫБОР КАРТОЧЕК ИЗ КАРТОТЕКИ:

Если Вы уже нашли удовлетворяющую требованиям картотеку, выбирайте карточки из нее.

ЗАПИШИТЕ,ПОЖАЛУЙСТА:

Систематизированаливыбраннаякартотека поулицам или районам города?

НЕТ ......................... ( )*

ДА............................ ( )***

Если: НЕТ

Для НЕСИСТЕМАТИЗИРОВАННОЙ картотеки используйте, пожалуйста, инструкцию А «отбор карточек»!

ЕСЛИ ДА для этой СИСТЕМАТИЗИРОВАННОЙ картотеки используйте, пожалуйста, инструкцию Б «отбор карточек»

Отборлиц, адрескоторых Вы записываете:

Если по инструкции «отбор карточек» Вы нашли правильное количество карточек, то затем следует выбор лиц.

Очень важно не сделать ошибку и прежде всего уточнить, с каким видом картотеки Вы работаете.

ЗАПИШИТЕ, ПОЖАЛУЙСТА:

Действительно ли каждому лицу (по крайней мере каждому лицу с 12 лет) соответствует отдельная карточка?

ДА............................ ()*

НЕТ ........................ ( )***

Если: ДА

Каждому лицу соответствует отдельная карточка: на каждой карточке зарегистрировано лишь одно лицо. Пожалуйста, действуйте по инструкции В «отбор адресов из картотек с индивидуальными карточками»!

Если НЕТ. Не всем лицам соответствуют отдельные карточки; на некоторых карточках стоит по несколько имен. Пожалуйта, действуйте дальше по инструкции Г «отбор адресов из картотеки семей»!

ИНСТРУКЦИЯ А[77]

К ОТБОРУ КАРТОЧЕКИЗКАРТОТЕК, НЕсистематизированных по улицам и т. д.

ЗАПИШИТЕ, ПОЖАЛУЙСТА:

Вся картотека помещается в ... ящиках. Если количество ящиков разделить на 100, то получится число...