Простой случайный отбор

Основа выборки. Для организации простых схем отбора (простой случайной, систематической или серийной выборок) необходима ин­формация обо всех элементах генеральной совокупности или хотя бы их перечень.

Основой выборки называют перечень элементов генеральной со­вокупности, если он удовлетворяет требованиям полноты, точности, адекватности, удобства работы с ним, отсутствия дублирования еди­ниц наблюдения. Основой могут служить алфавитные списки сотруд­ников учреждения, номера пропусков, по которым можно иденти­фицировать определенные единицы, и т. п.

Полнота. Под полнотой подразумевается представленность всех ■единиц данной генеральной совокупности в основе выборки. Если некоторые единицы, которые по предположению должны быть в списке, не зарегистрированы' в нем, то список является неполным.

Неполнота основы выборки приводит к серьезным ошибкам в том случае если ие включенные в выборочную совокупность единицы на­блюдения имеют существенные особенности и их достаточно много.

Отсутствие дублирования. Если некоторые единицы наблюдения генеральной совокупности будут включены в основу выборки более Чем один раз, то они могут повторяться и в выборке (например, в том случае, когда человек переезжает из одного района в другой и ■Включается в новый список раньше, чем исключается из старого).

Точность. Информация о каждой единице отбора должна быть точной. Основа выборки не должна содержать несуществующих еди­ниц. Подобные неточности встречаются в избирательных списках, когда отсутствуют вновь прибывшие в данный населенный пункт, или остаются лица, изменившие свое местожительство, умершие, жильцы снесенных домов и т. п.

Адекватность. Оспова выборки, адекватная для решения одних, задач, может быть неадекватной для других. Например, полный спи­сок работников промышленного предприятия может быть хорошей основой для формирования выборочной совокупности при исследо­вании проблем удовлетворенности трудом работников данного пред­приятия, уровня их социальной активности и т. д. Но если изуча­ется удовлетворенность трудом или социальная активность п т. fl­ue всех работников предприятия, а только молодежи, то этот полный список может послужить лишь для формирования новой основы вы­борки — списка молодежи.

Если основа охватывает не все социальные объекты генеральной совокупности, то она может использоваться как основа выборки для той части генеральной совокупности, которая представлена полно­стью, а выбор единиц наблюдения из остальной части следует ор­ганизовать по другим источникам.

Удобство. Удобство работы с основой выборки — существенное-условие повышения качества результатов. Удобно, когда единицы,, составляющие основу выборки, пропумерованы, когда имеющиеся сведения о них дают возможность с полной определенностью опоз­навать эти единицы. Если основа выборки находится в одном цент­рализованном месте и ее структура соответствует реальной струк­туре изучаемых социальных объектов, это не только облегчает рабо­ту социолога, но и является необходимым требованием к исследова­нию, значительно повышающим его качество.

Одной из причин возникновения сложных схем выборки (много­ступенчатых, комбинированных и т. п.) является невозможность, обеспечить основу выборки для очень больших генеральных сово­купностей, обладающих сложной структурой.

К настоящему времени сложились представления об основе, ко­торая могла бы удовлетворить требованиям организации современ­ных социологических исследований, быть действенной для различ­ного типа исследований.' Такой основой является социальная карта. Социальная карта. Подобно тому как географическая карта явля­ется ориентиром в пространственном движении, социальная карта должна стать ориентиром в исследовании социальных объектов. Со­циальная карта представляет собой пространственное распределе­ние всевозможных социальных показателей для определенных эко­номико-географических регионов. Такая карта может служить осно­вой всех выборочных исследований в каждом регионе, области, районе, городе и т. п.

Процесс составления, социальной карты складывается из следую­щих этапов.

1. Сбор информации о размещении и движении населения, о&

осповных постоянных и сезонных потоках паселепия, которые выра­жаются в демографических показателях.

2. Сбор социально-экономической информации относительно про­
фессионального состава населения: данные о квалификации, зара­
ботной плате, соотношения между работающими и неработающими,
распределение уровня семейных доходов и т. д.

3. Сбор социологической информации: условия труда и быта; дан­
ные о проведении досуга, о его структуре по различным социальным

группам; данные о различных формах социальной активности, обра­зовательном уровне, средствах массовой коммуникации, об активно­сти партийных и общественных организаций и т. д.

Возрастающий интерес социологов к построению социальных карт связан в значительной степени с прикладными задачами выбо­рочного обследования. Для более углубленной разработки социаль­ных проблем необходима и более основательная исходная социаль­ная информация: карта размещения социальных групп, распростра­ненности средств массовых коммуникаций и т. д., т. е. социальная карта.

Процедура простого случайного отбора. По сформированной осно­ве выборки легко реализовать процедуру простого случайного от­бора. Для этого требуется соблюдение равенства шансов попадания единиц отбора в выборочную совокупность. Выделяют: а) простой •случайный бесповторный отбор и б) простой случайный повторный отбор.

Осуществляться каждая из разновидностей процедуры может различными способами. Опишем один из них. Пусть основа выборки содержит N единиц. Тогда, чтобы выбрать п единиц наблюдения в выборочную совокупность, напишем все номера от 1 до N на от­дельные карточки, тщательно их перемешаем и наугад вынем одну из них. Номер вытащенной карточки задает соответствующую еди­ницу наблюдения, попавшую в выборочную совокупность. Затем карточка возвращается на место, они снова перемешиваются, наугад вынимается новая карточка, и так далее продолжается п раз. Так реализуется процедура простого случайного повторного отбора.

Если извлеченную карточку не возвращать назад, а откладывать в сторону, то тот же процесс приведет нас к простой случайно бес-' повторной выборке размером в п единиц наблюдения или, как еще говорят, объемом в п единиц.

Описанная процедура простого случайного отбора становится чрезвычайно трудоемкой, если число N, задающее объем основы вы­борки, велико. Главная трудность состоит в том, что обеспечение равной вероятности попадания единицы наблюдения в выборочную совокупность требует очень тщательного перемешивания.

Чтобы устранить трудности, возникающие при исследовании боль­ших генеральных совокупностей (а именно таких большинство в социологии), для реализации простого случайного отбора пользуются так называемыми таблицами случайных чисел. Они содержат те или иные случайные цифры, полученные путем реализации некоторого физического случайного процесса, В литературе приводятся различ-

иые последовательности случайных чисел объемом от нескольких десятков до миллиона цифр (табл. 14).

Продемонстрируем, как работать с таблицей случайных чисел, на гипотетическом примере, когда из совокупности заранее прону­мерованных 300 единиц необходимо выбрать 7 единиц наблюдения. Поскольку N = 300 — трехзначное число, а в табл. 14 даны пяти­значные числа, будем использовать только три последних цифры каждого числа.

Таблица 14, Таблица случайных чисел *

Строка (i) (2) (3) (4)  
1 2 3 4 5 10 097 37 542 08 422 99 013 12 807 32 533 04 805 68 953 02 529 99 970 76 520 64 894 19 645 09 376 80157 13 586 74 296 09 303 70 715 30 147 34 673 24 805 23 209 38 311 64 032

Строка (1) (2) (3) W (Г>)

1 10 097 32 533 76 520 13 586 34 673

2 37 542 04 805 64 894 74 296 24 805

3 08 422 68 953 19 645 09 303 23 209

4 99 013 02 529 09 376 70 715 38 311

5 12 807 99 970 80157 30 147 64 032

* В таблице дан фрагмент 1500 случайных чисел, приведенных в книге: Статистические ме­тоды анализа информации в социологических исследованиях. М., 1972, с. 305—308.

Начиная с первого числа, двигаясь по строке, получим первый номер 97. Числа более 300 пропускаем и, продолжая этот процесс далее, получим ряд чисел:

296, 209, 13, 157, 147, 32.

Это и есть номера единиц наблюдения, попавших в формируемую выборку.

При организации бесповторного отбора приходится пропускать и числа (если они попадаются), которые встречаются второй раз в этом ряду.

Начинать процесс выбора случайных чисел можно с любого места таблицы и вести его в любом направлении (по строкам, столб­цам и т. п.) или выбирая только определенные столбцы. Если име­ющиеся под рукой таблицы достаточно длинны, то при решении очередной задачи выбора рекомендуется начинать с нового места таблицы.

Расчет характеристик простой случайной выборки. Цель любого выборочного исследования состоит в том, чтобы, сформировав вы­борку, собрать по ней информацию и на основе этой информации оценить искомые характеристики генеральной совокупности.

Наиболее распространенной в социологических исследованиях задачей является оценка среднего значения признака (или доли в случае качественного признака) в генеральной совокупности.

Проиллюстрируем на примере нахождение выборочной оценки среднего генеральной совокупности. Предположим, что оценивается среднее число газет и общественно-политических журналов, выпи­сываемых сотрудниками некоторого производственного коллектива. Рассмотрим по порядку все необходимые операции и их результаты.

Составляется основа выборки, т. с. список всех единиц отбора. В качестве такой основы может быть взят алфавитпый список всех сотрудников, пронумерованных последовательно (табл. 15). В целях наглядности вместе с основой выборки приводятся и все истинные значения единиц отбора, еще неизвестные исследователю. В даль­нейшем сопоставим истинное значение искомого параметра и выбо­рочную оценку.

Таблиц» 15. Распределение членов коллектива по числу выписываемых газет и журналов

Номер индивида 0) Число выписы­ваемых газет и журна-лов (*.) Номер индивида (1) Число выписы­ваемых газет и журна-лоо (*.) Номер индивида (1) Число выписы­ваемых газет и журна-лов (*.) Ночер индивида (О Число выписы­ваемых газет и журна-лов р.)
Г,
If»
1)
О
3 1        
            N = 50 i= Л = 150
                   

Число Число Число Число

пыписы- выписы- выписы- лыпкгы-

Помер наемых Номер паемых Номер ваемых Номер вае'мых

индивида газет и индивида газет и индивида газет и индивида газет и

О') журна- (i) журна- (i) журна- (i) журна-

лов /хл лоп (х.\ лов (*Л лов (хл

1 2 14 6 26 Г, 38 3

2 2 15 5 27 3 39 4

3 0 If» 0 28 10 40 3

4 0 17 1 29 2 41 1

5 1 18 4 30 5 42 2
к 2 19 3 31 4 43 3

7 5 20 5 32 8 44 5

8 3 21 2 33 2 45 3

9 5 22 4 34 3 46 1

 

10 3 23 3 35 2 47 2

11 3 24 0 36 1 48 3

12 4 25 1 37 1 40 4

13 3 I 50 2

N = 50 2*1 = 15° 1=1

Общая сумма выписываемых газет н журналов равна 150. Сред­нее число выписываемых газет и журналов на каждого сотрудника равно (.1 = 150/50 = 3.

Среднее квадратнческое отклонение для генеральной совокупно­сти равно

/ 60

а „Л/ ^к____ =1/^=17

f Л-1 У 49 ' '

Сумма квадратов отклонений равна 146 при условии, что одно значение квадрата отклонения, а именно от единицы отбора 28, было исключено из суммы. Это значение, равное 49, резко увели­чивает сумму, будучи нетипичным для генеральной совокупности. Такое «исключение» экстремального отклонения нередко применя­ется при обработке первичной социальной информации в том случае,

когда предусмотрено возведение в квадрат, а само отклонение в 2—3 раза превышает среднее значение параметра.

Однако ни среднее значение параметра, ни среднее квадрати-ческое отклонение перед началом исследования не известны. В про-тивпом случае само исследование было бы излишним.

Естественно предположить при анализе вышеприведенного при­мера, что каждый респондент (единица отбора и единица наблюде-лия) выписывает несколько газет и журналов и что количество выписываемых газет и журналов не слишком сильно варьирует (если бы путем выборочного исследования потребовалось определить, скажем, объем личных библиотек, положение исследователя ослож­нилось бы). Исходя из этих соображений, полагаем достаточной вы­борку, состоящую из пяти респондентов. Проверить правильности определения объема выборки можно только после обработки резуль­татов пилотажного исследования.

Предположим, что случайный выбор из табл. 15 дал следующие результаты: выбраны номера 18, 4, 28, 39, 22; они соответствуют значениям признаков 4, 0, 10, 4, 4.

Среднее арифметическое по выборке х = 22/5 = 4,4, дисперсия

5* = Jl^L = 12,24, a s = 3,5.

Такое значительное отклонение от истинпого значения средней объясняется тем, что п выборку попал респондент № 28, исключен­ный при подсчете дисперсии для генеральной совокупности как нетипичный. Однако при формировании выборки еще неизвестно, что данный респондент нетипичен. По сам факт, что среднее квад-ратическое отклонение приближается по величине к средней, дол­жен насторожить исследователей.

Для большей паглядности выразим s в процентах от величины средней: (3,5 :4,4) • 100% = 79%, т. е. среднее отклонение значе­ний признака от выборочной средней арифметической величины составляет 79%. В таких случаях целесообразно увеличить объем выборки, например, в 2 раза. В результате были отобраны номера: 44, 2, 12, 26, 14, 27, 35, 9, 8, 49; значения признака 5, 2, 4, 6, 1, 3, 2, 5, 3, 4.

Среднее арифметическое — 3,6, дисперсия sl = 2,26, среднее квадратическое отклонение s = 1,5. Теперь оно составляет прибли­зительно 40% от величины средней. При больших дисперсиях объ­ем выборки увеличивают с учетом практических возможностей до тех пор, пока дисперсия не перестает уменьшаться. Дальнейшее увеличение объема выборки является нецелесообразным. Обычно исследователь приходит к некоторому компромиссному решению от­носительно объема выборки в зависимости от требуемой точности, а также средств и времени, которыми он располагает.

Сводка необходимых формул для простой случайной выборки. В рассмотренном гипотетическом примере легко было оценить ка­чество выборочной оценки среднего (перед глазами была информа­ция обо всей генеральной совокупности). Но как провести его оцен-

.210

ку в реальном исследовании, когда имеется только информация, полученная из выборки?

На помощь приходит статистическая теория выборочного метода. Она позволяет при условии реализации случайного отбора достичь по крайней мере следующих двух целей:

1. По заданной априори необходимой степепи точности выводов
(формализуемой с помощью понятия доверительной вероятности)
найти возможные интервалы, изменения характеристик генеральной
совокупности (доверительные интервалы). И наоборот, рассчитать
доверительную вероятность отклонения характеристики генеральной
совокупности от выборочной по заданной величине доверительного
интервала.

2. Найти объем планируемой выборки, позволяющей достигнуть
р пределах требуемой точпости расчета выборочных характеристик
необходимую доверительную вероятность.

Дадим сводку необходимых для достижепия этих целей формул3.

Чтобы уметь применять приведенные формулы при планирова­нии выборки в эмпирическом социологическом исследовании, позна­комимся несколько подробнее с основными понятиями выборочного* метода — «доверительная вероятность» и «доверительный интервал».

Теоретико-вероятностные теоремы, восходящие к закону больших чисел, позволяют с определенной вероятностью, обозначаемой (1 —а), утверждать, что для изучаемого признака отклонения вы­борочной средней от гепералыюй не превысят некоторой величины Д, называемой предельной ошибкой выборки.

В одпой из формулировок ото утверждение записывается сле­дующим образом:

р{-Д<(х-М)<Д} = 1-а. (1)

Используя формулу табл. 16 для предельной ошибки Д =» *= Zy -^-, при повторном случайном отборе получим выражение

p\i-Z^L.<n<x + Z^] = 2<l>(z)=*l-a, (2)

I У" У« J v '

где а, Ф(2), Z, а, Д описаны в примечании к табл. 16.

Смысл приведенного соотношения следующий: с доперительпой вероятностью (1 —а) можно утверждать, что генеральное среднее-

лежит в интервале (х — Z —-=-; х -\- Z 1, который и называется

\ У« К» /

Доверительным интервалом, а определяет как бы степень доверия к данным, получаемым по рассчитанным с его помощью выбороч-вым характеристикам. Отсюда и название а — уровепь значимости.

* Знание формул необходимо для практической работы социолога, а также для дальнейшего понимания материала главы. Впрочем, без большого-ущерба при первом чтении можно опустить формулы и текст, их сопро­вождающий. В гаком случае придется возвращаться к табл. 16 каждый раз, когда в последующем изложении будет использоваться та или иная формула из этой сводки.

Таблица 16. Сводная таблица формул для расчета характеристик простои слу­чайной выборки

■Обозначения: М — средняя ошибка выборки, р — доля единиц с данным значением признаки, 4 = 1 — р — доля единиц, в которых этот признак отсутствует, п — объем выборки, N — объем генеральной совокупности, д — предельная ошибка, Z — числа, определяемые но таблице критических точек стандартного нормального распределения (см. табл. А прило­жения), а — уровень значимости, ц, о> — генеральные среднее и дисперсия.

Примечание. При расчете характеристик бесповторного случайного отбора, с которым прак­тически всегда имеет дело социолог, можно пользоваться более, простыми формулами дли случая повторного отбора, если объем генеральной совокупности значительно больше объема выборки.

Принятие того или иного уровня значимости, например 5%-пого ■(а =0,05), зависит от целей данного социологического исследования, требований к степени гарантии его результатов. Социолог должен четко понимать, что, выбрав, скажем, уровень значимости, равный 5%, и рассчитав на основе его выборочные характеристики, мы £удем утверждать наличие некоторого эффекта, который на самом деле может оказаться несправедливым приблизительно в пяти про­центах случаев.

Пример.При обследовании 900 человек — лиц трудоспособного возраста — определен их средний возраст. Для вероятности (1 — а) = = 0,90 необходимо найти доверительный интервал, в котором содер­жится генеральное среднее. Поскольку дисперсия признака неиз­вестна, оценим се приблизительно по значению размаха для гене­ральной совокупности.

С этой целью воспользуемся соотношением связи среднего квад­ратичного отклонения с размахом

<Т» T"ax-Jmln f (3)

2i2

справедливым в предположении нормального характера распреде­ления. Здесь Xm«i — хт1п— вариационный размах генеральной сово­купности, а V — величина, зависящая от объема выборки, значения которой можно найти в табл. 17.

Так как по всей генеральной совокупности верхняя граница трудоспособности в.СССР — 60 лет, а нижняя—16, то хт,хт1п = = 60—16 = 44, следовательно (для п>100 — последний столбец

Таблица          
Объем выборки п
V 2,3 3,1 3,7 4,1 4,5 5,0

Таблица 17

Объем