Использование компьютера для анализа данных

Современный компьютер, как известно, является устройством, позволяющим эффективно оперировать информацией разного рода, но в первую очередь текстовой и числовой. Само название происходит от английского слова «вычислять». И первые компьютеры действительно предназначались для сложных математических расчетов. Недаром и по-русски их вначале именовали электронно-вычислительными машинами (ЭВМ). Внешне они существенно отличались от современного персонального компьютера. Такая машина занимала целое большое помещение и обслуживалась целым штатом инженеров и программистов. Она использовалась в основном для инженерных и экономико-статистических расчетов.

За последние двадцать лет в области компьютерной техники произошла подлинная революция. Прогресс был связан в первую очередь со значительным повышением быстродействия и сокращением размеров ЭВМ. Появился так называемый персональный компьютер, который сейчас становится не только обязательным атрибутом любого учреждения, но и широко входит в быт. Современный портативный компьютер, свободно умещающийся в портфеле, вовсе не уступает по возможностям своим предшественникам — ЭВМ тридцатилетней давности, но при этом он стал значительно проще в обращении. Конечно, эта простота относительная. Будучи универсальным устройством переработки информации, компьютер совмещает в себе целый ряд функций — от функции пишущей машинки до функции терминала для связи с удаленными базами данных. Всеми этими функциями приходится специально овладевать. Вряд ли существует человек, который досконально владеет всеми возможными операциями. Их слишком много. Но есть базовые навыки, которые необходимы любому пользователю. Они образуют то, что сейчас принято называть компьютерной грамотностью. Удобства, которые компьютер предоставляет в обращении с текстовой и цифровой информацией, делают его незаменимым помощником в работе ученого-исследователя.

Для анализа информации существуют разнообразные специальные программы, но некоторые элементы качественного и количественного анализа можно осуществлять даже с помощью обычного текстового редактора. Имеется в виду тот редактор, который входит в состав наиболее распространенной сейчас системы Windows. Он позволяет просматривать текст, выделять его отдельные участки, вставлять заметки, находить в тексте заданные слова и словосочетания, располагать списки в алфавитном порядке. С его помощью можно также создавать таблицы, производить арифметические вычисления, рисовать диаграммы.

Специализированные программы для качественного анализа позволяют более гибко структурировать текст, вычленять его элементы, подсчитывать их, использовать многоуровневую систему кодирования, выявлять характер отношений между элементами, представлять их в виде наглядных схем. Эти программы удобны для работы с большими массивами информации, когда непосредственный просмотр становится слишком трудоемким и неэффективным.

Для работы с информацией, представленной в табличной форме, в состав системы Windows входит особая программа Excel. Она может работать как с цифровой, так и с текстовой информацией. С ее помощью можно сортировать данные, производить основные статистические вычисления, преобразовывать таблицы в диаграммы. Если мы работаем с программой Excel или аналогичной ей, то при изменении содержимого любой клетки или добавлении новых значений машина сама производит пересчет итогов по столбцам и по строкам. Наконец, чрезвычайно облегчается процедура построения всевозможных графиков. Машина сама строит их по тем данным, которые содержатся в таблице, выбирая оптимальный масштаб. А затем уже человек получает возможность варьировать детали внешнего оформления. Имеются и специальные программы статистической обработки данных. Пожалуй, наиболее распространенной из них является программа под названием SPSS, что расшифровывается как «Статистический пакет для социальных исследований». Это комплекс программ, реализующий практически все применяющиеся в настоящее время процедуры.

Но самое главное требование, которое компьютер предъявляет к исследователю — это четкое представление структуры данных и тех потребностей анализа, которые вытекают из задач исследования. Постановка задачи и интерпретация результатов не могут быть переданы машине. Самые изощренные приемы формального анализа способны только помочь преобразовать первичные данные в вид, удобный для интерпретации. Компьютер сам не думает, он лишь точно выполняет инструкции, которые ему дает человек. И эти инструкции должны быть совершенно определенными и недвусмысленными. Все проблемы определения и осмысления выпадают на долю человека.

Собираясь проводить исследование с использованием машинной обработки данных, следует заранее продумать, в каком виде мы будем вводить их в компьютер. Проще всего в этом случае работать с данными, структурированными еще на этапе их сбора. Проблем не возникает, когда используются готовые анкеты или тесты: тогда мы сразу получаем информацию, пригодную для дальнейшего количественного анализа.

Если наша исходная информация носит неструктурированный (текстовый) характер, а мы хотим использовать количественные методы анализа, то нужно предусмотреть способ ее кодирования. О кодировании речь уже шла выше. Сейчас мы укажем на некоторые особенности этой процедуры, когда она проводится с ориентацией на машинную обработку данных.

Очень важно, чтобы данные были приведены к единообразной форме. В качестве стандартной формы для введения количественных данных в компьютер используется таблица, где строки соответствуют случаям, а столбцы — переменным. В каждую клетку заносится число, характеризующее значение некоторой переменной для данного случая.

Если данные носят количественный характер, то заносится результат измерения или оценки. Если данные представляют собой качественные категории, то в таблицу заносятся их условные коды. Каждая клетка должна содержать одно и только одно значение. Вся таблица должна быть заполнена, то есть в ней не должно оставаться пустых клеток. В практике нередко случается, что какие-то значения отсутствуют. Например, респондент при заполнении анкеты пропустил один или несколько вопросов. Или отвечает «не знаю». Все такие случаи должны особым образом кодироваться.

Отсутствующие данные могут быть двух типов: принципиально невозможные или реально отсутствующие. В первом случае к какой-то подгруппе испытуемых вопрос просто неприложим. У неграмотного бессмысленно спрашивать, какие газеты он читает. У домохозяйки нет смысла спрашивать про ее зарплату. У сироты — про возраст родителей. Но если вопросы такого рода задавались другим испытуемым, то принципиально невозможные ответы нужно особым образом кодировать. Если такие случаи не единичные, то их следует анализировать отдельно. Во втором случае человек просто пропускает вопрос или выбирает категорию «не знаю». Такого рода явления чаще всего встречаются в заочных (почтовых) опросах. Если у одного респондента подобных ответов много, то надежность остальных ответов тоже оказывается сомнительной. Такого респондента лучше вообще исключить. Правда, если этот случай не единичный, исследователь должен насторожиться. Выбрасывание нескольких случаев не только уменьшает выборку, но может стать источником систематической ошибки, поскольку нельзя исключить, что тут мы имеем дело с группой людей, отличающихся от остальных в плане интересующих нас свойств.

После того как данные введены в компьютер, рекомендуется просмотреть распределение каждой переменной путем построения таблицы частот или соответствующих графиков. Компьютер дает возможность делать это легко и быстро. Просмотр может быть полезным в нескольких отношениях. Во-первых, иногда выявляются ошибки, допущенные при вводе данных. Допустим, вопрос предполагает выбор одного из пяти вариантов ответа, а построенное распределение обнаруживает числа больше пяти, которые явно настораживают. Во-вторых, может оказаться, что выбраны слишком дробные значения переменной и некоторые классы стоит укрупнить. Нужно только помнить, что в случае шкалы названий можно объединять любые классы, а в случае шкалы порядка — только соседние. Наконец, характер распределения может помочь выбрать наиболее адекватные методы дальнейшего анализа, а также навести на интересные гипотезы. Так, при скошенном распределении мы склоняемся к использованию непараметрических критериев. При бимодальном распределении возникает гипотеза о внутренней неоднородности выборки, и можно попробовать выделить разные типы испытуемых или ответов.

Сама процедура обсчета целиком передается машине, а исследователь получает готовые результаты, причем часто в виде, пригодном для использования в докладе или отчете. Некоторые более сложные вычислительные процедуры осуществляются в интерактивном режиме: на каждом шаге вычислений машина запрашивает дополнительные инструкции. Обычно пользователь каждый раз выбирает одну из возможных альтернатив. Понятно, что для этого надо иметь представление о том, какие задачи решаются на каждом этапе вычислений и как выбор той или иной тактики может повлиять на окончательные результаты.

Итак, компьютер значительно облегчает процесс обработки эмпирических данных, но одновременно заставляет исследователя овладевать дополнительными знаниями и навыками.

Машинная обработка данных совершенно необходима в случаях, когда: а) имеются большие массивы информации, б) используются сложные статистические методы анализа, в) исследования по одной программе проводятся неоднократно (мониторинг). В первых двух случаях без компьютера просто не обойтись. В третьем случае стоит раз потратить усилия на рационализацию всей процедуры, чтобы затем избежать массы рутинной работы. В остальных случаях приходится решить, исходя из конкретных условий, стоит ли затевать игру.

Современная исследовательская практика предъявляет высокие требования к человеку, который ею занимается. Он должен иметь не только глубокие познания в области непосредственных проблем, которые он изучает, но владеть также методологией и техникой проведения исследований и обработки их результатов. Вряд ли возможно одинаково хорошо разбираться во всех этих сферах. Поэтому очень важно налаживать профессиональные контакты, чтобы в случае нужды иметь возможность обратиться за консультацией и помощью. Потребность в помощи специалиста по анализу данных, как правило, оказывается необходимой на трех этапах проведения исследования:

1) на этапе планирования исследования;

2)на этапе подготовки данных к машинной обработке;

3)на этапе интерпретации полученных результатов.

На практике сплошь и рядом оказывается, что исследователь обращается к специалисту-методологу слишком поздно — когда материал уже набран и нужно решать, что с ним делать дальше. Тут нередко выясняется, что некоторые важные моменты были упущены из виду, что какая-то важная информация потеряна, что форма данных не отвечает требованиям задуманного анализа. Отсюда совет: учесть этот печальный опыт и не повторять подобных ошибок.

Связь между наукой и практикой в действительности оказывается теснее, чем это может показаться на первый взгляд. Исследования, особенно прикладные, направлены на осмысление практического опыта и служат, в конечном счете, повышению эффективности практических усилий.