Табулирование данных

Табулирование заключается просто в подсчете ко­личества событий, которые попадают в различные ка­тегории. Табулирование может принимать форму про­стой табуляции, или перекрестной табуляции.

Простая табуляция -подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной пере­менной.

Перекрестная табуляция - подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.

Простая табуляция связана с подсчетом для един­ственной переменной. Она может повторяться для каждой из переменных исследования, но табуляция для каждой переменной не зависит от табуляции для других переменных. В перекрестной табуляции две или более переменных обрабатываются одновременно. Например, количество людей, которые покупают суп «Галина Бланка» в супермаркете, является примером перекрестной табуляции, поскольку речь идет об из­мерении двух связанных характеристик.

Табуляция может выполняться целиком от руки, целиком машиной или частично машиной и частично от руки. Какой из подходов более эффективен, зависит и от числа необходимых табуляций, и от количества событий в каждой табуляции. Число табуляций явля­ется прямой функцией количества переменных, тогда как количество событий — это прямая функция размера выборки. Чем меньшее число табуляций тре­буется и чем меньше выборка, применяются ручные методы. Однако применение любого подхода также в значительной степени зависит от сложности табуляций. Сложность возрастает по мере увеличения числа переменных, по­лучаемых для одновременной обработки в перекрест­ной табуляции. Сложность также возрастает и с увели­чением числа категорий на одну переменную.

В очень простых исследованиях ручная табу­ляция оказывается более полезной, особенно если во­просов немного и число возможных ответов ограниче­но, большинство же исследований полагается на компьютерную табуляцию, использующую пакеты программ.

Одномерная табуляция использует­ся в следующих целях:

1) для определе­ния степени безответности позиций анкеты;

2) для локализации грубых ошибок;

3) для локализации посторонних значений;

4) для определения эмпирического распределения рассматриваемой переменной;

5) для расчета итоговых статистик.

Первые три направления определяются как очистка дан­ных. Безответность позиций является важной проблемой в большинстве исследований. Степень безответности позиций часто служит полезным индикатором качества исследова­ния. Когда степень безответности большая, исследование в целом становится сомнительным и возникает необходимость пересмотреть его цели и методы. Даже ког­да безответность остается в определенных границах, необходимо при­нять решение относительно того, что делать с утрачен­ными позициями, еще до анализа данных. Возможно использование нескольких стратегий.

1) Оставить позиции пустыми и описать их количе­ство как отдельную категорию. Хотя такой метод работает в случае простых одномерных и пере­крестных табуляций, он неприемлем для ряда других статистических приемов.

2) Исключать событие с утраченной позицией при анализе с использованием соответствующей пе­ременной. При использовании такого подхода необходимо постоянно давать количество событий, на которых базируется анализ, т.к. размер выборки оказывается различным на протяжении анализа. Игнорируется также и тот факт, что степень безответности по какой-то конкретной позиции, возможно, показывает, на­сколько глубоко заботил респондентов адресо­вавшийся им вопрос.

3) Подставить значения утраченных позиций анке­ты. Обычно такая подстановка имеет в своей основе меру срединной тенденции, медианы или моды. В порядке альтер­нативного варианта иногда можно оценить ответ с использованием другой информа­ции, содержащейся в анкете. Однако, этот подход требует большего объема ра­боты, и несет в себе потенциаль­ную опасность смещения результатов.

Не существует «правильного» или простого ответа на вопрос о том, каким образом обрабатывать утра­ченные позиции. Все зависит от целей исследования, обстоятельств утраты информации и методов, которые используются для анализа данных.

Еще одна цель одномерной табуляции состоит в локализации грубых ошибок.

Грубая ошибка– ошибка, которая возникает при редактировании, кодировании, клавиатурном наборе или табулировании данных.

Например, при одномерной табуляции данных по владению легковыми автомобилями на одну семью проверка исходной анкеты показала, что семья, сообщившая о нахождении у нее в собственности 9 машин, на самом деле имеет только одну. Цифра 9 является грубой ошибкой.

Количество событий, используемых в качестве базы необходимо преобразовывать в проценты, причем обязательным является указание общего числа событий, на котором базируется процентное представление.

Следующее применение одномерной табуляции состоит в локализации посторонних значений.

Постороннее значение– наблюдение, настолько отличающееся по величине от остальных наблюдений, что возникает необходимость обрабатывать его как особое значение.

Это может означать исключение из анализа или определение особых факторов, которые ответственны за это наблюдение.

Например, если семья действительно владеет 9 машинами, эта цифра должна рассматриваться как постороннее значение, т.к. слишком необычно, что у семьи так много легковых автомобилей.

Четвертое направление использования одномерной табуляции состоит в определении эмпирического распределения рассматриваемой характеристики.

Часто распределение лучше всего представить в виде гистограммы.

Гистограмма– форма столбчатой диаграммы, на которой значения переменной размещаются по оси Х, а частота или относительная частота появления значений указывается по оси У.

Более глубокого понимания сути эмпирического распределения можно добиться, построив полигон частот.

Полигон частот– рисунок, получаемый из гистограммы посредством соединения верхних точек столбцов гистограммы прямыми линиями.

Одномерная табуляция применяется и для расчета итоговых статистик(таких как мода, среднее значение, стандартное отклонение).

Мода, или наиболее часто происходящее событие, может быть определена непосредственно по одномерной табуляции.

Среднее значение рассчитывается посредством взвешивания каждого значения по частоте его появления, суммированием этих произведений и делением суммы на число событий.

Рассмотрим перекрестную табуляцию.Одномерная табуляция полезна для оцен­ки переменных исследований по отдельности, перекре­стная же табуляция является важным механиз­мом для изучения связей внутри и между переменными.

В перекрестной табуляции выборка делится на под­группы таким образом, чтобы выяснить, каким образом зависимые переменные изменяются от подгруппы к подгруппе.

Многие маркетинговые исследования не идут дальше перекрестной табуляции, и, более того, большинство исследований, использую­щих преимущества более сложных аналитических ме­тодов, тоже включают в себя перекрестную табуляцию в качестве важной составляющей.

Рассмотрим взаимосвязь между числом легковых автомобилей, которыми вла­деет семья, и семейным доходом. Чтобы сохранить вы­борку, предположим, что исследователя про­сто интересует определение того, верно ли, что семья с доходом выше среднего владеет двумя и более машинами, чем семья, доход которой ниже среднего. Предположим далее, что 37500$ — это медиана доходов всей совокупности, и что эту цифру правомерно использовать для разделения семей выборки на две группы — группу, имеющую до­ходы ниже среднего, и группу, в которой они выше среднего. Покажем в таблице двумерную классификацию семей выборки по доходу и числу легковых автомобилей (табл.5.1).

Рассмотрим, зависит ли количество машин от семейного дохода? По табл.5.1 это не вызывает сомнения. Однако в зависимости оттого, что берется за базу при расчете процентов, результат может быть немного другой в плане процентного соотношения.

Таблица 5.1

Количество легковых автомобилей по отношению к семейному доходу, шт.

Доход, $ Количество машин
1 или нет 2 или более Всего
Менее 37500 Более 37500 Всего 48 27 75 6 19 25 54 46 100

Составим таблицу в процентном соотношении количества легковых автомобилей по отношению к семейному доходу.

Таблица 5.2

Количество легковых автомобилей по отношению к семейному доходу.

Доход, $ Количество машин Число событий
1 или нет 2 или более Всего
Менее 37500 Более 37500 89% 59% 11% 41% 100% 100% 54 46

Покажем влияние семейного дохода на владение количеством легковых автомобилей (табл. 5.3)

Таблица 5.3

Семейный доход по отношению к количеству легковых автомобилей

Доход, 1 или нет 2 или более
Менее 37500 Более 37500 Всего (Число случаев) 64% 36% 100% (75) 24% 76% 100% (25)

Из табл. 5.3 видно, что семейный доход оказывает влияние на владение более чем одной машиной: 41% семей с доходами выше среднего имеют два или более автомобиля и только 11% семей с доходами ниже среднего могут позволить себе то же самое. С другой стороны таблица 5 показывает, что 64% семей, владеющих одной машиной, имеют доходы ниже среднего, а из владеющих двумя и более машинами только 24% попадают в группу доходов ниже среднего. Этот пример показывает, что владение несколькими машинами не означает более высоких доходов. Это была иллюстрация правила процентных расчетов: