Табулирование данных
Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Табулирование может принимать форму простой табуляции, или перекрестной табуляции.
Простая табуляция -подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной переменной.
Перекрестная табуляция - подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.
Простая табуляция связана с подсчетом для единственной переменной. Она может повторяться для каждой из переменных исследования, но табуляция для каждой переменной не зависит от табуляции для других переменных. В перекрестной табуляции две или более переменных обрабатываются одновременно. Например, количество людей, которые покупают суп «Галина Бланка» в супермаркете, является примером перекрестной табуляции, поскольку речь идет об измерении двух связанных характеристик.
Табуляция может выполняться целиком от руки, целиком машиной или частично машиной и частично от руки. Какой из подходов более эффективен, зависит и от числа необходимых табуляций, и от количества событий в каждой табуляции. Число табуляций является прямой функцией количества переменных, тогда как количество событий — это прямая функция размера выборки. Чем меньшее число табуляций требуется и чем меньше выборка, применяются ручные методы. Однако применение любого подхода также в значительной степени зависит от сложности табуляций. Сложность возрастает по мере увеличения числа переменных, получаемых для одновременной обработки в перекрестной табуляции. Сложность также возрастает и с увеличением числа категорий на одну переменную.
В очень простых исследованиях ручная табуляция оказывается более полезной, особенно если вопросов немного и число возможных ответов ограничено, большинство же исследований полагается на компьютерную табуляцию, использующую пакеты программ.
Одномерная табуляция используется в следующих целях:
1) для определения степени безответности позиций анкеты;
2) для локализации грубых ошибок;
3) для локализации посторонних значений;
4) для определения эмпирического распределения рассматриваемой переменной;
5) для расчета итоговых статистик.
Первые три направления определяются как очистка данных. Безответность позиций является важной проблемой в большинстве исследований. Степень безответности позиций часто служит полезным индикатором качества исследования. Когда степень безответности большая, исследование в целом становится сомнительным и возникает необходимость пересмотреть его цели и методы. Даже когда безответность остается в определенных границах, необходимо принять решение относительно того, что делать с утраченными позициями, еще до анализа данных. Возможно использование нескольких стратегий.
1) Оставить позиции пустыми и описать их количество как отдельную категорию. Хотя такой метод работает в случае простых одномерных и перекрестных табуляций, он неприемлем для ряда других статистических приемов.
2) Исключать событие с утраченной позицией при анализе с использованием соответствующей переменной. При использовании такого подхода необходимо постоянно давать количество событий, на которых базируется анализ, т.к. размер выборки оказывается различным на протяжении анализа. Игнорируется также и тот факт, что степень безответности по какой-то конкретной позиции, возможно, показывает, насколько глубоко заботил респондентов адресовавшийся им вопрос.
3) Подставить значения утраченных позиций анкеты. Обычно такая подстановка имеет в своей основе меру срединной тенденции, медианы или моды. В порядке альтернативного варианта иногда можно оценить ответ с использованием другой информации, содержащейся в анкете. Однако, этот подход требует большего объема работы, и несет в себе потенциальную опасность смещения результатов.
Не существует «правильного» или простого ответа на вопрос о том, каким образом обрабатывать утраченные позиции. Все зависит от целей исследования, обстоятельств утраты информации и методов, которые используются для анализа данных.
Еще одна цель одномерной табуляции состоит в локализации грубых ошибок.
Грубая ошибка– ошибка, которая возникает при редактировании, кодировании, клавиатурном наборе или табулировании данных.
Например, при одномерной табуляции данных по владению легковыми автомобилями на одну семью проверка исходной анкеты показала, что семья, сообщившая о нахождении у нее в собственности 9 машин, на самом деле имеет только одну. Цифра 9 является грубой ошибкой.
Количество событий, используемых в качестве базы необходимо преобразовывать в проценты, причем обязательным является указание общего числа событий, на котором базируется процентное представление.
Следующее применение одномерной табуляции состоит в локализации посторонних значений.
Постороннее значение– наблюдение, настолько отличающееся по величине от остальных наблюдений, что возникает необходимость обрабатывать его как особое значение.
Это может означать исключение из анализа или определение особых факторов, которые ответственны за это наблюдение.
Например, если семья действительно владеет 9 машинами, эта цифра должна рассматриваться как постороннее значение, т.к. слишком необычно, что у семьи так много легковых автомобилей.
Четвертое направление использования одномерной табуляции состоит в определении эмпирического распределения рассматриваемой характеристики.
Часто распределение лучше всего представить в виде гистограммы.
Гистограмма– форма столбчатой диаграммы, на которой значения переменной размещаются по оси Х, а частота или относительная частота появления значений указывается по оси У.
Более глубокого понимания сути эмпирического распределения можно добиться, построив полигон частот.
Полигон частот– рисунок, получаемый из гистограммы посредством соединения верхних точек столбцов гистограммы прямыми линиями.
Одномерная табуляция применяется и для расчета итоговых статистик(таких как мода, среднее значение, стандартное отклонение).
Мода, или наиболее часто происходящее событие, может быть определена непосредственно по одномерной табуляции.
Среднее значение рассчитывается посредством взвешивания каждого значения по частоте его появления, суммированием этих произведений и делением суммы на число событий.
Рассмотрим перекрестную табуляцию.Одномерная табуляция полезна для оценки переменных исследований по отдельности, перекрестная же табуляция является важным механизмом для изучения связей внутри и между переменными.
В перекрестной табуляции выборка делится на подгруппы таким образом, чтобы выяснить, каким образом зависимые переменные изменяются от подгруппы к подгруппе.
Многие маркетинговые исследования не идут дальше перекрестной табуляции, и, более того, большинство исследований, использующих преимущества более сложных аналитических методов, тоже включают в себя перекрестную табуляцию в качестве важной составляющей.
Рассмотрим взаимосвязь между числом легковых автомобилей, которыми владеет семья, и семейным доходом. Чтобы сохранить выборку, предположим, что исследователя просто интересует определение того, верно ли, что семья с доходом выше среднего владеет двумя и более машинами, чем семья, доход которой ниже среднего. Предположим далее, что 37500$ — это медиана доходов всей совокупности, и что эту цифру правомерно использовать для разделения семей выборки на две группы — группу, имеющую доходы ниже среднего, и группу, в которой они выше среднего. Покажем в таблице двумерную классификацию семей выборки по доходу и числу легковых автомобилей (табл.5.1).
Рассмотрим, зависит ли количество машин от семейного дохода? По табл.5.1 это не вызывает сомнения. Однако в зависимости оттого, что берется за базу при расчете процентов, результат может быть немного другой в плане процентного соотношения.
Таблица 5.1
Количество легковых автомобилей по отношению к семейному доходу, шт.
Доход, $ | Количество машин | ||
1 или нет | 2 или более | Всего | |
Менее 37500 Более 37500 Всего | 48 27 75 | 6 19 25 | 54 46 100 |
Составим таблицу в процентном соотношении количества легковых автомобилей по отношению к семейному доходу.
Таблица 5.2
Количество легковых автомобилей по отношению к семейному доходу.
Доход, $ | Количество машин | Число событий | ||
1 или нет | 2 или более | Всего | ||
Менее 37500 Более 37500 | 89% 59% | 11% 41% | 100% 100% | 54 46 |
Покажем влияние семейного дохода на владение количеством легковых автомобилей (табл. 5.3)
Таблица 5.3
Семейный доход по отношению к количеству легковых автомобилей
Доход, | 1 или нет | 2 или более |
Менее 37500 Более 37500 Всего (Число случаев) | 64% 36% 100% (75) | 24% 76% 100% (25) |
Из табл. 5.3 видно, что семейный доход оказывает влияние на владение более чем одной машиной: 41% семей с доходами выше среднего имеют два или более автомобиля и только 11% семей с доходами ниже среднего могут позволить себе то же самое. С другой стороны таблица 5 показывает, что 64% семей, владеющих одной машиной, имеют доходы ниже среднего, а из владеющих двумя и более машинами только 24% попадают в группу доходов ниже среднего. Этот пример показывает, что владение несколькими машинами не означает более высоких доходов. Это была иллюстрация правила процентных расчетов: