Очищение данных (окончательное редактирование данных)
Целью данного этапа является проверка репрезентативности полученных данных и работа с анкетами неудовлетворительного качества, выявленными на втором этапе подготовки данных к анализу.
Проверка репрезентативности данных включает в себя:
1. Выявление данных, выходящих за пределы установленного диапазона.
Большинство статистических программ осуществляют данную функцию.
2. Выявление противоречивости и непоследовательности в ответах респондентов.
Осуществляется с помощью дублирующих вопросов, установления корреляций между отдельными вопросами.
3. Выявление экстремальных значений переменных.
Нужно помнить, что экстремальные значения (максимумы и минимумы) не всегда являются результатом опечатки. Их присутствие значительно искажает среднее значение переменной.
Работа с анкетами неудовлетворительного может осуществляться:
1. заменой неудовлетворительного значения нейтральным значением. Нейтральным значением будет являться среднее значение по данной переменной.
2. Заменой неудовлетворительного значения условным значением.
Условное значение определяется на основе установления причинно-следственных связей между переменными, как правило, с помощью корреляционно-регрессионного анализа.
3. Исключением анкеты целиком.
4. Частичным исключением из анализа вопросов, по которым получены неудовлетворительные данные. Недостатком данного метода является получение различных объемов выборок по разным переменным, что может значительно усложнить анализ данных.