Специализированные программные пакеты статистической обработки данных

Лекция 9. Средства обработки данных: обработчики тестовых данных и специализированные программные пакеты статистической обработки данных

Методы анализа данных реализуются, как правило, в виде пакетов прикладных программ, в состав которых входят известные процедуры дисперсионного, корреляционного, регрессионного, факторного, дискриминантного и кластерного анализа, а также другие процедуры многомерной прикладной статистики. Эти процедуры относятся к классу линейных диагностических правил и превалируют в психодиагностике.

Первый по популярности табличный процессор, используемый для статистической обработки данных - Microsoft Excel, второй - Calc из офисного пакета OpenOffice.org. К сожалению, некоторые исследователи воспринимают эти программы как наиболее удобный и подходящий инструмент для анализа. Однако они заблуждаются. Использование подобного софта допустимо в тех случаях, если необходимо выполнить простейшие операции вроде сортировки данных, вычисления описательных статистик, построения некоторых видов графиков, а также просто для того, чтобы сохранить первичные данные своего эксперимента и вести лабораторный журнал. Другими словами, полноценная статобработка результатов исследования в Excel невозможна. Это офисное приложение, а не научное[16].

Среди тех, кто предъявляет к статистическому софту очень высокие требования и готов платить за него, популярностью пользуются такие приложения, как Statistica или SPSS Statistics. Обе программы являются настоящими «монстрами» как по стоимости, так и по своим вычислительным возможностям. Подробно рассказать о них в рамках статьи невозможно, для этого придется написать книгу в несколько сотен страниц, поэтому ограничимся кратким знакомством.

Statistica разрабатывается компанией StatSoft. На сегодняшний день последней версией является Statistica10.

Statistica - это система для статистического анализа данных, включающая широкий набор аналитических процедур и методов: более 100 различных типов графиков, описательные и внутригрупповые статистики, разведочный анализ данных, корреляции, быстрые основные статистики и блоковые статистики, интерактивный вероятностный калькулятор, T-критерии (и другие критерии групповых различий), таблицы частот, сопряженности, флагов и заголовков, анализ многомерных откликов, множественная регрессия, непараметрические статистики, общая модель дисперсионного и ковариационного анализа, подгонка распределений, добыча данных, нейронные сети и многое другое.

Продукты серии STATISTICA основаны на самых современных технологиях, полностью соответствуют последним достижениям в области IT, позволяют решать любые задачи в области анализа и обработки данных, идеально подходят для решения практических задач в маркетинге, финансах, страховании, экономике, бизнесе, промышленности, медицине и т.д.[3]

Программа SPSS, название которой - это аббревиатура от Statistical Package for the Social Sciences, относительно недавно стала принадлежать компании IBM и сменила название на PASW (Predictive Analytics SoftWare) Statistics [6].

Она предоставляет широкие возможности для анализа данных. Интуитивно понятный интерфейс программного обеспечения включает в себя все функции управления данными, статистические процедуры и средства создания отчетов для проведения анализа любой степени сложности.

Используя IBM SPSS Statistics, можно эффективно анализировать данные, наглядно представлять результаты в виде таблиц и диаграмм, а также распространять и внедрять полученные результаты.

Новый IBM SPSS Statistics обогащен мощными аналитическими инструментами и средствами ускорения работы для того, чтобы проще и быстрее выявлять ценную информацию в данных, делать более точные прогнозы и обеспечивать большую отдачу от аналитики.

Моделирование данных методом Монте-Карло. Богатые возможности имитационного моделирования данных с заданными характеристиками (в том числе, с характеристиками фактических данных – формой распределения и связями между переменными). Это позволит специалистам, связанным с планированием и моделированием затрат и рисков надежнее оценивать диапазон возможных значений прогнозируемого показателя и оценивать его отклик при воздействии на управляемые переменные;

Чтение данных из IBM Cognos BI. Прямой импорт данных из платформы Cognos с помощью встроенного конструктора импорта. Поддерживается загрузка выбранных пользователем данных, или готовых отчетов IBM Cognos.

Сравнение файлов данных. Удобная утилита сравнения файлов данных SPSS Statistics для выявления расхождений в версиях файлов. Появляется возможность быстро сравнивать как содержимое файлов (значения данных по выбранным переменным), так и метаданные, то есть состав и описания (метки и коды) переменных.

Безопасность и эффективность хранения данных. Встроенная возможность сохранения файлов данных с паролем защитит Ваши данные от нежелательного просмотра и повысит безопасность обмена данными с коллегами. IBM SPSS Statistics 21 также поддерживает новый эффективный алгоритм сжатия, значительно сокращающий место, необходимое для хранения больших данных.

Описательные статистики в одно действие. Простым щелчком по заголовку переменной можно быстро запросить вывод ее базовых описательных статистик, например, количество значений, диапазон, среднее и гистограмму для количественной переменной.

Гибкие возможности слияния файлов. Новая команда слияния позволяет избежать предварительной сортировки наборов данных и файлов SPSS Statistics, а также дает возможности слияния нескольких наборов с помощью подобия SQL-инструкций и разрешает использовать строковые переменные-ключи различной длины.

Долгожданные возможности управления готовыми таблицами. Теперь прямо в редакторе вывода SPSS Statistics в готовой мобильной таблице можно заменить отображение имен переменных и значений на их метки и наоборот, отсортировать строки, вставить новые строки и столбцы, а также изменить язык вывода таблицы, например, с английского на русский.

Расширенная поддержка экспорта результатов. Добавлена поддержка экспорта результатов в файлы MS Excel 2007 и более поздних версий, а также включена поддержка стилей вывода (фон, шрифты, ширина столбцов) при экспорте в HTML. Ваши таблицы в веб-браузере выглядят также опрятно, как и в редакторе выводаSPSS Statistics.

Основные характеристики IBM SPSS Statistics:

Доступ к данным и управление данными:

1. Чтение файлов Excel.

2. Чтение файлов данных SAS 7, 8, или 9 версии.

3. Возможность одновременно работать с несколькими наборами данных.

4. Поддержка источников данных OLE DB.

5. Возможность импорта и экспорта данных в PASW Data Collection Interviewer Web.

6. Доступ к базам данных с помощью средств ODBC (Oracle, SQL Server, IBM AIX).

7. Поддержка Unicode.

8. Экспорт данных в SAS и текущие версии Excel.

9. Конструктор экспорта в базы данных.

10. Конструктор реструктуризации данных .

11. Конструктор дат и времени.

12. Поиск дублирующихся наблюдений.

13. Визуальная категоризация.

14. Средство копирования свойств данных.

Графика:

1. Конструктор диаграмм, позволяющий быстро создать любую необходимую диаграмму.

2. Панель выбора диаграмм, позволяющая подобрать оптимальный вариант графического представления данных.

3. Язык создания диаграмм (Graphic Production Language).

4. Диаграммы для переменных с множественными ответами.

5. Диаграммы с двумя осями Y.

6. ROC кривые.

Выходные результаты:

1. Экспорт результатов в MS Office: Excel/Word/PowerPoint.

2. Экспорт результатов в PDF.

3. Экспорт результатов в HTML формат.

4. Средства управления выводом OMS.

5. Возможность просмотра выходных результатов PASW Statistics другими пользователями с помощью PASW Smartreader.

Автоматизация:

1. Улучшенный редактор синтаксиса с поддержкой автозавершения и цветового кодирования команд

2. Поддержка языков программирования Python и R

3. Возможность создания пользовательских процедур и диалоговых окон.

На сайте http://www.learnspss.ru размещены материалы для освоения технологии работы в SPSS, а на http://flogiston.ru/blog/spss13demo демо-версии последних версий системы.

Обе программы снабжены великолепным графическим интерфейсом, а также имеют встроенный язык программирования и возможность интеграции с языком статистических вычислений R.

Следует отметить, что почти безграничные возможности в статобработке, предоставляемые данными инструментами, требуют от компьютера больших ресурсов. Так, для работы SPSS необходимо не менее 1 Гб оперативной памяти. Операционные системы, в которых можно запускать SPSS: Windows, MacOS и Linux. Statistica же разработана только под Windows, что несколько уменьшает число ее пользователей.

В программах есть все наиболее востребованные статистические методы: частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, t-тесты и большое количество непараметрических критериев, многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ надежности, многомерное шкалирование и ряд других. Вызов этих статистических процедур делается с помощью выбора из меню соответствующих окон и внесения в них необходимых настроек. Все типы анализа разбиты по группам, что помогает быстро ориентироваться в интерфейсе приложений.

Системы STATISTICA и SPSS обладают широкими графическими возможностями. Они включают в себя большое количество разнообразных категорий и типов графиков, в том числе научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категоризованные графики и др.

Статистические функции, которыми располагают оба приложения, поражают своим разнообразием. Главным препятствием на пути освоения этих программ является время, которое необходимо затратить на обучение. Именно из-за недостатка знаний у пользователя, в большинстве случаев, мощь статистических пакетов подобного уровня не используется даже в половину.

Существует множество приложений для статистического анализа больших и маленьких, дорогих и бесплатных программ. Однако такое изобилие софта не должно пугать исследователя, достаточно будет один раз сделать продуманный выбор в пользу одной-двух программ, тщательно изучить тонкости их применения, и они будут не один год служить верными помощниками в статистическом анализе результатов экспериментов.

В последнее время все большая альтернатива сложившимся психодиагностическим подходам видится в применении методов теории распознавания образов. По заключению специалистов, имеется большое количество математических моделей распознавания образов, которые опираются на геометрическое изображение и истолкование характеристик распознаваемых объектов в пространстве признаков. В то же время ограниченное применение алгоритмов распознавания образов в психодиагностике, прежде всего, связано с высокой размерностью пространства признаков, которыми должен оперировать экспериментатор при проведении психодиагностических исследований. Развитие компьютерной информационной технологии дает возможность использования мощного математического аппарата анализа подобных данных и, следовательно, применения методов теории распознавания образов в качестве ближайшей реальной перспективы совершенствования психодиагностики.