Группы статистических пакетов

Потребность в средствах статистического анализа данных в различных областях деятельности, особенно в науке, очень велика, что и послужило причиной развития рынка компьютерных программ для статистической обработки данных. За последние 20 лет активное развитие получили компьютерные программы, позволяющие проводить статистический анализ больших объемов данных с целью выявления закономерностей, сравнения вероятных альтернатив выбора, построения прогнозов развития событий, обнаружения связей между явлениями и процессами и пр. Существующие программы постоянно совершенствуются в части ускорения работы с данными, улучшения представления результатов анализа данных, повышения удобства интерфейса, совершенствования справочной системы, увеличения числа встроенных в программу статистических процедур, средств обработки данных и пр.

Отрасль развивается стремительными темпами. На сегодняшний день на рынке представлено около тысячи компьютерных программ для статистической обработки данных (далее – статистические пакеты). Разнообразие статистических пакетов обусловлено многоплановостью задач обработки данных с применением различных типов статистических процедур анализа для поиска ответов на вопросы из различных областей человеческой деятельности.

Рынок компьютерных программ для статистического анализа данных характеризуется высокой конкуренцией, нередки случаи консолидации и поглощений компаний-разработчиков. Например, один из самых активных игроков на рынке компания SPSS Inc. в 1994 г. поглотила компанию SYSTAT Software Inc., а в 1996 г. – BMDP Statistical Software Inc. Эти приобретения позволили компании усовершенствовать собственные программные продукты. В частности, поглощение BMDP Software позволило усилить графические инструменты представления данных в SPSS, а поглощение SYSTAT – технологии обработки и анализа данных, полученных при биологических и медицинских исследованиях1Рафаэль Шамиев. SPSS: У нас все точно! PC Week/RE. (037)13`1996 http://www.pcweek.ru/themes/detail.php?ID=37568. В 2009 году компания IBM Inc. поглотила компанию SPSS Inc.

Перед пользователями различных категорий встает вопрос выбора оптимального статистического пакета для поиска верных ответов на существующие вопросы. Очевидно, что оптимальным является вариант, сочетающий в себе необходимые функциональные возможности, высокое качество работы и умеренную цену. При выборе пакета учитываются следующие параметры:

· соответствие характеру решаемых задач;

· объем обрабатываемых данных;

· требования, предъявляемые к квалификации пользователя (уровень знаний в области статистики);

· имеющееся в наличии компьютерное оборудование.

Статистические пакеты по признаку функциональности могут быть разделены на 3 основные группы.

1. Универсальные пакеты, или пакеты общего назначения (например, SPSS, STATA, STATISTICA, S-PLUS, Stadia, STATGRAPHICS, SYSTAT, Minitab).

Эти пакеты не ориентированы на специфическую предметную область и могут применяться для анализа данных из различных областей деятельности. Как правило, они предлагают широкий диапазон статистических методов и имеют относительно простой интерфейс. С такими пакетами рекомендуется работать начинающим пользователям, владеющим лишь базовыми знаниями в области статистики, а также опытным пользователям на начальных этапах работы с данными, когда еще четко не определены статистические методы, которые будут применяться для решения того или иного вопроса. Многопрофильность универсального пакета позволяет провести пробный анализ различных типов данных с использованием широкого диапазона статистических методов. Большинство существующих универсальных пакетов имеют много пересечений по составу встроенных статистических процедур.

Для того чтобы статистический пакет считался универсальным, он должен удовлетворять ряду требований:

o содержать достаточно широкий набор стандартных статистических методов;

o быть достаточно простым для быстрого освоения и использования непрофессиональным пользователем;

o работать с достаточно большими базами данных и отвечать высоким требованиям к вводу, преобразованию и организации хранения данных;

o осуществлять обмен данными с широко распространенными пакетами и базами данных;

o иметь обширный набор средств графического представления данных и результатов их анализа;

o иметь подробное документационное сопровождение и справочную систему, позволяющую начинающему пользователю с легкостью находить ответы на вопросы, связанные с работой программы и возможностями применения средств анализа данных.

2. Профессиональные пакеты (например, SAS, BMDP).

Профессиональные пакеты отличаются от универсальных тем, что позволяют работать со сверхбольшими объемами данных, применять узкоспециализированные методы анализа, создавать собственную систему обработки данных. Как правило, подобные пакеты сложны в освоении для непрофессионалов. В то же время подготовленным пользователям работа с профессиональным пакетом предоставит больше возможностей для глубокого и детального анализа данных, построения сложных моделей и адаптации системы к собственным потребностям. Профессиональные пакеты более дорогостоящи, чем универсальные. Например, стоимость покупки SAS Analytics Pro на один год для индивидуального пользования составляет 5 360 EUR2Цена по состоянию на август 2010 года.. Эти факторы делают современные профессиональные статистические пакеты слишком тяжеловесными для массового применения в различных областях деятельности.

3. Специализированные пакеты (например, BioStat, MESOSAUR, DATASCOPE).

В некоторых областях деятельности анализируемые данные настолько специфичны, что к ним следует применять особые методы статистического анализа, как правило, не представленные в универсальных пакетах.

Специализированные пакеты позволяют проводить анализ с использованием ограниченного числа специализированных статистических методов или применимы к использованию для решения вопросов, относящихся к отдельно взятой предметной области. Как правило, с подобными статистическими пакетами работают специалисты, хорошо знакомые с методами анализа данных в той области, на которую ориентирован пакет. Так, статистический пакет BioStat создан для анализа данных в области биологии и медицины и будет подробнее рассмотрен ниже. Российский статистический пакет MESOSAUR специализируется на анализе одномерных и многомерных временных рядов и построении регрессионных моделей. Еще один российский статистический пакет DATASCOPE специализируется на проведении анализа многомерных данных.

Целесообразно пользоваться соответствующими специализированными пакетами, когда требуется систематически решать задачи из конкретной области или применять ограниченный круг сложных статистических процедур для анализа данных из нескольких областей человеческой деятельности.

Большинство представленных на рынке статистических пакетов обладают гибкой модульной структурой, которая может пополняться и расширяться за счет пользовательских модулей, дополнительно закупаемых или находящихся в свободном доступе в Интернете. Подобная гибкость позволяет адаптировать большинство пакетов к потребностям конкретного пользователя.

По мнению профессионалов, статистический пакет должен удовлетворять следующему минимальному набору требований3Айвазян С.А., Степанов В.С. Инструменты статистического анализа данных. М., 2000.:

· модульность;

· ассистирование при выборе способа обработки данных;

· использование простого проблемно-ориентированного языка для формулировки задания пользователя;

· автоматическая организация процесса обработки данных;

· ведение банка данных пользователя и составление отчета о результатах проделанного анализа;

· диалоговый режим работы пользователя с пакетом;

· совместимость с другим программным обеспечением.

Как правило, представленные на рынке статистические пакеты регулярно обновляются. При этом в новой версии сохраняются или совершенствуются возможности предыдущей, а также добавляются новые возможности работы с данными. В большинстве случаев обновленные версии пакета сохраняют исходное название, изменяется лишь порядковый номер, присваиваемый конкретной версии. Самые распространенные пакеты имеют русскоязычную версию.

Разработчики большинства статистических пакетов часто утверждают, что разработанная ими программа является наилучшей для обработки данных. Учитывая многообразие предложения, подчас бывает сложно сделать правильный выбор. По мнению М. Митчелла, имеющего 20-летний опыт работы со статистическими пакетами и 11-летний опыт работы в качестве консультанта по статистике в Калифорнийском университете в Лос-Анджелесе, статистический пакет – всего лишь инструмент в руках мастера. Если специалист не обладает достаточными знаниями и компетенциями, то даже самый совершенный программный продукт не позволит провести качественный анализ данных. В то же время неправильно подобранный пакет, не обладающий необходимыми для анализа техническими характеристиками, способен замедлить работу даже выдающегося ученого, затруднив выявление необходимых закономерностей и получение верных результатов анализа данных4Mitchell, M. M. (2007). Strategically using General Purpose Statistics Packages: A Look at Stata, SAS and SPSS. UCLA ATS Statistical Consulting Group, Technical Report Series, Report #1. (http://www.ats.ucla.edu/stat/technicalreports/number1_editedFeb_2_2007/ ucla_ATSstat_tr1_1.1_0207.pdf).

В этой главе представлен обзор наиболее известных программных продуктов, разработанных для статистической обработки данных на компьютере и относящихся к упомянутым ранее трем основным группам программ (см. таблицу 11.1), перечислены их основные характеристики и возможности статистического анализа данных.

Таблица 11.1.
Универсальные пакеты или пакеты общего назначения Профессиональные пакеты Специализированные пакеты
SPSS, STATA, STATISTICA, Stadia, STATGRAPHICS, Minitab SAS BioStat

При рассмотрении каждого пакета отдельно будут отмечены возможности статистического анализа, которые он предоставляет пользователям. Необходимо отметить, что существует минимальный набор статистических методов анализа, который включен во все рассмотренные пакеты:

· описательная статистика (базовые статистические методы, проверка нормальности распределения данных);

· дисперсионный анализ;

· непараметрическая статистика (анализ таблиц сопряженности, непараметрические сравнения, дисперсионный анализ);

· контроль качества;

· анализ выживаемости;

· кластерный анализ;

· факторный анализ;

· дискриминантный анализ;

· регрессионный анализ;

· обработка данных (сортировка, отбор, трансформация данных).