Средства анализа данных на ПК.

Три центральные проблемы прикладной статистики.

Проблема 1: Статистическое исследование структуры и характера взаимосвязей, существующих между анализируемыми количественными переменными.

Проблема состоит в формулировке, выявлении и описании парных и множественных статистических связей (их смысла, степени тесноты, формы), существующих между компонентами анализируемого многомерного признака.

Проблема 2: Классификация объектов.

Заключается в том, что всю совокупность объектов O1, O2,…, On, статистически представленную в виде матриц, разбить на сравнительно небольшое число однородных групп или классов. Для формализации этой проблемы удобно интерпретировать объекты в качестве точек в соответствующем геометрическом пространстве. Т.е. геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических состояний», их однородность. Таким образом, объекты, принадлежащие одному классу, будут находиться на небольших расстояниях друг от друга. Полученные классы называют кластерами, таксонами или образами, а методы их нахождения кластер-анализом, численной таксономией, распознаванием образов. В зависимости от целей исследования могут использоваться либо методы кластер-анализа, либо методы дискриминантного анализа.

Проблема 3: Снижение размерности анализируемого признакового пространства.

Состоит в переходе от исходного набора признаков X = (x(1), x(2),…, x(p)) к вспомогательному набору гораздо меньшего числа признаков-дискриминант (z(1), z(2),…, z(p)), по которым исходные характеристики могут быть наиболее точно оценены. Среди типовых задач этот метод используется для:

· Отбора наиболее информативных показателей в задачах классификации, в моделях регрессии;

· Для сжатия больших массивов обрабатываемой и хранимой информации;

· Для визуализации многомерных статистических данных (используются метод главных компонент + факторный анализ);

· Для построения условных координатных осей, для описания состояния объектов, статистически заданных матрицей парных сравнений (применяется в задачах педагогики, психологии, построении рейтингов).

 

Широкому внедрению методов прикладной статистики способствовало появление ПК. Появление мощных и удобных пакетов для анализа данных на ПК резко расширило и изменило круг их потребителей. Если раньше эти методы использовались как инструмент научных исследований, то сейчас основными потребителями статистических пакетов стали коммерческие, финансовые организации, медицинские и правительственные учреждения.

На Западе (и уже в России) такие пакеты стали типичным общеупотребительным инструментом плановых, аналитических, маркетинговых отделов производственных и торговых корпораций, банков и страховых компаний, правительственных и других учреждений. Потребность в средствах статистического анализа данных на Западе очень велика, что и послужило причиной для развития рынка статистических программ.

Информацию о новых версиях пакетов, цены и адреса фирм-поставщиков можно найти в популярных компьютерных журналах и газетах типа «PC Magazine», “PC World”, “BYTE”, “PC Week” и др., а также «Мир ПК» и Интернет.

Число статистических пакетов, получивших распространение в России, достаточно велико и спрос на них вырос в середине 90-х годов.

Из зарубежных пакетов это STATGRAPHICS, SPSS, SYSTAT, BMDP, SAS, CSS, STATISTICA и др.

Из отечественных: STADIA, ЭВРИСТА, МЕЗОЗАВР, ОЛИМП, СТАТЭКСПЕРТ и др.

Виды статистических пакетов.

Различают специализированные, универсальные и профессиональные пакеты.

Специализированные пакеты обычно содержат методы одного-двух разделов статистики или методы, используемые в конкретной предметной области ( контроль качества промышленной продукции, расчет страховых сумм…). Чаще встречаются пакеты для анализа временных рядов, регрессионного и факторного анализа, кластерного анализа, многомерного шкалирования: МЕЗОЗАВР, Класс-Мастер - фирмы СТАТ_ДИАЛОГ, ЭВРИСТА – Центр статистических исследований МГУ. Такие пакеты ориентированы чаще на специалистов, хорошо знакомых с соответствующими методами.

Универсальные пакеты (общего назначения) –отсутствие прямой ориентации на специфическую, предметную область, имеют широкий диапазон статистических методов, дружелюбный интерфейс. Удобны, как для начинающих пользователей, так и для специалистов. К таким пакетам относятся: STADIA фирмы «Информатика и компьютеры», STATGRAPHICS фирмы Manugistic Inc. (наиболее распространен в России, т.к. менее защищен от несанкционированного доступа), SPSS, SYSTAT (SPSS Inc.), STATISTICA (StatSoft).

Профессиональные пакеты – в России нет. Пакет SAS фирмы SAS Inc., BMDP. Для пользователей, имеющих дело со сверх большими объемами данных или узкоспециализированными методами анализа. Самыми большими возможностями обладает пакет SAS(и самая высокая стоимость). Главный упор в настоящее время SAS в своей деятельности делает на работы по созданию и внедрению комплексных интегрированных систем доставки информации и поддержки принятия решений на уровне предприятия.