Data Mining (добыча знаний)

Появление и широкое использование хранилищ данных способствовало развитию такого направления их обработки, как Data Mining (переводится как «добыча» или «раскопка данных»). Нередко наряду с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining.

В связи с совершенствованием технологий записи и хранения данных и появлением хранилищ данных на людей обрушились колоссальные потоки информационной руд в самых различных областях. Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку или руду данных.

Специфика современных требований к обработке данных в хранилищах состоит в том, что данные имеют неограниченный объем, данные являются разнородными (количественными, качественными, текстовыми). При этом результаты обработки должны быть конкретны и понятны, а инструменты для обработки сырых данных должны быть просты в использовании.

Следует отметить, что методы Data Mining являются развитием традиционной математической статистики. Однако методы математической статистики используются главным образом для заранее сформулированных гипотез.

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой законо­мерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Примеры заданий на такой поиск при использовании Data Mining могут быть следующими:

· Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?

· Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К информационному сообществу пришло понимание того, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки полезной информации.

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в раз­личных сферах человеческой деятельности.

Уровни данных, извлекаемые из данных, показаны на рисунке 1.3.

 

Рис. 1.3.

Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня используются там, где развиваются проекты хранилищ данных (Data Warehousing).

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Они осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.

Можно привести примеры некоторых возможных бизнес-приложения Data Mining.

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

· Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

· Исследование временных шаблонов помогает торговым предприятиям прини­мать решения о создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он ве­роятнее всего купит новые батарейки и пленку?».

· Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определен­ным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направ­ленных, экономичных мероприятий по продвижению товаров.

Достижения технологии Data Mining используются в банковском деле для реше­ния следующих распространенных задач:

· Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявля­ет некоторые стереотипы такого мошенничества.

· Сегментация клиентов. Разбивая клиентов на различные категории, банки де­лают свою маркетинговую политику более целенаправленной и результатив­ной, предлагая различные виды услуг разным группам клиентов.

· Прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.

В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных ме­роприятий отметим следующие:

· Анализ записей о подробных характеристиках вызовов. Назначение такого ана­лиза — выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг.

· Выявление лояльности клиентов. Data Mining можно использовать для опре­деления характеристик клиентов, которые, один раз воспользовавшись услу­гами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.

Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:

· Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате cтрахового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

· Анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

В литературе по Data Mining можно найти много других примеров для различных сфер деятельности.