Data Mining и Business Intelligence. Многомерные представления Data Mining. Data Mining: общая классификация. Функциональные возможности Data Mining.
Многомерные представления Data Mining
Данные для DM
реляционные, хранилища данных, транзакционные, потоки данных, объектно-ориентированные, активные, пространственные, временные ряды, текстовые, мультимедийные, гетерогенные, иерархическое наследование, WWW
Результаты DM
Характеристика, дискриминация, ассоциация, классификация, объединение в кластеры, тенденция/отклонение, анализ изолированной части, и т.д.
Многократные/интегрированные функции и добыча знаний на различных уровнях
Технологии
СУБД-ориентированные, хранилища данных (OLAP), машинное обучение, статистика, визуализация, и т.д.
Приложения
Розничные продажи, телекоммуникации, банковское дело, анализ мошенничества, частотное распределение, биоинформатика, анализ фондового рынка, анализ текстов, анализ Веба и т.д.
Data Mining: общая классификация
-Функциональные возможности
-Описательный поиск данных
-Прогнозирующий поиск данных
-Различные представления приводят к различным классификациям
-Представление данных: Виды данных, которые будут добыты
-Представление знаний: Виды знания, которые будут обнаружены
-Представление методов: Виды использованных методов
-Представление приложений: Виды адаптированных приложений
Функциональные возможности Data Mining
-Многомерное описание понятия: Характеристика и дискриминация
-Сделайте вывод, подведите итог; контрастные особенности данных, например, сухой климат области против влажных областей
-Частые паттерны (образцы), ассоциация, корреляция против причинной связи
-Сеть Пиво [0.5%, 75%] (Корреляция или причинная связь?)
-Классификация и предсказание
-Модели конструкции (функции), которые описывают и отличают классы или понятия для будущего предсказания
-Предсказание некоторых неизвестных или недостающих численных значений
-Кластерный анализ
--Метка класса неизвестна: данные о группах, чтобы сформировать новые классы, например, кластеры зданий (чтобы найти образцы распределения)
--Максимизация подобия внутри класса и минимизация подобия между классами (минимизация различий внутри класса и максимизация различий между классами)
-Анализ изолированной части
--Изолированная часть: Объект данных, который не попадает под общую характеристику (поведение) данных
--Шум или исключение? Бывает полезен при обнаружении мошенничества, анализе редких случаев и т.д.
-Тенденция и анализ развития
--Тренд и девиация (тенденция и отклонение): например, регрессионный анализ
--Частотный анализ паттернов: например, цифровая камера * увеличение SD памяти
--Анализ периодичности
--Анализ подобий (анализ симилярий)
-Другие направления анализа или статистические исследования