Поняття Data Mining

І рр.

І рр.

І рр.

І рр.

Поняття Машинного навчання

Єдиного визначення машинного навчання на сьогоднішній день немає.

Машинне навчання можна охарактеризувати як процес одержання програмою нових знань. Мітчел в 1996 році дав таке визначення: "Машинне навчання – це наука, що вивчає комп'ютерні алгоритми, які автоматично поліпшуються під час роботи".

Одним з найбільш популярних прикладів алгоритму машинного навчання є нейронні мережі.

 

Штучний інтелект – науковий напрямок, у рамках якого ставляться й вирішуються завдання апаратного або програмного моделювання видів людської діяльності, що традиційно вважаються інтелектуальними.

Термін інтелект (intelligence) походить від латинського intellectus, що означає розум та розумові здібності людини.

Відповідно, штучний інтелект (AI, Artificial Intelligence) тлумачиться як властивість автоматичних систем які беруть на себе окремі функції інтелекту людини. Штучним інтелектом називають властивість інтелектуальних систем виконувати творчі функції, які традиційно вважаються прерогативою людини.

Кожний з напрямків, що сформували Data Mining, має свої особливості. Проведемо порівняння з деякими з них.

 

2. Порівняння статистики, машинного навчання та Data Mining

 

Статистика

Ø Більш, ніж Data Mining, базується на теорії.

Ø Більше зосереджується на перевірці гіпотез.

Машинне навчання

Ø Більше евристично.

Ø Концентрується на поліпшенні роботи агентів навчання.

Data Mining

Ø Інтеграція теорії та евристик.

Ø Сконцентрована на єдиному процесі аналізу даних, включає очищення даних, навчання, інтеграцію та візуалізацію результатів.

 

Поняття Data Mining тісно пов'язане з технологіями баз даних і поняттям дані, які будуть докладно розглянуті в наступній лекції.

 

Розвиток технології баз даних

 

 

У 1968 році була введена в експлуатацію перша промислова СУБД система IMS фірми IBM.

 

 

У 1975 році з'явився перший стандарт асоціації по мовах систем обробки даних – Conference on Data System Languages (CODASYL), що визначив ряд фундаментальних понять у теорії систем баз даних, які дотепер є основними для мережної моделі даних. У подальший розвиток теорії баз даних великий внесок був зроблений американським математиком Є.Ф. Коддом, що є творцем реляційної моделі даних.

 

 

Протягом цього періоду багато дослідників експериментували з новим підходом у напрямках структуризації баз даних і забезпечення до них доступу. Метою цих пошуків було одержання реляційних прототипів для більш простого моделювання даних. У результаті, в 1985 році була створена мова, названа SQL. На сьогоднішній день практично всі СУБД забезпечують даний інтерфейс.

 

 

З'явилися специфічні типи даних – "графічний образ", "документ", "звук", "карта". Типи даних для часу, інтервалів часу, символьних рядків із двобайтовим поданням символів були додані в мову SQL. З'явилися технології DataMining, сховища даних, мультимедійні бази даних та web-бази даних.

 

Виникнення та розвиток Data Mining обумовлений різними факторами, основні серед яких є наступні:

Ø удосконалювання апаратного та програмного забезпечення;

Ø удосконалювання технологій зберігання та запису даних;

Ø нагромадження великої кількості ретроспективних даних;

Ø удосконалювання алгоритмів обробки інформації.

 

 

Data Mining – це процес підтримки прийняття рішень, заснований на пошуку в даних схованих закономірностей (шаблонів інформації).

Технологію Data Mining досить точно визначає Григорій Піатецький-Шапіро (Gregory Piatetsky-Shapiro) – один із засновників цього напрямку:

Data Mining – це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних та доступних інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності.

Суть і ціль технології Data Mining можна охарактеризувати так: це технологія, що призначена для пошуку у великих обсягах даних неочевидних, об'єктивних та корисних на практиці закономірностей.

Неочевидних – це значить, що винайдені закономірності не знаходяться стандартними методами обробки інформації або експертним шляхом.

Об'єктивних – це значить, що виявлені закономірності будуть повністю відповідати дійсності, на відміну від експертної думки, яка завжди є суб'єктивною.

Практично корисних – це значить, що висновки мають конкретне значення, якому можна знайти практичне застосування.

Знання – сукупність відомостей, що утворить цілісний опис, що відповідає деякому рівню поінформованості про описуване питання, предмет, проблемі і т.д.

Використання знань (knowledge deployment) означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, у конкурентній боротьбі за ринок).

 

Приведемо ще кілька визначень поняття Data Mining.

 

Data Mining – це процес виділення з даних неявної й неструктурованої інформації й подання її у вигляді, придатному для використання.

Data Mining – це процес виділення, дослідження й моделювання великих обсягів даних для виявлення невідомих до цього структур (patterns) з метою досягнення переваг у бізнесі (визначення SAS Institute).

Data Mining – це процес, ціль якого – виявити нові значимі кореляції, зразки й тенденції в результаті просівання великого обсягу збережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення Gartner Group).

В основу технології Data Mining покладена концепція шаблонів (patterns), які являють собою закономірності, властиві подвыборкам даних, які можуть бути виражені у формі, зрозумілої людині.

"Mining" по-англійському означає "видобуток корисних копалин", а пошук закономірностей у величезній кількості даних дійсно те саме що цей процес.

Ціль пошуку закономірностей – подання даних у вигляді, що відбиває шукані процеси. Побудова моделей прогнозування також є метою пошуку закономірностей.

 

Data Mining як частина ринку інформаційних технологій

 

Класифікація аналітичних систем

 

Агентство Gartner Group, що займається аналізом ринків інформаційних технологій, в 1980-х роках ввело термін "Business Intelligence" (BI), діловий інтелект або бізнес-інтелект. Цей термін, запропонований для опису різних концепцій і методів, які поліпшують бізнес рішення шляхом використання систем підтримки прийняття рішень.

В 1996 році агентство уточнило визначення даного терміна.

Business Intelligence – програмні засоби, що функціонують у рамках підприємства і які забезпечують функції доступу й аналізу інформації, що перебуває в сховищі даних, а також забезпечують прийняття правильних й обґрунтованих управлінських рішень.

Поняття BI поєднує в собі різні засоби й технології аналізу та обробки даних масштабу підприємства.

На основі цих засобів створюються BI-системи, ціль яких – підвищити якість інформації для прийняття управлінських рішень.

BI-системи також відомі за назвою Систем Підтримки Прийняття Рішень (СППР, DSS, Decision Support System). Ці системи перетворюють дані в інформацію, на основі якої можна приймати рішення, тобто підтримуюче прийняття рішень.

Gartner Group визначає склад ринку систем Business Intelligence як набір програмних продуктів наступних класів:

Ø засоби побудови сховищ даних (data warehousing, ХД);

Ø системи оперативної аналітичної обробки (OLAP);

Ø інформаційно-аналітичні системи (Enterprise Information Systems, EIS);

Ø засоби інтелектуального аналізу даних (data mining);

Ø інструменти для виконання запитів і побудови звітів (query and reporting tools).

Класифікація Gartner базується на методі функціональних завдань, де програмні продукти кожного класу виконують певний набір функцій або операцій з використанням спеціальних технологій.

 

Думка експертів про Data Mining

 

Приведемо кілька коротких цитат найбільш впливових членів бізнесів-співтовариств, які є експертами в цій відносно новій технології.

Посібник із придбання продуктів Data Mining (Enterprise Data Mining Buying Guide) компанії Aberdeen Group: "Data Mining – технологія видобутку корисної інформації з баз даних. Однак у зв'язку з істотними розходженнями між інструментами, досвідом і фінансовим станом постачальників продуктів, підприємствам необхідно ретельно оцінювати передбачуваних розробників Data Mining і партнерів.

Щоб максимально використати потужність масштабованих інструментів Data Mining комерційного рівня, підприємству необхідно вибрати, очистити та перетворити дані, іноді інтегрувати інформацію, добуту із зовнішніх джерел, і встановити спеціальне середовище для роботи Data Mining алгоритмів.

Результати Data Mining у великій мері залежать від рівня підготовки даних, а не від "чудесних можливостей" якогось алгоритму або набору алгоритмів. Близько 75% роботи над Data Mining складається в зборі даних, що відбувається ще до того, як запускаються самі інструменти. Неграмотно застосувавши деякі інструменти, підприємство може безглуздо розтратити свій потенціал, а іноді й мільйони доларів".

Думка Херба Эдельштайна (Herb Edelstein), відомого у світі експерта в області Data Mining, Сховищ даних й CRM: "Недавнє дослідження компанії Two Crows показало, що Data Mining перебуває усе ще на ранній стадії розвитку. Багато організацій цікавляться цією технологією, але лише деякі активно впроваджують такі проекти. Удалося з'ясувати ще один важливий момент: процес реалізації Data Mining на практиці виявляється більше складним, чим очікується.

IT-команди захопилися міфом про те, що засоби Data Mining прості у використанні. Передбачається, що досить запустити такий інструмент на терабайтній базі даних, і моментально з'явиться корисна інформація. Насправді, успішний Data Mining-проект вимагає розуміння суті діяльності, знання даних та інструментів, а також процесу аналізу даних".

Перш ніж використати технологію Data Mining, необхідно ретельно проаналізувати її проблеми, обмеження й критичні питання, з нею зв'язані, а також зрозуміти, чого ця технологія не може.

Data Mining не може замінити аналітика

Технологія не може дати відповіді на ті питання, які не були задані. Вона не може замінити аналітика, а всього лише дає йому потужний інструмент для полегшення та поліпшення його роботи.

Складність розробки й експлуатації додатка Data Mining

Оскільки дана технологія є мультидисциплінарною областю, для розробки додатка, що включає Data Mining, необхідно задіяти фахівців з різних областей, а також забезпечити їхню якісну взаємодію.

Кваліфікація користувача

Різні інструменти Data Mining мають різний ступінь "дружелюбності" інтерфейсу та вимагають певної кваліфікації користувача. Тому програмне забезпечення повинне відповідати рівню підготовки користувача. Використання Data Mining повинне бути нерозривно пов'язане з підвищенням кваліфікації користувача. Однак фахівців з Data Mining, які б добре розбиралися в бізнесі, поки ще мало.

Витяг корисних відомостей неможливо без гарного розуміння суті даних

Необхідний ретельний вибір моделі та інтерпретація залежностей або шаблонів, які виявлені. Тому робота з такими засобами вимагає тісного співробітництва між експертом у предметній області й фахівцем з інструментів Data Mining. Побудовані моделі повинні бути грамотно інтегровані в бізнес-процеси для можливості оцінки й відновлення моделей. Останнім часом системи Data Mining поставляються як частина технології сховищ даних.

Складність підготовки даних

Успішний аналіз вимагає якісної попередньої обробки даних. За твердженням аналітиків і користувачів баз даних, процес попередньої обробки може зайняти до 80% відсотків усього Data Mining-процесу.

Таким чином, щоб технологія працювала на себе, необхідно багато зусиль і часу, які йдуть на попередній аналіз даних, вибір моделі і її коректування.

Великий відсоток помилкових, недостовірних або безглуздих результатів

За допомогою Data Mining можна відшукувати дійсно дуже коштовну інформацію, що незабаром дасть більші дивіденди у вигляді фінансової й конкурентної вигоди.

Однак Data Mining досить часто робить безліч помилкових і не маючих змісту відкриттів. Багато фахівців стверджують, що Data Mining-засоби можуть видавати величезну кількість статистично недостовірних результатів. Щоб цього уникнути, необхідна перевірка адекватності отриманих моделей на тестових даних.

Висока вартість

Якісна Data Mining-програма може коштувати досить дорого для компанії. Варіантом служить придбання вже готового рішення з попередньою перевіркою його використання, наприклад на демо-версії з невеликою вибіркою даних.

Наявність достатньої кількості репрезентативних даних

Засоби Data Mining, на відміну від статистичних, теоретично не вимагають наявності строго певної кількості ретроспективних даних. Ця особливість може стати причиною виявлення недостовірних, помилкових моделей й, як результат, прийняття на їхній основі невірних рішень. Необхідно здійснювати контроль статистичної значимості виявлених знань.

 

4. Відмінності Data Mining від інших методів аналізу даних

Традиційні методи аналізу даних (статистичні методи) і OLAP в основному орієнтовані на перевірку заздалегідь сформульованих гіпотез (verification-driven data mining) і на "грубий" розвідницький аналіз, що становить основу оперативної аналітичної обробки даних (OnLine Analytical Processing, OLAP), у той час як одне з основних положень Data Mining – пошук неочевидних закономірностей. Інструменти Data Mining можуть знаходити такі закономірності самостійно й також самостійно будувати гіпотези про взаємозв'язки. Оскільки саме формулювання гіпотези щодо залежностей є самим складним завданням, перевага Data Mining у порівнянні з іншими методами аналізу є очевидним.

Більшість статистичних методів для виявлення взаємозв'язків у даних використають концепцію усереднення по вибірці, що приводить до операцій над неіснуючими величинами, тоді як Data Mining оперує реальними значеннями.

OLAP більше підходить для розуміння ретроспективних даних, Data Mining опирається на ретроспективні дані для одержання відповідей на питання про майбутнє.

Перспективи технології Data Mining

Потенціал Data Mining дає "зелене світло" для розширення границь застосування технології. Щодо перспектив Data Mining можливі наступні напрямки розвитку:

Ø виділення типів предметних областей з відповідними їм евристиками, формалізація яких полегшить вирішення відповідних завдань Data Mining, що ставляться до цих областей;

Ø створення формальних мов і логічних засобів, за допомогою яких буде формалізовані міркування та автоматизація яких стане інструментом вирішення завдань Data Mining у конкретних предметних областях;

Ø створення методів Data Mining, здатних не тільки витягати з даних закономірності, але й формувати якісь теорії, що опираються на емпіричні дані;

Ø подолання істотного відставання можливостей інструментальних засобів Data Mining від теоретичних досягнень у цій області.

Якщо розглядати майбутнє Data Mining у короткостроковій перспективі, то очевидно, що розвиток цієї технології найбільш спрямовано до областей, пов'язаним з бізнесом.

У короткостроковій перспективі продукти Data Mining можуть стати такими ж звичайними й необхідними, як електронна пошта, і, наприклад, використання користувачами для пошуку найнижчих цін на певний товар або найбільш дешевих квитків.

У довгостроковій перспективі майбутнє Data Mining є дійсно захоплюючим – це може бути пошук інтелектуальними агентами як нових видів лікування різних захворювань, так і нового розуміння природи всесвіту.

Однак Data Mining таїть у собі й потенційну небезпеку – адже все більша кількість інформації стає доступнішою через всесвітню мережу, у тому числі й відомості приватного характеру, і усе більше знань можливо добути саме із неї:

Не дуже давно найбільший онлайновый магазин "Amazon" виявився в центрі скандалу із приводу отриманого їм патенту "Методи та системи допомоги користувачам при покупці товарів", що являє собою не що інше як черговий продукт Data Mining, призначений для збору персональних даних про відвідувачів магазина. Нова методика дозволяє прогнозувати майбутні запити на підставі фактів покупок, а також робити висновки про їхнє призначення. Ціль даної методики – те, про що говорилося вище – одержання як можна більшої кількості інформації про клієнтів, у тому числі й частки характеру (стать, вік, переваги і т.д.). Таким чином, збираються дані про приватне життя покупців магазина, а також членів їхніх родин, включаючи дітей. Останнє заборонено законодавством багатьох країн – збір інформації про неповнолітні можливий там тільки з дозволу батьків.

Дослідження відзначають, що існують як успішні рішення, що використають Data Mining, так і невдалий досвід застосування цієї технології. Області, де застосування технології Data Mining, швидше за все, будуть успішними, мають такі особливості:

Ø вимагають рішень, заснованих на знаннях;

Ø мають навколишнє середовище, що змінюється;

Ø мають доступні, достатні й значимі дані;

Ø забезпечують високі дивіденди від правильних рішень.

Існуючі підходи до аналізу

Досить довго дисципліна Data Mining не визнавалася повноцінною самостійною областю аналізу даних, іноді неї називають "задвірками статистики" (Pregibon, 1997).

На сьогоднішній день визначилося кілька точок зору на Data Mining. Прихильники однієї з них уважають його міражем, що відволікає увагу від класичного аналізу даних. Прихильники іншого напрямку – це ті, хто приймає Data Mining як альтернативу традиційному підходу до аналізу. Є й середина, де розглядається можливість спільного використання сучасних досягнень в області Data Mining і класичному статистичному аналізі даних.

Технологія Data Mining постійно розвивається, залучає до себе все більший інтерес як з боку наукового світу, так і з боку застосування досягнень технології в бізнесі.

Щорічно проводиться безліч наукових і практичних конференцій, присвячених Data Mining, одна йз яких – Міжнародна конференція по Knowledge Discovery Data Mining (International Conferences on Knowledge Discovery and Data Mining).

Серед найбільш відомих WWW-джерел – сайт www.kdnuggets.com, що веде один із засновників Data Mining Григорій Піатецький-Шапіро.

Періодичні видання по Data Mining: Data Mining and Knowledge Discovery, KDD Explorations, ACM-TODS, IEEE-TKDE, JIIS, J. ACM, Machine Learning, Artificial Intelligence.

Матеріали конференцій: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, Machine learning (ICML), AAAI, IJCAI, COLT (Learning Theory).