Що треба знати про data mining. Data Mining – видобуток даних. Методи Data Mining

Засоби Data Mining

В даний час технологія Data Mining представлена ​​цілим рядом комерційних програмних продуктів, що вільно розповсюджуються. Досить повний та регулярно оновлюваний список цих продуктів можна знайти на сайті www. kdnuggets. com, присвяченому Data Mining. Класифікувати програмні продукти Data Mining можна за тими самими принципами, що є основою класифікації самої технології. Однак подібна класифікація не матиме практичної цінності. Внаслідок високої конкуренції на ринку та прагнення до повноти технічних рішень багато продуктів Data Mining охоплюють буквально всі аспекти застосування аналітичних технологій. Тому доцільніше класифікувати продукти Data Mining у тому, як вони реалізовані і, який потенціал для інтеграції вони надають. Очевидно, що це умовність, оскільки такий критерій не дозволяє окреслити чіткі межі між продуктами. Однак у подібній класифікації є одна безперечна перевага. Вона дозволяє швидко ухвалити рішення про вибір того чи іншого готового рішення при ініціалізації проектів у галузі аналізу даних, розробки систем підтримки прийняття рішень, створення сховищ даних тощо.

Отже, продукти Data Mining умовно можна поділити на три великі категорії:

    вхідні, як невід'ємна частина, системи управління базами даних;

    бібліотеки алгоритмів Data Mining із супутньою інфраструктурою;

    коробкові чи настільні рішення ("чорні ящики").

Продукти перших двох категорій надають найбільші можливості для інтеграції та дозволяють реалізувати аналітичний потенціал практично у будь-якому додатку у будь-якій галузі. Коробкові програми, у свою чергу, можуть надавати деякі унікальні досягнення в області Data Mining або бути спеціалізованими для будь-якої конкретної сфери застосування. Однак у більшості випадків їх проблематично інтегрувати у ширші рішення.

Включення аналітичних здібностей до складу комерційних систем управління базами даних є закономірною і має величезний потенціал тенденцією. Дійсно, де, як не в місцях концентрації даних, має найбільше значення розміщувати засоби їх обробки. Виходячи з цього принципу, функціональність Data Mining зараз реалізована в наступних комерційних базах даних:

    Microsoft SQL Server;

Основні тези

  • Інтелектуальний аналіз даних дозволяє автоматично, ґрунтуючись на велику кількість накопичених даних, генерувати гіпотези, які можуть бути перевірені іншими засобами аналізу (наприклад, OLAP).

    Data Mining - дослідження та виявлення машиною (алгоритмами, засобами штучного інтелекту) у сирих даних прихованих знань, які раніше не були відомі, нетривіальні, практично корисні та доступні для інтерпретації людиною.

    Методами Data Mining вирішуються три основні завдання: задача класифікації та регресії, задача пошуку асоціативних правил та задача кластеризації. За призначенням вони поділяються на описові та передбачувальні. За способами вирішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без вчителя).

    Завдання класифікації та регресії зводиться до визначення значення залежної змінної об'єкта за його незалежним змінним. Якщо залежна змінна набуває чисельних значень, то говорять про завдання регресії, інакше - про завдання класифікації.

    p align="justify"> При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Знайдені залежності видаються як правил і можна використовувати як кращого розуміння природи аналізованих даних, так передбачення подій.

    Завдання кластеризації полягає в пошуку незалежних груп (кластерів) та їх характеристик у всій кількості аналізованих даних. Вирішення цього завдання допомагає краще зрозуміти дані. Крім того, угруповання однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз.

    Методи Data Mining перебувають у стику різних напрямів інформаційних технологій: статистики, нейронних мереж, нечітких множин, генетичних алгоритмів та інших.

    Інтелектуальний аналіз включає такі етапи: розуміння і формулювання завдання аналізу, підготовка даних для автоматизованого аналізу, застосування методів Data Mining і побудова моделей, перевірка побудованих моделей, інтерпретація моделей людиною.

    Перед застосуванням методів Data Mining вихідні дані мають бути перетворені. Вид перетворень залежить від методів, що застосовуються.

    Методи Data Mining можуть ефективно використовуватися у різних галузях людської діяльності: у бізнесі, медицині, науці, телекомунікаціях тощо.

3. Аналіз текстової інформації – Text Mining

Аналіз структурованої інформації, що зберігається в базах даних, вимагає попередньої обробки: проектування БД, введення інформації за певними правилами, розміщення її у спеціальних структурах (наприклад, реляційних таблицях) тощо. Таким чином, безпосередньо для аналізу цієї інформації та отримання з неї нових знань необхідно витратити на додаткові зусилля. У цьому вони завжди пов'язані з аналізом і обов'язково призводять до бажаного результату. Через це ККД аналізу структурованої інформації знижується. Крім того, не всі види даних можна структурувати без втрати корисної інформації. Наприклад, текстові документи практично неможливо перетворити на табличне уявлення без втрати семантики тексту та відносин між сутностями. Тому такі документи зберігаються в БД без перетворень, як текстові поля (BLOB-поля). Водночас у тексті приховано величезну кількість інформації, але її неструктурованість не дозволяє використовувати алгоритми Data Mining. Вирішенням цієї проблеми займаються методи аналізу неструктурованого тексту. У західній літературі такий аналіз називають Text Mining.

Методи аналізу у неструктурованих текстах лежать з кінця кількох областей: Data Mining, обробка природних мов, пошук інформації, вилучення інформації та управління знаннями.

Визначення Text Mining: Виявлення знань у тексті – це нетривіальний процес виявлення справді нових, потенційно корисних та зрозумілих шаблонів у неструктурованих текстових даних.

Як бачимо, від визначення Data Mining воно відрізняється лише новим поняттям "неструктуровані текстові дані". Під такими знаннями розуміється набір документів, що є логічно об'єднаний текст без будь-яких обмежень з його структуру. Прикладами таких документів є web-сторінки, електронна пошта, нормативні документи іт. п. У загальному випадку такі документи можуть бути складними і великими і включати не лише текст, а й графічну інформацію. Документи, що використовують мову розширюваної розмітки XML (extensible Markup Language), стандартну мову узагальненої розмітки SGML (Standard Generalised Markup Language) та інші подібні угоди щодо структури формування тексту, прийнято називати напівструктурованими документами. Вони можуть бути оброблені методами Text Mining.

Процес аналізу текстових документів можна подати як послідовність кількох кроків

    Пошук інформації. На першому кроці необхідно ідентифікувати, які документи мають бути аналізовані, і забезпечити їх доступність. Як правило, користувачі можуть визначити набір аналізованих документів самостійно – вручну, але за великої кількості документів необхідно використовувати варіанти автоматизованого відбору за заданими критеріями.

    Попереднє опрацювання документів. На цьому кроці виконуються найпростіші, але необхідні перетворення з документами для їх подання у вигляді, з яким працюють методи Text Mining. Метою таких перетворень є видалення зайвих слів та надання тексту суворішої форми. Докладніше методи попередньої обробки будуть описані в розд.

    Вилучення інформації. Вилучення інформації з обраних документів передбачає виділення у яких ключових понять, з яких надалі виконуватиметься аналіз.

Використання методів Text Mining. На цьому кроці витягуються шаблони та стосунки, які є в текстах. Цей крок є основним у процесі аналізу текстів, і практичні завдання, які вирішуються цьому кроці.

Інтерпретація результатів. Останній крок у процесі виявлення знань передбачає інтерпретацію одержаних результатів. Як правило, інтерпретація полягає або у поданні результатів природною мовою, або їх візуалізації в графічному вигляді.

Візуалізація може бути використана як засіб аналізу тексту. Для цього витягуються ключові поняття, які і подаються у графічному вигляді. Такий підхід допомагає користувачеві швидко ідентифікувати головні теми та поняття, а також визначити їхню важливість.

Попередня обробка тексту

Однією з головних проблем аналізу текстів є багато слів у документі. Якщо кожне з цих слів аналізувати, час пошуку нових знань різко зросте і навряд чи задовольнятиме вимогам користувачів. В той же час очевидно, що не всі слова в тексті мають корисну інформацію. Крім того, через гнучкість природних мов формально різні слова (синоніми тощо) насправді означають однакові поняття. Таким чином, видалення неінформативних слів, а також приведення близьких до змісту слів до єдиної форми значно скорочують час аналізу текстів. Усунення цих проблем виконується на етапі попередньої обробки тексту.

Зазвичай використовують такі прийоми видалення неінформативних слів та підвищення суворості текстів:

    Видалення стоп-слів. Стоп-словами називаються слова, які є допоміжними і мало інформації про зміст документа.

    Стеммінг-морфологічний пошук. Він полягає у перетворенні кожного слова до його нормальної форми.

    Л-грами це альтернатива морфологічному розбору та видалення стоп-слів. Дозволяють зробити текст суворішим, не вирішують проблему зменшення кількості неінформативних слів;

    Приведення регістру. Цей прийом полягає у перетворенні всіх символів до верхнього або нижнього регістру.

Найефективніше спільне застосування перерахованих методів.

Завдання Text Mining

Нині у літературі описано багато прикладних завдань, розв'язуваних з допомогою аналізу текстових документів. Це і класичні завдання Data Mining: класифікація, кластеризація, і характерні лише для текстових документів задачі: автоматичне анотування, вилучення ключових понять та ін.

Класифікація (classification) - стандартне завдання області Data Mining. Її метою є визначення кожного документа однієї чи кількох заздалегідь заданих категорій, яких цей документ належить. Особливістю завдання класифікації є припущення, що безліч класифікованих документів не містить "сміття", тобто кожен із документів відповідає якійсь заданій категорії.

Окремим випадком завдання класифікації є завдання визначення тематики документа.

Метою кластеризації (clustering) документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Зазначимо, що групи формуються лише з основі попарної схожості описів документів, і жодні характеристики цих груп задаються заздалегідь.

Автоматичне анотування (summarization) дозволяє скоротити текст, зберігаючи його зміст. Вирішення цієї задачі зазвичай регулюється користувачем за допомогою визначення кількості запропонованих пропозицій або відсотком тексту, що видобувається по відношенню до всього тексту. Результат включає найбільш значущі пропозиції в тексті.

Первинною метою отримання кчючових понять (feature extraction) є ідентифікація фактів і в тексті. У більшості випадків такими поняттями є іменники та номінальні: імена та прізвища людей, назви організацій та ін. Алгоритми вилучення понять можуть використовувати словники, щоб ідентифікувати деякі терміни та лінгвістичні шаблони для визначення інших.

Навігація за текстом (text-base navigation) дозволяє користувачам переміщатися документами щодо тих значних термінів. Це виконується за рахунок ідентифікації ключових понять та деяких відносин між ними.

Аналіз трендів дозволяє ідентифікувати тренди у наборах документів на певний період. Тренд може бути використаний, наприклад, виявлення змін інтересів компанії від одного сегмента ринку до іншого.

Пошук асоціацій також є одним із основних завдань Data Mining. Для її вирішення у заданому наборі документів ідентифікуються асоціативні відносини між ключовими поняттями.

Існує досить багато різновидів перелічених завдань, і навіть методів їх вирішення. Це вкотре підтверджує важливість аналізу текстів. Далі у цьому розділі розглядаються рішення наступних завдань: вилучення ключових понять, класифікація, кластеризація та автоматичне анотування.

Класифікація текстових документів

Класифікація текстових документів, як і у разі класифікації об'єктів полягає у віднесенні документа до одного із заздалегідь відомих класів. Часто класифікацію стосовно текстових документів називають категоризацією чи рубрикацією. Очевидно, що дані назви походять від задачі систематизації документів за каталогами, категоріями та рубриками. При цьому структура каталогів може бути як однорівневою, так і багаторівневою (ієрархічною).

Формально завдання класифікації текстових документів описують набором множин.

У задачі класифікації потрібно на основі цих даних побудувати процедуру, яка полягає в знаходженні найбільш ймовірної категорії з множини для досліджуваного документа.

Більшість методів класифікації текстів так чи інакше ґрунтуються на припущенні, що документи, що належать до однієї категорії, містять однакові ознаки (слова чи словосполучення), та наявність чи відсутність таких ознак у документі свідчить про його належність чи неприналежність до тієї чи іншої теми.

Така безліч ознак часто називають словником, тому що воно складається з лексем, які включають слова та/або словосполучення, що характеризують категорію.

Слід зазначити, що ці набори ознак є відмінністю класифікації текстових документів від класифікації об'єктів у Data Mining, які характеризуються набором атрибутів.

Рішення про віднесення документа d до категорії с приймається на підставі перетину загальних ознак

Завдання методів класифікації полягає в тому, щоб найкраще вибрати такі ознаки та сформулювати правила, на основі яких прийматиметься рішення про віднесення документа до рубрики.

Засоби аналізу текстової інформації

    Засоби Oracle - Oracle Text2

Починаючи з версії Oracle 7.3.3, засоби текстового аналізу є невід'ємною частиною продуктів Oracle. У Oracle ці кошти розвинулися і отримали нову назву-Oracle Text-програмний комплекс, інтегрований в СУБД, що дозволяє ефективно працювати з запитами, що стосуються неструктурованих текстів. При цьому обробка тексту поєднується з можливостями, наданими користувачеві для роботи з реляційними базами даних. Зокрема, при написанні програм для обробки тексту стало можливим використання SQL.

Основним завданням, на вирішення якого націлені кошти Oracle Text, є завдання пошуку документів за їх змістом - за словами чи фразами, які при потребі комбінуються з використанням булевих операцій. Результати пошуку ранжуються за значимістю, з урахуванням частоти слів запиту в знайдених документах.

    Інструменти IBM - Intelligent Miner for Text1

Продукт фірми IBM Intelligent Miner for Text є набір окремих утиліт, що запускаються з командного рядка або зі скриптів незалежно один від одного. Система містить об'єднання деяких утиліт для вирішення завдань аналізу текстової інформації.

IBM Intelligent Miner for Text поєднує потужну сукупність інструментів, що базуються в основному на механізмах пошуку інформації (information retrieval), що є специфікою всього продукту. Система складається з ряду базових компонентів, які мають самостійне значення поза межами технології Text Mining:

    Засоби SAS Institute - Text Miner

Американська компанія SAS Institute випустила систему SAS Text Miner для порівняння певних граматичних та словесних рядів у письмовій мові. Text Miner дуже універсальна, оскільки може працювати з текстовими документами різних форматів – у базах даних, файлових системах і далі у web.

Text Miner забезпечує логічну обробку тексту серед пакету SAS Enterprise Miner. Це дозволяє користувачам збагачувати процес аналізу даних, інтегруючи неструктуровану текстову інформацію з існуючими структурованими даними, такими як вік, дохід та характер купівельного попиту.

Основні тези

    Виявлення знань у тексті - це нетривіальний процес виявлення справді нових, потенційно корисних та зрозумілих шаблонів у неструктурованих текстових даних.

    Процес аналізу текстових документів можна як послідовність кількох кроків: пошук інформації, попередня обробка документів, вилучення інформації, застосування методів Text Mining, інтерпретація результатів.

    Зазвичай використовують такі прийоми видалення неінформативних слів та підвищення суворості текстів: видалення стоп-слів, стемінг, Л-грами, приведення регістру.

    Завданнями аналізу текстової інформації є: класифікація, кластеризація, автоматичне анотування, отримання ключових понять, навігація по тексту, аналіз трендів, пошук асоціацій та ін.

    Вилучення ключових понять із текстів може розглядатися і як окреме прикладне завдання, і як окремий етап аналізу текстів. У разі вилучені з тексту факти застосовуються на вирішення різних завдань аналізу.

    Процес вилучення ключових понять за допомогою шаблонів виконується у дві стадії: на першій із текстових документів витягуються окремі факти за допомогою лексичного аналізу, на другій стадії виконується інтеграція вилучених фактів та/або виведення нових фактів.

    Більшість методів класифікації текстів так чи інакше ґрунтуються на припущенні, що документи, що належать до однієї категорії, містять однакові ознаки (слова чи словосполучення), та наявність чи відсутність таких ознак у документі свідчить про його належність чи неприналежність до тієї чи іншої теми.

    Більшість алгоритмів кластеризації вимагають, щоб дані були представлені у вигляді моделі векторного простору, яка широко застосовується для інформаційного пошуку та використовує метафору для відображення семантичної подоби як просторової близькості.

    Виділяють два основні підходи до автоматичного анотування текстових документів: вилучення (виділення найважливіших фрагментів) та узагальнення (використання попередньо зібраних знань).

Висновок

Інтелектуальний аналіз даних є одним із найбільш актуальних та затребуваних напрямків прикладної математики. Сучасні процеси бізнесу та виробництва породжують величезні масиви даних, і людям стає все важче інтерпретувати та реагувати на велику кількість даних, які динамічно змінюються у часі виконання, не кажучи вже про попередження критичних ситуацій. «Інтелектуальний аналіз даних» отримати максимум корисних знань з багатовимірних, різнорідних, неповних, неточних, суперечливих, непрямих даних. Допомагає зробити це ефективно, якщо обсяг даних вимірюється гігабайтами чи навіть терабайтами. Допомагає будувати алгоритми, здатні навчатися прийняття рішень у різних професійних галузях.

Кошти «Інтелектуального аналізу даних» оберігають людей від інформаційного навантаження, переробляючи оперативні дані на корисну інформацію те щоб потрібні дії було прийнято у потрібні часи.

Прикладні розробки ведуться за такими напрямами: - прогнозування в економічних системах; автоматизація маркетингових досліджень та аналіз клієнтських середовищ для виробничих, торгових, телекомунікаційних та Інтернет-компаній; автоматизація прийняття кредитних рішень та оцінка кредитних ризиків; моніторинг фінансових ринків; автоматичні торговельні системи.

Список літератури

    «Технологія аналізу даних: Data Mining. Visual Mining. Text Mining, OLAP» А. А. Барсегян. M. С. Купріянов, В. В. Стенаненко, І. І. Холод. - 2-ге вид., перераб. та дод.

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - стаття інтернету

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технології аналізу даних

    Дипломна робота >> Банківська справа

    Позичальника з використанням кластерного, вербального аналізу, коригувальних коефіцієнтів і т.д., також... кредитоспроможності позичальника на основі інтелектуального аналізуданих Data Mining (з... На початковому етапі аналізупроводиться аналізвласних коштів та...

  1. Аналізта класифікація сучасного ринку інформаційних систем, що реалізують дискреційну,

    Реферат >> Інформатика

    1.3 Рольове розмежування 6 2. Порівняльний аналізрізних типів систем 7 Операційні системи... системи, що включає: аналізполітик безпеки та їх характеристик, ... додатків або реалізують більше інтелектуальний аналізданих. До того ж...

  2. Інтелектуальніздібності обдарованих дітей у зв'язку зі шкільною успішністю

    Дипломна робота >> Психологія

    Взаємозв'язок успішності та особливостей інтелектуальногорозвитку. На підставі теоретичного аналізупроблеми дослідження була... до інтелекту без аналізуйого психологічної структури. Вирішальною для оцінки інтелектуальнихздібностей є...

Видобуток даних (Data Mining)

Data Mining - це методологія і процес виявлення у великих масивах даних, що накопичуються в інформаційних системах компаній, раніше невідомих, нетривіальних, практично корисних та доступних для інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності. Data Mining є одним з етапів більш масштабної методології Knowledge Discovery in Databases.

Знання, виявлені у процесі Data Mining, мають бути нетривіальними і раніше невідомими. Нетривіальність передбачає, такі знання неможливо знайти виявлено шляхом простого візуального аналізу. Вони повинні описувати зв'язок між властивостями бізнес-об'єктів, передбачати значення одних ознак з урахуванням інших тощо. Знайдені знання мають бути застосовні і до нових об'єктів.

Практична корисність знань обумовлена ​​можливістю їх використання у процесі підтримки прийняття управлінських рішень та вдосконаленні діяльності підприємства.

Знання мають бути представлені у вигляді, зрозумілому для користувачів, які не мають спеціальної математичної підготовки. Наприклад, найпростіше сприймаються людиною логічні конструкції «якщо, то». Більш того, такі правила можуть бути використані в різних СУБД як SQL-запитів. У разі, коли видобуті знання непрозорі для користувача, повинні існувати методи постобробки, що дозволяють привести їх до виду, що інтерпретується.

Data Mining - це не один, а сукупність великої кількості різних методів виявлення знань. Всі завдання, які вирішуються методами Data Mining, можна умовно розбити на шість видів:

Data Mining носить мультидисциплінарний характер, оскільки включає елементи чисельних методів, математичної статистики та теорії ймовірностей, теорії інформації та математичної логіки, штучного інтелекту та машинного навчання.

Завдання бізнес-аналізу формулюються по-різному, але рішення більшості з них зводиться до того чи іншого завдання Data Mining або їх комбінації. Наприклад, оцінка ризиків – це вирішення задачі регресії чи класифікації, сегментація ринку – кластеризація, стимулювання попиту – асоціативні правила. Фактично завдання Data Mining є елементами, у тому числі можна «збирати» рішення більшості реальних бізнес-задач.

Для розв'язання вищезазначених завдань використовуються різні методи та алгоритми Data Mining. Зважаючи на те, що Data Mining розвивалася і розвивається на стику таких дисциплін, як математична статистика, теорія інформації, машинне навчання та бази даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних методів цих дисциплін. Наприклад, алгоритм кластеризації k-means був запозичений зі статистики.

Штучних нейронних мереж, генетичних алгоритмів, еволюційного програмування, асоціативної пам'яті, нечіткої логіки. До методів Data Mining нерідко відносять статистичні методи(дескриптивний аналіз, кореляційний та регресійний аналіз, факторний аналіз, дисперсійний аналіз, компонентний аналіз, дискримінантний аналіз, аналіз часових рядів). Такі методи, однак, припускають деякі апріорні уявлення про аналізовані дані, що дещо розходиться з цілями Data Mining(Виявлення раніше невідомих нетривіальних і практично корисних знань).

Одне з найважливіших призначень методів Data Mining полягає у наочному поданні результатів обчислень, що дозволяє використовувати інструментарій Data Mining людьми, які мають спеціальної математичної підготовки. У той же час застосування статистичних методів аналізу даних вимагає хорошого володіння теорією ймовірностей і математичною статистикою.

Вступ

Методи Data Mining (або, що те саме, Knowledge Discovery In Data, скорочено, KDD) лежать на стику баз даних, статистики та штучного інтелекту.

Історичний екскурс

Область Data Mining розпочалася з семінару (англ. workshop), проведеного Григорієм П'ятецьким-Шапіро у 1989 році.

Раніше, працюючи в компанії GTE Labs, Григорій П'ятецький-Шапіро зацікавився питанням: чи можна автоматично знаходити певні правила, щоб прискорити деякі запити до великих баз даних. Тоді ж було запропоновано два терміни - Data Mining ("видобуток даних") і Knowledge Discovery In Data (який слід перекладати як "відкриття знань у базах даних").

Постановка задачі

Спочатку завдання ставиться так:

  • є досить велика база даних;
  • передбачається, що у базі даних є деякі «приховані знання».

Необхідно розробити методи виявлення знань, прихованих у великих обсягах вихідних «сирих» даних.

Що означає «приховані знання»? Це мають бути обов'язково знання:

  • раніше не відомі - тобто такі знання, які мають бути новими (а не підтверджують якісь раніше отримані відомості);
  • нетривіальні - тобто такі, які не можна просто так побачити (при безпосередньому візуальному аналізі даних або обчисленні простих статистичних характеристик);
  • практично корисні - тобто такі знання, які становлять цінність для дослідника чи споживача;
  • доступні для інтерпретації - тобто такі знання, які легко уявити у наочній для користувача формі та легко пояснити у термінах предметної області.

Ці вимоги багато в чому визначають суть методів Data mining і те, в якому вигляді і в якому співвідношенні технології Data mining використовуються системи управління базами даних, статистичні методи аналізу та методи штучного інтелекту.

Data mining та бази даних

Методи Data mining має сенс застосовувати лише досить великих баз даних. У кожній конкретній галузі досліджень існує свій критерій «великості» бази даних.

Розвиток технологій баз даних спочатку призвело до створення спеціалізованої мови – мови запитів до баз даних. Для реляційних баз даних - це мова SQL, який надав широкі можливості для створення, зміни та вилучення даних, що зберігаються. Потім виникла потреба у отриманні аналітичної інформації (наприклад, інформації про діяльність підприємства за певний період), і виявилося, що традиційні реляційні бази даних, добре пристосовані, наприклад, для ведення оперативного обліку (на підприємстві), погано пристосовані щодо аналізу. це призвело, своєю чергою, до створення т.зв. "сховищ даних", сама структура яких найкращим способом відповідає проведенню всебічного математичного аналізу.

Data mining та статистика

В основі методів Data mining лежать математичні методи обробки даних, включаючи статистичні методи. У промислових рішеннях, нерідко, такі методи безпосередньо входять у пакети Data mining. Однак, слід враховувати, що часто дослідники для спрощення необґрунтовано використовують параметричні тести замість непараметричних, і по-друге, результати аналізу важко інтерпретуються, що повністю розходиться з цілями та завданнями Data mining. Проте, статистичні методи використовуються, та їх застосування обмежується виконанням лише певних етапів дослідження.

Data mining та штучний інтелект

Знання, що здобуваються методами Data mining прийнято представляти у вигляді моделей. Як такі моделі виступають:

  • асоціативні правила;
  • дерева рішень;
  • кластери;
  • математичні функції.

Методи побудови таких моделей заведено відносити до галузі т.зв. «штучного інтелекту».

Завдання

Завдання, які вирішуються методами Data Mining, прийнято розділяти на описові (англ. descriptive) та передбачувальні (англ. predictive).

У описових задачах найголовніше - це дати наочний опис наявних прихованих закономірностей, тоді як у передбачуваних задачах на першому плані стоїть питання про передбачення для тих випадків, для яких даних ще немає.

До описових завдань належать:

  • пошук асоціативних правил чи патернів (зразків);
  • угруповання об'єктів, кластерний аналіз;
  • побудова регресійної моделі.

До передбачуваних завдань належать:

  • класифікація об'єктів (для заздалегідь заданих класів);
  • регресійний аналіз, аналіз тимчасових рядів.

Алгоритми навчання

Для завдань класифікації характерно «навчання з учителем», при якому побудова (навчання) моделі проводиться за вибіркою, що містить вхідні та вихідні вектори.

Для завдань кластеризації та асоціації застосовується «навчання без вчителя», при якому побудова моделі проводиться за вибіркою, в якій немає вихідного параметра. Значення вихідного параметра («відноситься до кластера …», «схожий на вектор …») підбирається автоматично у процесі навчання.

Для задач скорочення опису характерно відсутність поділу на вхідні та вихідні вектори. Починаючи з класичних робіт К. Пірсона за методом головних компонентів, основна увага приділяється апроксимації даних.

Етапи навчання

Вирізняється типовий ряд етапів розв'язання задач методами Data Mining:

  1. формування гіпотези;
  2. Збір даних;
  3. Підготовка даних (фільтрація);
  4. вибір моделі;
  5. Підбір параметрів моделі та алгоритму навчання;
  6. навчання моделі (автоматичний пошук інших параметрів моделі);
  7. Аналіз якості навчання, якщо незадовільний перехід до п. 5 або п. 4;
  8. Аналіз виявлених закономірностей, якщо незадовільний перехід п. 1, 4 чи 5.

Підготовка данних

Перед використанням алгоритмів Data Mining необхідно провести підготовку набору даних. Так як ІАД може виявити тільки присутні в даних закономірності, вихідні дані з одного боку повинні мати достатній обсяг, щоб ці закономірності були присутні, а з іншого - бути достатньо компактними, щоб аналіз зайняв прийнятний час. Найчастіше як вихідні дані виступають сховища або вітрини даних. Підготовка необхідна аналізу багатовимірних даних до кластеризації чи інтелектуального аналізу даних.

Очищені дані зводяться до наборів ознак (або векторів, якщо алгоритм може працювати тільки з векторами фіксованої розмірності), один набір ознак спостереження. Набір ознак формується відповідно до гіпотез про те, які ознаки сирих даних мають високу прогнозну силу з розрахунку на необхідну обчислювальну потужність для обробки. Наприклад, чорно-біле зображення обличчя розміром 100х100 пікселів містить 10 тис. біт сирих даних. Вони можуть бути перетворені на вектор ознак шляхом виявлення у зображенні очей і рота. У результаті відбувається зменшення обсягу даних із 10 тис. біт до списку кодів становища, значно зменшуючи обсяг аналізованих даних, отже, і час аналізу.

Ряд алгоритмів можуть обробляти пропущені дані, мають прогностичну силу (наприклад, відсутність у клієнта покупок певного виду). Скажімо, при використанні методу асоціативних правил (англ.)російська. обробляються не вектори ознак, а набори змінної розмірності.

Вибір цільової функції залежатиме від того, що є метою аналізу; Вибір «правильної» функції має основне значення для успішного інтелектуального аналізу даних.

Спостереження поділяються на дві категорії - навчальний набір та тестовий набір. Навчальний набір використовується для навчання алгоритму Data Mining, а тестовий набір - для перевірки знайдених закономірностей.

Див. також

  • Імовірнісна нейронна мережа Решетова

Примітки

Література

  • Паклін Н. Б., Горішків Ст І.Бізнес-аналітика: від даних до знань (СD) . - СПб. : Вид. Пітер, 2009. – 624 с.
  • Дюк В., Самойленко О. Data Mining: навчальний курс (CD). - СПб. : Вид. Пітер, 2001. – 368 с.
  • Журавльов Ю.І. , Рязанов В.В., Сенько О.В.РОЗІЗНАВАННЯ. Математичні методи. програмна система. Практичні застосування. – М.: Вид. «Фазис», 2006. – 176 с. - ISBN 5-7036-0108-8
  • Зінов'єв А. Ю.Візуалізація багатовимірних даних. - Красноярськ: Вид. Красноярського державного технічного університету, 2000. – 180 с.
  • Чубукова І. А. Data Mining: навчальний посібник. – М.: Інтернет-університет інформаційних технологій: БІНОМ: Лабораторія знань, 2006. – 382 с. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank та Mark A. Hall Data Mining: Практичний матеріал Learning Tools and Techniques. - 3rd Edition. – Morgan Kaufmann, 2011. – P. 664. – ISBN 9780123748560

Посилання

  • Data Mining Softwareу каталозі посилань Open Directory Project (dmoz).

Wikimedia Foundation. 2010 .

Ми вітаємо вас на порталі Data Mining – унікальному порталі, присвяченому сучасним методам Data Mining.

Технології Data Mining є потужним апаратом сучасної бізнес-аналітики та дослідження даних для виявлення прихованих закономірностей та побудова передбачуваних моделей. Data Mining чи видобуток знань грунтується не так на умоглядних міркуваннях, але в реальних даних.

Рис. 1. Схема застосування Data Mining

Problem Definition – Постановка задачі: класифікація даних, сегментація, побудова передбачуваних моделей, прогнозування.
Data Gathering and Preparation – Збір та підготовка даних, чищення, верифікація, видалення повторних записів.
Model Building - Побудова моделі, оцінка точності.
Knowledge Deployment – ​​Застосування моделі для вирішення поставленого завдання.

Data Mining застосовується для реалізації масштабних аналітичних проектів у бізнесі, маркетингу, інтернеті, телекомунікаціях, промисловості, геології, медицині, фармацевтиці та інших галузях.

Data Mining дозволяє запустити процес знаходження значущих кореляцій та зв'язків в результаті просіювання величезного масиву даних з використанням сучасних методів розпізнавання образів та застосування унікальних аналітичних технологій, включаючи дерева прийняття рішень та класифікації, кластеризацію, нейронномережні методи та інші.

Користувач, який вперше відкрив собі технологію видобутку даних, уражається великою кількістю методів і ефективних алгоритмів, що дозволяють знайти підходи до вирішення важких завдань, пов'язаних з аналізом великих обсягів даних.

Загалом Data Mining можна охарактеризувати як технологію, призначену для пошуку у великих обсягах даних неочевидних, об'єктивнихі практично кориснихзакономірностей.

В основі Data Mining лежать ефективні методи та алгоритми, розроблені для аналізу неструктурованих даних великого обсягу та розмірності.

Ключовий момент полягає в тому, що дані великого обсягу та великої розмірності видаються позбавленими структури та зв'язків. Мета технології видобутку даних – виявити ці структури та знайти закономірності там, де, на перший погляд, панує хаос та свавілля.

Ось актуальний приклад застосування видобутку даних у фармацевтиці та лікарській індустрії.

Взаємодія лікарських речовин - наростаюча проблема, з якою стикається сучасна охорона здоров'я.

Згодом кількість ліків (безрецептурних і всіляких добавок), що призначаються, зростає, що робить все більш і більш ймовірною взаємодію між ліками, яка може стати причиною серйозних побічних ефектів, про які не підозрюють лікарі та пацієнти.

Ця область належить до постклінічним дослідженням, коли ліки вже випущено ринку і інтенсивно використовується.

Клінічні дослідження відносяться до оцінки ефективності препарату, але слабо враховують взаємодію цих ліків з іншими препаратами, представленими на ринку.

Дослідники зі Стенфордського Університету в Каліфорнії вивчили базу даних FDA (Food and Drug Administration - Управління з контролю за харчовими продуктами та лікарськими препаратами) побічних ефектів ліків і виявили, що два часто використовуються препарати – антидепресант пароксетин та правастатин, що використовується для зниження рівня холестерину ризик розвитку діабету, якщо використовуються разом.

Дослідження щодо проведення подібного аналізу, заснованого на даних FDA виявило 47 раніше невідомих несприятливих взаємодій.

Це чудово, з тим застереженням, що багато негативних ефектів, зазначених пацієнтами, залишаються не виявленими. Саме в такому разі мережевий пошук здатний проявити себе найкращим чином.

Найближчі курси з Data Mining Академії Аналізу Даних StatSoft в 2020 р.

Ми починаємо знайомство з Data Mining, використовуючи чудові відеоролики Академії Аналізу Даних.

Обов'язково подивіться наші ролики і ви зрозумієте, що таке Data Mining!

Відео 1. Що таке Data Mining?


Відео 2. Огляд методів видобутку даних: дерева прийняття рішень, узагальнені передбачувальні моделі, кластеризація та багато іншого

У вашому браузері вимкнено JavaScript


Перш ніж запустити дослідницький проект, ми маємо організувати процес отримання даних із зовнішніх джерел, зараз ми покажемо, як це робиться.

Ролик познайомить вас із унікальною технологією STATISTICA In-place database processing та зв'язком Data Mining з реальними даними.

Відео 3. Порядок взаємодії з базами даних: графічний інтерфейс побудови SQL запитів технологія In-place database processing

У вашому браузері вимкнено JavaScript


Тепер ми ознайомимося з технологіями інтерактивного буріння, які є ефективними при проведенні розвідувального аналізу даних. Сам термін буріння відбиває зв'язок технології Data Mining з геологорозвідкою.

Відео 4. Інтерактивне буріння: Розвідувальні та графічні методи для інтерактивного дослідження даних

У вашому браузері вимкнено JavaScript


Тепер ми познайомимося з аналізом асоціацій (association rules), ці алгоритми дозволяють знаходити зв'язки, що є в реальних даних. Ключовим моментом є ефективність алгоритмів великих обсягах даних.

Результатом алгоритмів аналізу зв'язків, наприклад алгоритму Apriori знаходження правил зв'язків досліджуваних об'єктів із заданою достовірністю, наприклад, 80 %.

У геології ці алгоритми можна застосовувати при розвідувальному аналізі корисних копалин, наприклад, як ознака пов'язаний з ознаками В і С.

Ви можете знайти конкретні приклади таких рішень за нашими посиланнями:

У роздрібній торгівлі алгоритму Apriori чи його модифікації дозволяють досліджувати зв'язок різних товарів, наприклад, під час продажу парфумерії (духи – лак – туш для вій тощо.) чи товарів різних брендів.

Аналіз найцікавіших розділів на сайті можна також ефективно проводити за допомогою правил асоціацій.

Отже, познайомтеся з наступним роликом.

Відео 5. Правила асоціацій

У вашому браузері вимкнено JavaScript

Наведемо приклади застосування Data Mining у конкретних галузях.

Інтернет-торгівля:

  • аналіз траєкторій покупців від відвідування сайту до покупки товарів
  • оцінка ефективності обслуговування, аналіз відмов у зв'язку з відсутністю товарів
  • зв'язок товарів, які цікаві відвідувачам

Роздрібна торгівля: аналіз інформації про покупців на основі кредитних карток, карток знижок тощо.

Типові завдання роздрібної торгівлі, що вирішуються засобами Data Mining:

  • аналіз купівельного кошика;
  • створення передбачуваних моделейта класифікаційних моделей покупців та товарів, що купуються;
  • створення профілів покупців;
  • CRM; оцінка лояльності покупців різних категорій; планування програм лояльності;
  • дослідження часових рядівта тимчасових залежностей, виділення сезонних факторів, оцінка ефективності рекламних акцій на великому діапазоні реальних даних.

Телекомунікаційний сектор відкриває необмежені можливості застосування методів видобутку даних, а також сучасних технологій big data:

  • класифікація клієнтів на основі ключових характеристик дзвінків (частота, тривалість тощо), частоти смс;
  • виявлення лояльності клієнтів;
  • визначення шахрайства та ін.

Страхування:

  • аналіз ризику. Шляхом виявлення поєднань факторів, пов'язаних із сплаченими заявами, страховики можуть зменшити свої втрати за зобов'язаннями. Відомий випадок, коли страхова компанія виявила, що суми, виплачені за заявами одружених людей, удвічі перевищує суми за заявами одиноких людей. Компанія відреагувала на це переглядом політики знижок для сімейних клієнтів.
  • виявлення шахрайства. Страхові компанії можуть знизити рівень шахрайства, відшукуючи певні стереотипи у заявах про виплату страхового відшкодування, що характеризують взаємини між юристами, лікарями та заявниками.

Практичне застосування видобутку даних та вирішення конкретних завдань представлено на наступному відео.

Вебінар 1. Вебінар «Практичні завдання Data Mining: проблеми та рішення»

У вашому браузері вимкнено JavaScript

Вебінар 2. Вебінар "Data Mining та Text Mining: приклади вирішення реальних завдань"

У вашому браузері вимкнено JavaScript


Більш глибокі знання з методології та технології видобутку даних ви можете отримати на курсах StatSoft.

Нині елементи штучного інтелекту активно впроваджуються у практичну діяльність менеджера. На відміну від традиційних систем штучного інтелекту, технологія інтелектуального пошуку та аналізу даних або "видобуток даних" (Data Mining - DM) не намагається моделювати природний інтелект, а посилює його можливості потужністю сучасних обчислювальних серверів, пошукових систем і сховищ даних. Нерідко поряд зі словами "Data Mining" зустрічаються слова "виявлення знань у базах даних" (Knowledge Discovery in Databases).

Рис. 6.17.

Data Mining - це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідні прийняття рішень у різних сферах людської діяльності. Data Mining представляють велику цінність для керівників та аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining можуть отримати відчутні переваги в конкурентній боротьбі.

В основу сучасної технології Data Mining (Discovery-driven Data Mining) покладено концепцію шаблонів (Patterns), що відображають фрагменти багатоаспектних взаємин у даних. Ці шаблони є закономірності, властиві вибіркам даних, які можуть бути компактно виражені у зрозумілій людині формі. Пошук шаблонів проводиться методами, не обмеженими рамками апріорних припущень про структуру вибірки та вид розподілів значень аналізованих показників. На рис. 6.17 показано схему перетворення даних з використанням технології Data Mining.

Рис. 6.18.

Основою для всіляких систем прогнозування служить історична інформація, що зберігається у БД як тимчасових рядів. Якщо вдається побудувати шаблони, адекватно відбивають динаміку поведінки цільових показників, є можливість, що з допомогою можна передбачити і поведінка системи у майбутньому. На рис. 6.18 показано повний цикл застосування технології Data Mining.

Важливе положення Data Mining - нетривіальність шаблонів, що розшукуються. Це означає, що знайдені шаблони повинні відображати неочевидні, несподівані (Unexpected) регулярності даних, що становлять так звані приховані знання (Hidden Knowledge). До діловим людям прийшло розуміння, що "сирі" дані (Raw Data) містять глибинний пласт знань, і при грамотній розкопці можуть бути виявлені справжні самородки, які можна використовувати в конкурентній боротьбі.

Сфера застосування Data Mining нічим не обмежена - технологію можна застосовувати усюди, де є величезна кількість будь-яких "сирих" даних!


Насамперед методи Data Mining зацікавили комерційні підприємства, що розгортають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох підприємств показує, що віддача від використання Data Mining може досягати 1000%. Відомі повідомлення про економічний ефект, який у 10-70 разів перевищив початкові витрати від 350 до 750 тис. доларів. Є відомості про проект у 20 млн доларів, який окупився лише за 4 місяці. Інший приклад - річна економія 700 тис. доларів за рахунок впровадження Data Mining в одній із мереж універсамів у Великій Британії.

Компанія Microsoft офіційно оголосила про посилення своєї активності в Data Mining. Спеціальна дослідницька група Microsoft, яку очолює Усама Файяд, і шість запрошених партнерів (компанії Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) готують спільний проект з розробки стандарту обміну даними та засобів для інтеграції інструментів Data Mining з базами та сховищами.

Data Mining є мультидисциплінарною областю, що виникла та розвивається на базі досягнень прикладної статистики, розпізнавання образів, методів штучного інтелекту, теорії баз даних та ін. (рис. 6.19). Звідси безліч методів і алгоритмів, реалізованих у різних діючих системах Data Mining. [Дюк В.А. www.inftech.webservis.ru/it/datamining/ar2.html]. Багато з таких систем інтегрують у собі відразу кілька підходів. Проте, зазвичай, у кожній системі є якась ключова компонента, яку робиться головна ставка.

Можна назвати п'ять стандартних типів закономірностей, які виявляються за допомогою методів Data Mining: асоціація, послідовність, класифікація, кластеризація та прогнозування.

Рис. 6.19.Області застосування технології Data Mining

Асоціація має місце у разі, якщо кілька подій пов'язані друг з одним. Наприклад, дослідження, проведене в комп'ютерному супермаркеті, може показати, що 55% комп'ютерів, що купили, беруть також і принтер або сканер, а за наявності знижки за такий комплект принтер набувають у 80% випадків. Маючи у своєму розпорядженні відомості про таку асоціацію, менеджерам легко оцінити, наскільки дієва знижка, що надається.

Якщо існує ланцюжок пов'язаних у часі подій, то говорять про послідовність. Так, наприклад, після покупки будинку в 45% випадків протягом місяця купується нова кухонна плита, а в межах двох тижнів 60% новоселів обзаводяться холодильником.

За допомогою класифікації виявляються ознаки, що характеризують групу, до якої належить той чи інший об'єкт. Це робиться у вигляді аналізу вже класифікованих об'єктів і формулювання деякого набору правил.

Кластеризація відрізняється від класифікації тим, що групи заздалегідь не задані. За допомогою кластеризації засобу Data Mining самостійно виділяють різні однорідні групи даних.