Системи оперативної аналітичної обробки даних. Методи аналітичної обробки даних. Плинність кадрів для підприємства

Тема 6

КОРПОРАТИВНІ ІНФОРМАЦІЙНІ СИСТЕМИ ОБРОБКИ ЕКОНОМІЧНОЇ ІНФОРМАЦІЇ

Поняття корпоративної інформаційної технології

Сутність та значення корпоративних інформаційних технологій

Серед різноманітності програм для бізнесу під терміном "інформаційні технології у корпоративному управлінні" традиційно розуміють "комплексні системи автоматизації управління". Відомі й інші назви – системи масштабу підприємства, корпоративні інформаційні системи (КІС), корпоративні (чи комплексні) системи управління (КСУ), автоматизовані системи управління (АСУ).

Як правило, комплексні системи автоматизації управління являють собою "базові" універсальні рішення, придатні для різних типів підприємств. Насамперед це стосується фінансового управління, управління складськими запасами, управління купівлями та продажами. Але ці ж системи часто мають галузеві рішення, що відображають ту чи іншу. іншу специфіку та містять відповідну нормативно-довідкову базу.

Наприклад, рішення системи SAP R/3 для авіаційної промисловості підтримує облік та контроль серійних заводських номерів усіх деталей літака, термінів їх експлуатації, планової заміни чи ремонту, що забезпечує як надійність виробництва, а й безпеку пасажирів.

Так як комплексні системи управління орієнтовані, в першу чергу, на великі, що містять багатопрофільні структури, підприємства, то вони не просто пропонують розвинений набір функцій, а й забезпечують надійне зберігання та обробку великих обсягів інформації, використовуючи для цього потужні платформи та системні засоби розрахованої на багато користувачів роботи .

Сучасні інформаційні технології, комунікації та Інтернет дозволяють вирішувати завдання віддаленого доступу до єдиної бази даних, що також є актуальним для корпоративного управління.

Концепція побудови

Хоча більшість розробників називає свої програмні продукти управлінськими (управління підприємством, складом, фінансами тощо), по суті практично всі програмні засоби, що використовуються в корпоративному управлінні, являють собою реєструючі факти та документи фінансово-господарської діяльності, облікові системи з можливістю побудови звітів та довідок у розрізах, допустимих аналітичними ознаками. Тобто до бази даних вноситься структурована інформація. Ця структурність закладається тією чи іншою мірою пов'язаними між собою довідниками, класифікаторами, параметрами та формами типових документів. За наявною у базі даних інформації "будується", "витягується", "збирається" інструментальними засобами так званий "розріз". Отримавши на основі таких даних звіти та довідки, які часто називають аналітичними, керівництво може приймати рішення. Така типова концепція і типова технологія роботи з системами класу, що розглядається.



Не випадково таке різне за функціональним наповненням, системним рішенням, призначенням та використанням "управлінське" програмне забезпечення, як "Галактика", "БЕСТ" та "1С: Підприємство", аналогічно за принципами організації інформації, технології її формування та обробки, а також за методів взаємодії із системами.

І все ж таки підприємства, наприклад, ВАТ “Уралелектромедь”, висувають такі жорсткі та різноманітні вимоги до засобів корпоративного управління, що з'являється необхідність багаторівневої їх побудови. Зазвичай центральним є ядро ​​системи, що містить лише програмні коди. Наступним концептуально важливим елементом є вбудований інструментарій системи, що дозволяє, не змінюючи коди програми, щонайменше проводити її налаштування на робочих місцях, виконання конкретних операцій, вводити нові та змінювати наявні форми первинних та звітних документів та задіяти інші засоби параметричного налаштування. Більш розвинені системи мають вбудовані засоби для створення різних моделей підприємства: інформаційної, організаційної, функціональної та ін. І, нарешті, сама база даних.

Аналітична обробка інформації

Планування діяльності підприємства, отримання оперативної інформації та прийняття з урахуванням її аналізу правильного рішення пов'язані з обробкою великих обсягів даних. Звіти, які формуються в облікових корпоративних системах управління, зазвичай позбавлені гнучкості. Їх не можна "покрутити", "розгорнути" або "згорнути", щоб отримати бажане подання даних, у тому числі графічне. Чим більше "зрізів" і "розрізів" можна зробити, тим реальніше можна уявити картину діяльності підприємства та прийняти оптимальне рішення щодо управління бізнес-процесами. Для такого роду завдань потрібне математичне та економічне моделювання, а також висока швидкодія. Аналітичний модуль є у системі “РепКо”, найвідоміша система “Тріумф-Аналітика” (Корпорація “ПАРУС” – “Тора центр”). Здавалося б, облікові системи будують довідки в різних "розрізах" за інформацією, що зберігається в базі даних, просто уявляють те, що є. А аналітичні системи будують нову інформацію за заданими параметрами чи критеріями, оптимізуючи її для конкретних цілей. Тому найчастіше необхідний спеціальний інструмент перегляду і візуалізації інформації, яким є “оперативний аналіз даних” (OLAP - online analytical processing). Він є сукупністю зручних і швидкодіючих засобів доступу, перегляду та багатовимірного аналізу інформації, накопиченої в сховищі.

OLAP-технології використовуються для моделювання ситуації за схемою "що буде, якщо ...", Складання різноманітних аналітичних звітів. Існують спеціалізовані західні програмні продукти.

Зазвичай із корпоративних систем управління інформація передається до спеціалізованих програм аналітичної обробки даних. Багато вітчизняних розробників намагаються вирішувати ці завдання самостійно, наприклад, компанії "Нікос-Софт" (система NS-2000), "Цефей" (корпоративна система управління "Еталон"), "КОМСОФТ" (програмно-методологічний та інструментальний комплекс "КОМСОФТ-СТАНДАРТ" 2.0) та ін.

6.4. Перспективи розвитку та використання корпоративних інформаційних технологій

Окрім розвитку та використання сучасного інструментарію та платформ, а також системних засобів, розвиток вітчизняних корпоративних систем передбачає їх функціональне насичення, особливо в частині виробництва.

Незважаючи на повсюдне захоплення реалізацією стандартів управління, провідні гравці вітчизняного ринку програмного забезпечення займаються розробкою галузевих рішень для різних типів виробництв.

Зменшуються побоювання фірм відкрити "конфіденційність" своїх розробок, що сприяє консолідації їхніх зусиль інтегрувати свої продукти, а не розробляти самостійно все від "а" до "я". Сьогодні ні в кого бракує ресурсів. На осмислення нової концепції, розробку проекту та системи, саме системи, яка змінює свою якість залежно від того, що в ній є, витрачаються роки. Крім того, вимогу інтеграції програмних продуктів висувають і підприємства, які бажають зберегти "працюючі", як правило, спеціалізовані, системи та інформаційно об'єднати їх із новопридбаними.

Інтеграція потрібна і продуктам різних виробників – в ім'я об'єднання комплексних рішень зі спеціалізованими:

– бюджетуванням, фінансово-економічним аналізом, обслуговуванням клієнтів, аналітичною обробкою даних та ін.

Слід зазначити, що перспективніші не самі системи управління, а простий і універсальний інструмент створення, призначений для кваліфікованих посередників між розробником і кінцевим користувачем. Нині ці функції намагаються виконувати системні адміністратори та аналітики.

За наявності такого інструменту будуть потрібні "готові" типові рішення для всіх підприємств усіх галузей.

Інтернет як додатковий інструмент розвитку бізнесу можна ефективно використовувати лише за наявності комплексної системи управління.

Хоча сучасні інформаційні та комунікаційні технології, у тому числі Інтернет, дозволяють організувати здачу в оренду програмного забезпечення, говорити про найближчу перспективу використання таких можливостей передчасно, особливо в нашій країні. І не так з міркувань конфіденційності, як через відсутність порядку та надійних засобів зв'язку.

Спроби впровадження та досвід використання, навіть не в повному обсязі, інформаційних технологій на вітчизняних підприємствах на практиці довели, що "не можна автоматизувати хаос". Необхідна попередня реорганізація бізнесу та самого підприємства, а також побудова регламентів (інструкцій) управління. Впоратися самостійно з такою роботою працівникам підприємства складно. Особливо враховуючи фактор часу у ринкових умовах. Тому повсюдно розвивається практика взаємодії з консалтинговими компаніями, які допомагають підприємствам та навчають їх співробітників "розширювати вузькі місця", налагоджувати основний бізнес-процес, відпрацьовувати технологію, будувати інформаційні потоки тощо. Автоматизувати налагоджений процес легше, простіше, дешевше, швидше.

Кожен має займатися своєю справою. Бухгалтер, комірник, менеджер з продажу та інші "предметні" фахівці не повинні вдосконалювати форму бланків документів, розсувати колонки або міняти їх місцями у зв'язку зі зміною законодавства чи схем ведення бізнесу. Тому ринок програмного забезпечення поступово з "продуктового" перетворюється на "обслуговуючий". Починає розвиватися аутсорсинг – передача деяких функцій підприємства фахівцям залучених компаній. Вони займаються обслуговуванням техніки, системного ПЗ, модифікацією прикладної (функціональної) частини систем та ін.

Найбільш важливим та актуальним у використанні корпоративних систем управління стає інформаційно-технологічне та методичне обслуговування їх користувачів та споживачів.

Протягом багатьох років інформаційні технології зосереджувалися на побудові систем підтримки обробки корпоративних транзакцій. Такі системи повинні бути візуально стійкими до відмов і забезпечувати швидкий відгук. Ефективне рішення було забезпечено OLTP, які зосереджувалися на розподіленому реляційному оточенні БД.

Пізнішим досягненням у цій галузі стало додавання архітектури клієнт – сервер. Було видано багато інструментів розвитку OLTP додатків.

Доступ до даних часто потрібний як OLTP програмам, так і інформаційним системам підтримки рішень. На жаль, спроба обслуговувати обидва типи запитів може бути проблематичною. Тому деякі компанії обрали шлях поділу БД на тип OLTP і тип OLAP.

OLAP (Online Analytical Processing – оперативна аналітична обробка)- Це інформаційний процес, який дає можливість користувачеві вимагати систему, проводити аналіз і т.д. у оперативному режимі (онлайн). Результати генеруються протягом секунд.

З іншого боку, в системі OLTP величезні обсяги даних обробляються так швидко, як вони надходять на вхід.

OLAP системи виконані для кінцевих користувачів, в той час як системи OLTP робляться для професійних користувачів ІС. У OLAP передбачені такі дії, як генерація запитів, запити нерегламентованих звітів, проведення статистичного аналізу та побудова мультимедійних програм.

Для забезпечення OLAP необхідно працювати зі сховищем даних (або багатовимірним сховищем), а також з набором інструментальних засобів, зазвичай багатовимірними здібностями. Цими засобами може бути інструментарій запитів, електронні таблиці, засоби видобутку даних (Data Mining), засоби візуалізації даних та інших.

В основі концепції OLAP лежить принцип багатовимірного представлення даних. Е. Кодд розглянув недоліки реляційної моделі, в першу чергу вказавши на неможливість об'єднувати, переглядати та аналізувати дані з точки зору множинності вимірювань, тобто найзрозумілішим для корпоративних аналітиків способом, та визначив загальні вимоги до систем OLAP, що розширює функціональність реляційних СУБД та включає багатовимірний аналіз як одну зі своїх характеристик.

У великій кількості публікацій абревіатурою OLAP позначається як багатомірний погляд на дані, а й зберігання самих даних у багатовимірної БД. Взагалі кажучи, це неправильно, оскільки сам Кодд зазначає, що реляційні БД були, є і будуть найкращою технологією для зберігання корпоративних даних. Необхідність існує не в новій технології БД, а скоріше, у засобах аналізу, що доповнюють функції існуючих СУБД і є досить гнучкими, щоб передбачити та автоматизувати різні види інтелектуального аналізу, властиві OLAP.

За Коддом, багатовимірне концептуальне уявлення є множинною перспективою, що складається з декількох незалежних вимірів, уздовж яких можуть бути проаналізовані певні сукупності даних. Одночасний аналіз з кількох вимірів визначається як багатовимірний аналіз. Кожен вимір включає напрями консолідації даних, що складаються із серії послідовних рівнів узагальнення, де кожен вищестоящий рівень відповідає більшою мірою агрегації даних за відповідним виміром. Так вимір Виконавець може визначатися напрямом консолідації, що складається з рівнів узагальнення «підприємство – підрозділ – відділ – службовець». Вимір Час може навіть включати два напрями консолідації - "рік - квартал - місяць - день" і "тиждень - день", оскільки рахунок часу по місяцях і по тижнях несумісний. У цьому випадку стає можливим довільний вибір бажаного рівня деталізації інформації щодо кожного з вимірів. Операція спуску відповідає руху від найвищих щаблів консолідації до нижчих; навпаки, операція підйому означає рух від нижчих рівнів до вищих.

Кодд визначив 12 правил, яким має задовольняти програмний продукт класу OLAP. Ці правила:

1. Багатовимірне концептуальне подання даних.

2. Прозорість.

3. Доступність.

4. Стійка продуктивність.

5. Клієнт – серверна архітектура.

6. Рівноправність вимірів.

7. Динамічна обробка розріджених матриць.

8. Підтримка розрахованого на багато користувачів режиму.

9. Необмежена підтримка кросмірних операцій.

10. Інтуїтивне маніпулювання даними.

11. Гнучкий механізм створення звітів.

12. Необмежену кількість вимірювань та рівнів агрегації.

Набір цих вимог, що став фактичним визначенням OLAP, слід розглядати як рекомендаційний, а конкретні продукт оцінювати за ступенем наближення до ідеально повної відповідності всім вимогам.

Інтелектуальний аналіз даних.

Інтелектуальний аналіз даних (ІАД), або Data Mining, - термін, що використовується для опису відкриття знань у базах даних, виділення знань, дослідження даних, дослідження даних, обробки зразків даних, очищення та збору даних; тут же мається на увазі супутнє ПЗ. Всі ці дії здійснюються автоматично та дозволяють отримувати швидкі результати навіть непрограмістам.

Запит проводиться кінцевим користувачем, можливо природною мовою. Запит перетворюється на SQL – формат. SQL запит по мережі надходить у СУБД, яка керує БД або сховищем даних. СУБД знаходить відповідь на запит та доставляє його назад. Користувач може потім розробляти презентацію або звіт відповідно до своїх вимог.

Багато важливих рішень у майже будь-якій галузі бізнесу та соціальної сфери ґрунтуються на аналізі великих і складних БД. ІАД може бути дуже корисним у цих випадках.

Методи інтелектуального аналізу даних тісно пов'язані з технологіями OLAP та технологіями побудови сховищ даних. Тому найкращим варіантом є комплексний підхід до впровадження.

Для того, щоб існуючі сховища даних сприяли прийняттю управлінських рішень, інформація повинна бути представлена ​​аналітику в потрібній формі, тобто вона повинна мати розвинені інструменти доступу до даних сховища та їх обробки.

Найчастіше інформаційно – аналітичні системи, створювані для безпосереднього використання особами, які приймають рішення, виявляються надзвичайно прості у застосуванні, але жорстко обмежені у функціональності. Такі статичні системи називаються інформаційними системами керівника. Вони містять у собі зумовлені безлічі запитів і, будучи достатніми для повсякденного огляду, неспроможні відповісти на всі питання до наявних даних, які можуть виникнути при прийнятті рішень. Результатами роботи такої системи, як правило, є багатосторінкові звіти, після ретельного вивчення яких у аналітика з'являється нова серія питань. Однак кожен новий запит, непередбачений при проектуванні такої системи, повинен спочатку формально описаний, закодований програмістом і тільки потім виконаний. Час очікування у такому разі може становити години та дні, що не завжди прийнятно. Таким чином, зовнішня простота статистичних ІС підтримки рішень, за яку активно бореться більшість замовників інформаційно-аналітичних систем, обертається втратою гнучкості.

Динамічні ІС підтримки рішень, навпаки, спрямовані на обробку нерегламентованих (ad hoc) запитів аналітиків до даних. Робота аналітиків з цими системами полягає в інтерактивній послідовності формування запитів та вивчення їх результатів.

Але динамічні ІС підтримки рішень можуть діяти у сфері оперативної аналітичної обробки (OLAP). Підтримка прийняття управлінських рішень з урахуванням накопичених даних може виконуватися у трьох базових сферах.

1. Сфера деталізованих даних. Це область впливу більшості систем, орієнтованих на пошук інформації. Найчастіше реляційні СУБД добре справляються з які виникають тут завданнями. Загальновизнаним стандартом мови маніпулювання реляційними даними є SQL. Інформаційно – пошукові системи, які забезпечують інтерфейс кінцевого користувача завдання пошуку деталізованої інформації, можуть використовуватися як надбудов як над окремими базами даних транзакційних систем, і над загальним сховищем даних.

2. Сфера агрегованих показників. Комплексний погляд на зібрану у сховищі даних інформацію, її узагальнення та агрегація та багатовимірний аналіз є завданнями систем OLAP. Тут можна або орієнтуватися на спеціальні багатовимірні СУБД, або залишатися у рамках реляційних технологій. У другому випадку заздалегідь агреговані дані можуть збиратися в БД зіркоподібного вигляду, або агрегація інформації може здійснюватися в процесі сканування деталізованих таблиць реляційної БД.

3. Сфера закономірностей. Інтелектуальна обробка проводиться методами інтелектуального аналізу даних головними завданнями яких є пошук функціональних та логічних закономірностей у накопиченій інформації, побудова моделей та правил, які пояснюють знайдені аномалії та/або прогнозують розвиток деяких процесів.

Повна структура інформаційно – аналітичної системи, побудованої на основі сховища даних, показана на рис. 3.2. У конкретних реалізаціях окремих компонентів цієї схеми часто відсутні.

3.4 Способи аналітичної обробки даних

Для того, щоб існуючі сховища даних сприяли прийняттю управлінських рішень, інформація має бути представлена ​​аналітику в потрібній формі, тобто він повинен мати розвинені інструменти доступу до даних сховища та їх обробки.

Найчастіше інформаційно-аналітичні системи, створювані для безпосереднього використання особами, які приймають рішення, виявляються надзвичайно прості у застосуванні, але жорстко обмежені у функціональності. Такі статичні системи називаються Інформаційними системами керівника (ІСР) або Executive Information Systems (EIS). Вони містять у собі безліч запитів і, будучи достатніми для повсякденного огляду, нездатні відповісти на всі питання, які можуть виникнути при прийнятті рішень. Результатом роботи такої системи, як правило, є багатосторінкові звіти після ретельного вивчення, яких у аналітика з'являється нова серія питань. Однак кожен новий запит, непередбачений при проектуванні такої системи, повинен спочатку формально описаний, закодований програмістом і тільки потім виконаний. Час очікування у такому разі може становити години та дні, що не завжди прийнятно.

Оперативна аналітична обробка. Або On-Line Analytical Processing, OLAP є ключовим компонентом організації сховищ даних. Концепція OLAP була описана в 1993 р. Едгаром Коддом і має такі вимоги до додатків для багатовимірного аналізу:

– багатовимірне концептуальне подання даних, включаючи повну підтримку для ієрархій та множинних ієрархій (ключова вимога OLAP);

- Надання користувачеві результатів аналізу за прийнятний час (зазвичай не більше 5 с), нехай навіть ціною менш детального аналізу;

– можливість здійснення будь-якого логічного та статистичного аналізу, характерного для даної програми, та її збереження у доступному для кінцевого користувача вигляді;

- розрахований на багато користувачів доступ до даних з підтримкою відповідних механізмів блокувань і засобів авторизованого доступу;

– можливість звертатися до будь-якої потрібної інформації незалежно від її обсягу та місця зберігання.

OLAP-система складається з безлічі компонентів. На найвищому рівні представлення система включає джерело даних, багатовимірну базу даних (МБД), що надає можливість реалізації механізму складання звітів на основі технології OLAP, OLAP-сервер і клієнта. Система побудована за принципом клієнт-сервер і забезпечує віддалений та розрахований на багато користувачів доступ до сервера МБД.

Розглянемо складові OLAP-системи.

Джерела.Джерелом в OLAP-системах є сервер, що постачає дані для аналізу. Залежно від області використання OLAP-продукту джерелом може служити сховище даних, база даних, що успадковується, містить загальні дані, набір

таблиць, що поєднують фінансові дані чи будь-яка комбінація переліченого.

Сховище даних. Вихідні дані збираються та поміщаються у сховище, спроектоване відповідно до принципів побудови сховищ даних. ХД є реляційною базою даних (РБД). Основна таблиця ХД (таблиця фактів) містить числові значення показників, якими збирається статистична інформація.

Багатовимірна база даних.Сховище даних служить постачальником інформації для багатовимірної бази даних, що є набором об'єктів. Основними класами цих об'єктів є вимірювання та показники. До вимірів відносяться безлічі значень (параметрів), за якими відбувається індексація даних, наприклад, час, регіони, тип установи та ін. Кожен вимір заповнюється значеннями відповідних таблиць вимірювань сховища даних. Сукупність вимірів визначає простір досліджуваного процесу. Під показниками розуміються багатовимірні куби даних (гіперкуби). У гіперкубі містяться дані, а також агрегатні суми за вимірюваннями, що входять до складу показника. Показники складають основний зміст МБД та заповнюються відповідно до таблиці фактів. Вздовж кожної осі гіперкуба дані можуть бути організовані у вигляді ієрархії, що представляє різні рівні деталізації. Це дозволяє створювати ієрархічні вимірювання, за якими при подальшому аналізі даних здійснюватиметься агрегування або деталізація подання даних. Типовим прикладом ієрархічного виміру служить список територіальних об'єктів згрупованих по районах, областях, округах.

СерверПрикладною частиною системи OLAP є OLAP-сервер. Ця складова виконує всю роботу (залежно від моделі системи) і зберігає в собі всю інформацію, до якої забезпечується активний доступ. Архітектурою сервера управляють різні концепції. Зокрема, основний функціональної характеристикою OLAP-продуктів є використання МБД чи РБД зберігання даних.

Клієнтська програма.Дані, структуровані відповідним чином і зберігаються в МБД доступні для аналізу за допомогою клієнтської програми. Користувач отримує можливість віддаленого доступу до даних, формулювання складних запитів, створення звітів, отримання довільних підмножин даних. Отримання звіту зводиться до вибору конкретних значень вимірювань та побудови перерізу гіперкуба. Перетин визначається вибраними значеннями вимірів. Дані щодо інших вимірів підсумовуються.

OLAPна клієнті та на сервері.Багатомірний аналіз даних може бути проведений за допомогою різних засобів, які умовно можна поділити на клієнтські та серверні засоби OLAP.

Клієнтські OLAP-засоби (наприклад, Pivot Tables в Excel 2000 фірми Microsoft або ProClarity фірми Knosys) є додатками, що здійснюють обчислення агрегатних даних та їх відображення. При цьому самі агрегатні дані містяться в кеші всередині адресного простору OLAP-засобу.

Якщо вихідні дані містяться в настільній СУБД, обчислення агрегатних даних провадиться самим OLAP-засобом. Якщо ж джерело вихідних даних - серверна СУБД, багато хто з клієнтських OLAP-засобів посилають на сервер SQL-запити і в результаті отримують агрегатні дані, обчислені на сервері.

Як правило, OLAP-функціональність реалізована в засобах статистичної обробки даних та деяких електронних таблицях.

Багато засобів розробки містять бібліотеки класів або компонентів, що дозволяють створювати додатки, що реалізують найпростішу OLAP-функціональність (такі, наприклад, як компоненти Decision Cube Borland Delphi і Borland C++ Builder). Крім цього, багато компаній пропонують елементи керування ActiveX та інші бібліотеки, що реалізують подібну функціональність.

Клієнтські OLAP-засоби застосовуються, як правило, при малій кількості вимірювань (зазвичай не більше шести) та невеликій різноманітності значень цих параметрів - оскільки отримані агрегатні дані повинні вміщатися в адресному просторі такого засобу, а їх кількість зростає експоненційно при збільшенні кількості вимірювань.

Багато клієнтських OLAP-засоби дозволяють зберегти вміст кеша з агрегатними даними у вигляді файлу, щоб не проводити їх повторне обчислення. Однак нерідко така можливість використовується для відчуження агрегатних даних для передачі їх іншим організаціям або для публікації.

Ідея збереження кешу з агрегатними даними у файлі отримала свій подальший розвиток в серверних OLAP-засобах (наприклад, Oracle Express Server або Microsoft OLAP Services), в яких збереження і зміна агрегатних даних, а також підтримка сховища, що їх містить, здійснюються окремим додатком або процесом, званим OLAP-сервер. Клієнтські програми можуть вимагати подібне багатовимірне сховище і у відповідь отримувати ті чи інші дані. Деякі клієнтські програми можуть також створювати такі сховища або оновлювати їх відповідно до вихідних даних, що змінилися.

Переваги застосування серверних OLAP-засобів у порівнянні з клієнтськими OLAP-засобами подібні до переваг застосування серверних СУБД у порівнянні з настільними: у разі застосування серверних засобів обчислення та зберігання агрегатних даних відбуваються на сервері, а клієнтський додаток отримує лише результати запитів до них, що дозволяє у випадку знизити мережевий трафік, час виконання запитів і вимоги до ресурсів, споживаним клієнтським додатком.

3.5 Технічні аспекти багатовимірного зберігання даних

Багатовимірність в OLAP-додатках може бути поділена на три рівні:

1. Багатовимірне подання даних– засоби кінцевого користувача, що забезпечують багатовимірну візуалізацію та маніпулювання даними; шар багатовимірного уявлення абстрагований від фізичної структури даних та сприймає дані як багатовимірні.

    Багатовимірна обробка- засіб (мова) формулювання багатовимірних запитів (традиційна реляційна мова SQL тут виявляється непридатною) і процесор, що вміє обробити та виконати такий запит.

    Багатомірне зберігання- Засоби фізичної організації даних, що забезпечують ефективне виконання багатовимірних запитів.

Перші два рівні обов'язково присутні у всіх OLAP-засобах. Третій рівень, хоч і є поширеним, необов'язковий, оскільки дані багатовимірного уявлення можуть витягуватися і з традиційних реляційних структур. Процесор багатовимірних запитів, у цьому випадку, транслює багатовимірні запити до SQL-запитів, які виконуються реляційною СУБД.

У будь-якому сховищі даних - і в звичайному, і в багатовимірному - поряд з детальними даними, що витягуються з оперативних систем, зберігаються і агреговані показники (сумарні показники), такі, як суми обсягів продажу за місяцями, категоріями товарів і т. д. Агрегати зберігаються явно з єдиною метою – прискорити виконання запитів. Адже, з одного боку, у сховищі накопичується, як правило, дуже великий обсяг даних, а з іншого – аналітиків здебільшого цікавлять не детальні, а узагальнені показники. І якщо щоразу для обчислення суми продажів за рік довелося б підсумовувати мільйони індивідуальних продажів, швидкість швидше за все була б неприйнятною. Тому при завантаженні даних у багатовимірну БД обчислюються та зберігаються всі сумарні показники або їхня частина.

Тим не менш, використання агрегованих даних загрожує недоліками. Основними недоліками є збільшення обсягу інформації, що зберігається (при додаванні нових вимірювань обсяг даних, що становлять куб, зростає експоненційно) і часу на їх завантаження. Причому обсяг інформації може збільшуватись у десятки і навіть у сотні разів. Наприклад, в одному з опублікованих стандартних тестів повний підрахунок агрегатів для 10 Мб вихідних даних вимагає 2,4 Гб, тобто дані зросли в 240 разів!

Ступінь збільшення обсягу даних при обчисленні агрегатів залежить від кількості вимірювань куба і структури цих вимірювань, тобто співвідношення кількості батьків і нащадків на різних рівнях вимірювання. Для вирішення проблеми зберігання агрегатів застосовуються складні схеми, що дозволяють при обчисленні не всіх можливих агрегатів досягати значного підвищення продуктивності виконання запитів.

Як вихідні, так і агрегатні дані можуть зберігатися або в

реляційних, чи багатомірних структурах. У зв'язку з цим нині застосовуються три способи зберігання багатовимірних даних:

MOLAP (Multidimensional OLAP) – вихідні та агрегатні дані зберігаються у багатовимірній базі даних. Зберігання даних у багатовимірних структурах дозволяє маніпулювати даними як багатовимірним масивом, завдяки чому швидкість обчислення агрегатних значень однакова для будь-якого вимірювання. Однак у цьому випадку багатовимірна база даних виявляється надмірною, оскільки багатовимірні дані повністю містять вихідні реляційні дані.

Ці системи забезпечують повний цикл обробки OLAP. Вони або включають, крім серверного компонента, власний інтегрований клієнтський інтерфейс, або використовують для зв'язку з користувачем зовнішні програми роботи з електронними таблицями.

ROLAP (Relational OLAP) – вихідні дані залишаються у тій самій реляційної базі даних, де вони й перебували. Агрегатні ж дані поміщають у спеціально створені їх зберігання службові таблиці у тій базі даних.

HOLAP (Hybrid OLAP) – вихідні дані залишаються у тому ж реляційної базі даних, де вони спочатку перебували, а агрегатні дані зберігаються у багатовимірної базі даних.

Деякі OLAP-засоби підтримують зберігання даних лише у реляційних структурах, деякі – лише багатомірних. Однак більшість сучасних серверних OLAP-засобів підтримують усі три способи зберігання даних. Вибір способу зберігання залежить від обсягу та структури вихідних даних, вимог до швидкості виконання запитів та частоти оновлення OLAP-кубів.

3.6 Інтелектуальний аналіз даних (DataMining)

Термін Data Mining означає процес пошуку кореляцій, тенденцій та взаємозв'язків за допомогою різних математичних та статистичних алгоритмів: кластеризації, регресійного та кореляційного аналізу тощо для систем підтримки прийняття рішень. При цьому накопичені відомості автоматично узагальнюються до інформації, яка може бути охарактеризована як знання.

В основу сучасної технології Data Mining покладено концепцію шаблонів, що відображають закономірності, властиві підвиборкам даних та складові так звані приховані знання.

Пошук шаблонів здійснюється методами, які не використовують жодних апріорних припущень про ці підвиборки. Важливою особливістю Data Mining є нестандартність і неочевидність шаблонів, що розшукуються. Іншими словами, засоби Data Mining відрізняються від інструментів статистичної обробки даних та засобів OLAP тим, що замість перевірки заздалегідь передбачуваних користувачами взаємозв'язків

між даними, вони виходячи з наявних даних здатні самостійно знаходити такі взаємозв'язку, і навіть будувати гіпотези про характер.

У випадку процес інтелектуального аналізу даних (Data Mining) складається з трьох стадій

    виявлення закономірностей (вільний пошук);

    використання виявлених закономірностей для передбачення невідомих значень (прогностичне моделювання);

    аналіз винятків, призначений виявлення і тлумачення аномалій у знайдених закономірностях.

Іноді у явному вигляді виділяють проміжну стадію перевірки достовірності знайдених закономірностей між їх знаходженням та використанням (стадія валідації).

Виділяють п'ять стандартних типів закономірностей, що виявляються методами Data Mining:

1.Асоціаціядозволяє виділити стійкі групи об'єктів, між якими існують неявно задані зв'язки. Частота появи окремого предмета чи групи предметів, що у відсотках, називається поширеністю. Низький рівень поширеності (менше однієї тисячної відсотка) говорить про те, що така асоціація не суттєва. Асоціації записуються у вигляді правил: A=> B, де А -посилка, В -слідство. Для визначення важливості кожного одержаного асоціативного правила необхідно обчислити величину, яку називають довірчістю Адо У(або взаємозв'язок А та В).Довірливість показує, як часто з появою Аз'являється Ст.Наприклад, якщо д(A/B)=20%, це означає, що з купівлі товару Ау кожному п'ятому випадку купується і товар Ст.

Типовим прикладом застосування асоціації є аналіз структури покупок. Наприклад, при проведенні дослідження в супермаркеті можна встановити, що 65% тих, хто купив картопляні чіпси, беруть також і «кока-колу», а за наявності знижки за такий комплект «колу» набувають у 85% випадків. Подібні результати є цінністю при формуванні маркетингових стратегій.

2.Послідовність - це метод виявлення асоціацій у часі. У разі визначаються правила, які описують послідовне поява певних груп подій. Такі правила необхідні побудови сценаріїв. Крім того, їх можна використовувати, наприклад, для формування типового набору попередніх продажів, які можуть спричинити подальші продажі конкретного товару.

3.Класифікація - інструмент узагальнення. Вона дозволяє перейти від розгляду поодиноких об'єктів до узагальнених понять, які характеризують деякі сукупності об'єктів і є достатніми для розпізнавання об'єктів, що належать до цих сукупностей (класів). Суть процесу формування понять полягає у знаходженні закономірностей, властивих класам. Для опису об'єктів використовуються безлічі різних ознак (атрибутів). Проблема формування понять за ознаковими описами було сформульовано М.М. Бонґартом. Її рішення базується на застосуванні двох основних процедур: навчання та перевірки. У процедурах навчання будується класифікуюче правило на основі обробки навчальної множини об'єктів. Процедура перевірки (іспиту) полягає у використанні отриманого правила, що класифікує, для розпізнавання об'єктів з нової (екзаменаційної) вибірки. Якщо результати перевірки визнані задовільними, процес навчання закінчується, інакше класифікуюче правило уточнюється у процесі повторного навчання.

4.Кластеризація – це розподіл інформації (записів) із БД за групами (кластерами) чи сегментами з одночасним визначенням цих груп. На відміну від класифікації для проведення аналізу не потрібно попереднього завдання класів.

5.Прогнозування часових рядів є інструментом визначення тенденцій зміни атрибутів аналізованих об'єктів з часом. Аналіз поведінки часових рядів дозволяє прогнозувати значення досліджуваних показників.

Для вирішення таких завдань використовуються різні методи та алгоритми Data Mining. Зважаючи на те, що Data Mining розвивалася і розвивається на стику таких дисциплін, як статистика, теорія інформації, машинне навчання, теорія баз даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних методів цих дисциплін.

З різноманіття існуючих методів дослідження можна виділити такі:

    регресійний, дисперсійний та кореляційний аналіз(реалізований у більшості сучасних статистичних пакетів, зокрема, у продуктах компаній SAS Institute, StatSoft та ін.);

    методи аналізуу конкретній предметній галузі, що базуються на емпіричних моделях (часто застосовуються, наприклад, у недорогих засобах фінансового аналізу);

    нейромережеві алгоритми– метод імітації процесів та явищ, що дозволяє відтворювати складні залежності. Метод заснований на використанні спрощеної моделі біологічного мозку і полягає в тому, що вихідні параметри розглядаються як сигнали, що перетворюються відповідно до наявних зв'язків між «нейронами», а як відповідь, що є результатом аналізу, розглядається відгук всієї мережі на вихідні дані. Зв'язки у разі створюються з допомогою так званого навчання мережі у вигляді вибірки великого обсягу, що містить як вихідні дані, і правильні відповіді. Нейронні мережі широко застосовуються на вирішення завдань класифікації;

    нечітка логіказастосовується для обробки даних з розмитими значеннями істинності, які можуть бути представлені різноманітними лінгвістичними змінними. Нечітке представлення знань широко застосовується для вирішення завдань класифікації та прогнозування, наприклад, у системі XpertRule Miner (Attar Software Ltd., Великобританія), а також AIS, NeuFuz та ін;

    індуктивні висновкидозволяють отримати узагальнення фактів, які у БД. У процесі індуктивного навчання може брати участь спеціаліст, який постачає гіпотези. Такий спосіб називають навчанням із учителем. Пошук правил узагальнення може здійснюватись без вчителя шляхом автоматичної генерації гіпотез. У сучасних програмних засобах зазвичай поєднуються обидва способи, а для перевірки гіпотез використовуються статистичні методи. Прикладом системи із застосуванням індуктивних висновків є XpertRule Miner, розроблена фірмою Attar Software Ltd. (Велика Британія);

    міркування на основі аналогічних випадків(Метод «найближчого сусіда») (Case-based reasoning - CBR) засновані на пошуку в БД ситуацій, описи яких подібні по ряду ознак із заданою ситуацією. Принцип аналогії дозволяє припускати, що результати схожих ситуацій також будуть близькими між собою. Недолік цього підходу полягає в тому, що тут не створюється жодних моделей або правил, що узагальнюють попередній досвід. Крім того, надійність результатів залежить від повноти опису ситуацій, як і в процесах індуктивного виведення. Прикладами систем, що використовують CBR, є: KATE Tools (Acknosoft, Франція), Pattern Recognition Workbench (Unica, США);

    дерева рішень– метод структурування завдання у вигляді деревоподібного графа, вершини якого відповідають продукційним правилам, що дозволяють класифікувати дані чи здійснювати аналіз наслідків рішень. Цей метод дає наочне уявлення про систему класифікуючих правил, якщо їх дуже багато. Прості задачі вирішуються за допомогою цього методу набагато швидше, ніж з використанням нейронних мереж. Для складних проблем і деяких типів даних дерева рішень можуть виявитися неприйнятними. З іншого боку, цього методу характерна проблема значимості. Одним із наслідків ієрархічної кластеризації даних є відсутність великої кількості навчальних прикладів для багатьох окремих випадків, у зв'язку з чим класифікацію не можна вважати надійною. Методи дерев рішень реалізовані у багатьох програмних засобах, а саме: С5.0 (RuleQuest, Австралія), Clementine (Integral Solutions, Великобританія), SIPINA (University of Lyon, Франція), IDIS (Information Discovery, США);

    еволюційне програмування– пошук та генерація алгоритму, що виражає взаємозалежність даних, на підставі спочатку заданого алгоритму, що модифікується в процесі пошуку; іноді пошук взаємозалежностей здійснюється серед певних видів функцій (наприклад, поліномів);

алгоритми обмеженого перебору, що обчислюють комбінацій простих логічних подій у підгрупах даних

3.7 ІнтеграціяOLAPіDataMining

Оперативна аналітична обробка (OLAP) та інтелектуальний аналіз даних (Data Mining) – дві складові процесу підтримки прийняття рішень. Проте сьогодні більшість систем OLAP загострює увагу лише на забезпеченні доступу до багатовимірних даних, а більшість засобів Data Mining, що працюють у сфері закономірностей, мають справу з одновимірними перспективами даних. Для збільшення ефективності обробки даних для систем підтримки прийняття рішень ці два види аналізу мають бути об'єднані.

В даний час з'являється складовий термін OLAP Data Mining (багатомірний інтелектуальний аналіз) для позначення такого об'єднання.

Існує три основні способи формування «OLAP Data Mining»:

    "Cubing then mining". Можливість виконання інтелектуального аналізу має забезпечуватися над будь-яким результатом запиту до багатовимірного концептуального подання, тобто над будь-яким фрагментом будь-якої проекції гіперкубу показників.

    "Mining then cubing". Подібно до даних, вилучених зі сховища, результати інтелектуального аналізу повинні бути представлені в гіперкубічній формі для подальшого багатовимірного аналізу.

    "Cubing while mining". Цей гнучкий спосіб інтеграції дозволяє автоматично активізувати однотипні механізми інтелектуальної обробки над результатом кожного кроку багатовимірного аналізу (переходу) між рівнями узагальнення, отримання нового фрагмента гіперкуба і т. д.).

    Астрономія для 11 класу [Текст... їмяк частинавсією системи ... доцент ... Чобоксари, 2009. № 10. 44 -49 .... Автори- упорядники: Н. ... конспектилекцій, ...

  • Навчально-методичний посібник

    ... лекцій. Підготовка лекціїпо математиці. Написання конспектулекції лекції. Використання інформаційнихтехнологій ...

  • І до кондаурова з лебедєва науково-дослідна діяльність майбутнього вчителя математики творчі завдання з елементарної математики та методики її викладання

    Навчально-методичний посібник

    ... лекцій. Підготовка лекціїпо математиці. Написання конспектулекції. Підготовка наочних посібників. Методика читання лекції. Використання інформаційнихтехнологій ...

  • М ОНІТОРИНГ ЗМІ Модернізація професійної освіти Березень - серпень 2011р

    Короткий зміст

    ... 11 .08.2011 "Мертві душі-2" У РНІМУ їм ... 3,11 -3,44 . ... публічні лекціїкерівників... Чебоксарах... і строчить конспектиаудиторія - ... інформаційнісистемиі технології. ... системоюосвіти, - каже доцент ... упорядників ... частинипідвищення реального змісту ...

ПЕРЕВІРКА ДОСТАВНОСТІ ІНФОРМАЦІЇ

Зібрана з різних джерел інформація групується та обробляється. При цьому особлива увага приділяється перевірці узгодженості даних та їх вірогідності. Первинні документи, як правило, об'єктивно відображають суть тієї чи іншої господарської операції, але, на жаль, мають місце і підробки, спотворення, помилки. Недостовірність інформації може бути викликана низкою причин об'єктивного та суб'єктивного характеру.

Процес перевірки включає кілька етапів:

1) лічильна перевірка (перевірка відповідності даних шляхом складання оборотних відомостей, таблиць лічильної перевірки);

2) зустрічна перевірка (порівняння інформації, отриманої з різних джерел);

3) логічна перевірка (аналітик з'ясовує з урахуванням економічної ситуації, наскільки можна довіряти даним внутрішньої та зовнішньої інформації);

4) коригування (Внесення коригувань у вартість майна, балансового прибутку, розмірів власного капіталу та амортизації);

Усі коригування, що вносяться, повинні бути обґрунтованими та об'єктивними.

Підготовка та аналітична обробка інформації про хід фінансово-господарської діяльності підприємства та про зовнішні та внутрішні умови є важливою частиною управління підприємством. Цей процес здійснюється із застосуванням різних технічних засобів для збору, переробки, зберігання та передачі інформації, необхідної для оперативного прийняття рішень, обліку та контролю за ходом виробництва.

Аналітична обробка інформації включає:

1) визначення системи показниківвивчення яких потрібно для досягнення цілей проведеного аналізу.

Показники групуються за:

- способу обчислення(абсолютні та відносні);

- застосовуваним вимірювачам(натуральні, вартісні, трудові та ін.);

- одержуваним характеристикам(кількісні, якісні);

- ступеня узагальнення(Узагальнюючі, приватні);

- періоду, що охоплюється(Статики, динаміки);

- стосовно діяльності підприємства(Об'єктивні, суб'єктивні);

- складовою ефективності(продуктивність, фондовіддача, якість продукції, матеріаловіддача);

- стадіям життєвого циклу(Проектування, виробництво, матеріальне забезпечення, реалізація, експлуатація).

2) узагальнення інформації:

а) складання аналітичних таблиць ;

Аналітична таблиця- Найбільш раціональна і зручна для сприйняття форма подання аналітичної інформації про досліджувані явища, що є системою думок, суджень, виражених мовою цифр.

Аналітичні таблиці використовуються для зіставлення аналітично оброблених даних за хронологічними періодами та визначення на цій основі: динаміки показників, що вивчаються; порівняння досягнутої або прогнозованої їх величини з базовими даними, якими можуть бути відповідні показники плану попередніх та прогнозованих майбутніх періодів, обов'язкові норми, показники інших суб'єктів господарювання, відібрані аналітиком виходячи з мети дослідження, що проводиться. Табличний матеріал дає можливість охопити аналітичні дані загалом як єдину систему. За допомогою таблиць значно легше простежуються зв'язки між досліджуваними явищами.

б) графічне відображення інформації;

Для посилення наочності матеріалів проведеного аналізу, динаміка показників представляється як малюнків, графіків, діаграм, завдяки яким матеріал стає більш дохідливим і зрозумілим.

Графіки– це масштабне зображення показників, чисел за допомогою геометричних знаків (ліній, прямокутників, кіл) або умовно-художніх фігур. Графік, на відміну таблиць, дає узагальнюючий малюнок становища чи розвитку досліджуваного явища і дозволяє візуально помітити закономірності, які містить числова інформація. Основні види графіків, що використовуються в аналізі – це діаграми. За своєю формоювони діляться на гістограми (стовпчасті, лінійчасті), кругові, кільцеві, пелюсткові, біржові, циліндричні та ін. За змістомрозрізняють діаграми порівняння, структурні, динамічні, графіки зв'язку, графіки контролю тощо.

в) порівняння - зіставлення однорідних об'єктів з метою виявлення їх подібності або відмінностей (докладніше розглянемо далі);

г) приведення показників у порівнянний вигляд , тобто. приведення показників до єдиної бази відповідно до факторів, що впливають , оскільки порівнювати можна лише якісно однорідні величини. Неспівставність показників може бути викликана різним рівнем цін, різним обсягом виробництва, неоднорідністю продукції, структурними змінами тощо. Порівняння непорівнянних показників призведе до неправильних висновків на основі результатів аналізу;

д) угруповання інформації – розподіл маси сукупності об'єктів, що вивчається, на кількісно однорідні групи за відповідними ознаками. Залежно від мети аналізу використовуються типологічні(групи населення за діяльністю, підприємств за формами власності тощо); структурні(склад робітників за професіями, стажем роботи, віком тощо); аналітичні(якісні, кількісні) угруповання. За складністю побудови угруповання бувають простіі комбіновані.

е) деталізація - Послідовне розчленування економічних явищ, що вивчаються, що дозволяє впорядкувати аналіз, комплексно розглянути всі фактори, що впливають на показник, змоделювати взаємні залежності різних показників і факторів і т.д.

Галина Акімова, Матвій Пашкін

Технологія обробки інформації з різних джерел, у тому числі і з Інтернет-ЗМІ, забезпечує автоматизоване введення (що включає тематичний аналіз тексту, обробку, зберігання та пошук) та отримання статистичних зведень та дайджестів.

На сьогоднішній день основним методом аналітичної обробки текстових масивів даних залишається пошук документів за ключовими словами. Інтелектуальність цієї операції підвищується за рахунок автоматичного ранжирування знайдених документів з використанням досить простих методів визначення їх значущості, обліку морфології мови та (набагато рідше) семантичних словників.

Однак для вирішення сучасних аналітичних завдань, особливо враховуючи величезний обсяг вихідної інформації (насамперед з Інтернету), цього недостатньо. Як приклад того, що потрібно сьогодні замовникам, можна навести розроблену в Колумбійському університеті програму Newsblaster. Спочатку вона призначалася для спрощення пошуку інформації в Web, але насправді вона може витягувати з Інтернету будь-які важливі новини. Ця система переглядає сайти новин, сортуючи знайдену інформацію за темами, визначає ступінь схожості текстів і формує новину у вигляді коментаря з п'яти пропозицій. Приблизно 88% тих, хто використовував це рішення, визнають, що набагато зручніше працювати з цією програмою, ніж "ходити" по різних Web-сайтах у пошуках новин.

Слід зазначити, що проблема роботи з величезною кількістю інформації має два аспекти: один – це автоматичний збір інформації (на що, власне, і орієнтовані згадана вище система та аналоги), а інший – автоматичний розбір інформації, що надійшла з даної тематики, проведений на основі аналізу текст документа.

Відповідно до А. Харламову, існуючі підходи до аналізу текстів можна розбити на два класи. До першого класу пропонується віднести швидкі алгоритми, що не залежать від мови та предметної галузі, які використовують статистичні методи. Другий клас утворюють досить витончені, що дають добрий результат, але порівняно повільні підходи, що залежать від мови та предметної області і здебільшого засновані на лінгвістичних методах.

Не викликає сумніву, що найефективнішим буде підхід, який поєднує у собі швидкість і незалежність від мови алгоритмів першого класу з високою якістю обробки другого.

З існуючих систем, з погляду авторів, найбільш цікавою є система ТЕРМІН-5, яка використовує лексико-статистичний метод рубрикування текстів. Гідність лексико-статистичного методу - його висока універсальність, оскільки зміст рубрики у ньому визначається лише набором навчальних текстів. Система дозволяє повністю автоматизувати процес рубрикування, забезпечуючи налаштування на рубрикатор з навчальної вибірки текстів та вироблення вирішального правила віднесення документа до тієї чи іншої рубрики. Вона орієнтована на рубрикацію реальних потоків текстових повідомлень ЗМІ.

Взагалі, сегмент аналітичних систем, орієнтованих на математичний та статистичний аналіз різних кількісних та якісних показників, розвивається на ринку ПЗ вже давно. Однак до повного вирішення завдання аналізу величезного обсягу текстової інформації, що міститься в друкованих виданнях, стрічках новинних інформаційних агентств, на тематичних сайтах в Інтернеті, ще досить далеко.

Побудова систем авторубрикації

Для вирішення завдання аналізу текстової інформації та подальшого автоматичного розподілу її по необхідним тематикам необхідно в першу чергу сформувати рубрикатор, тобто задати список тем або рубрик, що найбільш точно характеризують область знань, що досліджується. Необхідна умова під час аналізу тексту - підтримка роботи як з лінійним, і з ієрархічним рубрикатором з необмеженою кількістю рівнів вкладеності. Нижче наведено приклад лінійного рубрикатора, який використовується на сайті Lenta.ru:

Крім того, оскільки напрями досліджень можуть змінюватися, то хотілося б мати можливість класифікувати один і той же масив введеної інформації з різних тем, що задаються різними рубрикаторами.

У існуючих системах обробки текстової інформації поширені два принципові підходи: засновані або списку ключових слів, або списку термінів (іменні групи чи словосполучення), віднесених до рубрики тим чи іншим способом. Причому підготовча робота зі співвіднесення ключових слів та термінів будь-якій рубриці найчастіше проводиться експертами вручну.

У цій статті ми розглянемо метод, який є розвиток системи ТЕРМІН-5 і дозволяє автоматично сформувати список термінів, що характеризує належність текстової інформації певній рубриці. Такий підхід можна назвати кроком на шляху автоматичного семантичного аналізу тексту. Побудова списку характеристичних термінів проводиться на основі морфологічного та синтаксичного аналізу тексту шляхом виділення нетривіальних іменників та власних назв в оточенні визначень з урахуванням частотності слів у мові.

Побудова навчальної вибірки

В основі технології навчання рубрикатора лежить побудова навчальної вибірки - списку файлів або документів, поставлених у відповідність до рубриків цього рубрикатора. Навчання рубрикатора найбільше ефективно, якщо використовувати короткі інформативні тексти з максимальним смисловим навантаженням. Працюючи з кількома рубрикаторами кожному за них слід сформувати свою навчальну вибірку.

Точність побудови навчальної вибірки можна визначити лише з етапі проведення тематичного аналізу текстової інформації, т. е. під час введення їх у базу даних. Тому побудова навчальної вибірки - це ітеративний процес: залежно від якості визначення тематики під час аналізу тексту навчальну вибірку можна коригувати.

Навчання рубрикатора

Процес навчання рубрикатора полягає у побудові деякої множини термінів, що характеризують належність кожної його рубрики. Список визначальних термінів формується з урахуванням аналізу тексту документів, складових навчальну вибірку, з кожної рубриці окремо. Кожному виділеному терміну надається деяка вага, що характеризує його значущість у тексті. Подальший аналіз результатів дозволяє уточнити список, знижуючи значущість понять і термінів, що перетинаються, а часто і видаляючи їх.

Ієрархія рубрик разом із значимими кожної рубрики термінами, т. е. навчений рубрикатор, називається авторубрикатором. За рахунок додаткових засобів, що дозволяють експерту виконувати операції додавання або видалення терміну, зміни його ваги, можна гнучко впливати на результати роботи з формування визначальних термінів авторубрикатора. Відкориговані результати навчання зберігаються у власній базі термінів (іменних груп), що характеризують кожну рубрику, яка потім використовується при автоматичному визначенні тематики інформації, що надходить.

Використання рубрикатора

Після того, як рубрикатор побудований, його можна використовувати для аналізу текстових документів, що надходять до системи. Для цього текст документа піддається такій обробці, як і тексти з навчальної вибірки при побудові рубрикатора. В результаті автоматичного морфологічного та синтаксичного аналізу тексту отримують набір характеристичних термінів (іменних груп та словосполучень) з урахуванням частотності. Цей набір термінів стає вхідним параметром рубрикатора для його співвідношення з відповідними наборами кожної з рубрик. На виході одержують оцінки релевантності даного тексту кожної з рубрик. Постпроцесор може відсікати недостовірні (слабкі) та/або виділяти надійні (високі) оцінки відповідно до заданих порогів достовірності.

Описаний вище процес автоматичного визначення власності вхідної інформації тій чи іншій рубриці називається авторубрикацією.

Попередня обробка інформації

Як основні джерела інформації пропонується розглядати Інтернет-ЗМІ, стрічки новин, електронні документи, друковані видання. В основу обробки даних покладено принцип максимально можливої ​​автоматизації. Це стосується як аналізу тексту документа, так і стеження за надходженням нових документів та їх подальшого введення в сховище інформації.

Автоматичний аналіз тексту та визначення тематики інформації, що надходить, незалежно від формату її подання, пропонується виконувати безпосередньо перед введенням її в сховище, але після проведення попередньої обробки вихідних даних.

Необхідним функціональним елементом систем обробки інформації має бути перевірка її на дублювання. Особливо це актуально для Інтернет-ЗМІ, де часто зустрічається повний передрук інформації, часом і без посилання на її джерело. Не менш рідкісні ситуації, коли під час передруку змінюється лише заголовок статті та дата публікації на сайті. Тому пропонується перевіряти на повторюваність як реквізитну, так і текстову складову документа, що вводиться.

Інтернет-ЗМІ.Обробка новин, опублікованих в Інтернеті, полягає не тільки в описі структури сайту та організації процесу завантаження з нього новин, а й у дотриманні правил, встановлених на робочому місці користувача, в яких вказуються розклад та періодичність перегляду сайту, склад реквізитів, які супроводжують новини, облік тематики, визначеної на сайті, тощо.

Стрічки новин.Специфіка структури стрічки новин - наявність багатьох документів всередині одного текстового файлу. Зазвичай формат подання документів стрічки новин визначається всередині організації, що її підготувала, що говорить про їх різноманіття. Обробка стрічок новин полягає в автоматичному відстеженні нових надходжень, що зберігаються на жорсткому диску, у визначенні та розборі формату стрічки новин, виділенні окремих документів, її складових.

Електронні та паперові документи.Технологія роботи з паперовими документами зазвичай починається з переведення їх в електронний вигляд, тобто з операції сканування.

Аналітична обробка

Різні варіанти автоматизації збору різнорідної інформації та угруповання її за тематичними складовими - це лише перший крок при роботі з потоками інформації, що надходить з різних джерел. Наступним кроком має стати аналіз інформації, що найчастіше передбачає складання статистичних звітів (можливо, з елементами прогнозування) та побудову дайджестів, що дозволяють згрупувати та опублікувати дані з обраної тематики.

Статистичні звіти.Аналітичні звіти, що базуються на статистичній обробці введеної інформації, допомагають не лише швидко оцінити якість наявних даних, а й часто зробити певний прогноз на майбутнє. Такі звіти можуть будуватися як із використанням стандартних статистичних пакетів (особливо це стосується побудови прогнозів), так і в результаті експорту даних до Microsoft Excel.

Побудова дайджестів.При формуванні дайджесту (зведеного звіту) необхідно враховувати, що в ньому потрібно як найбільш повне подання інформації з заданого питання (тобто подання повного тексту документа), так і подання тільки в короткій формі, коли як текстова інформація вибирається анотація або реферат .

Інформаційно-аналітична система "Астарта"

Нижче ми розглянемо роботу описаних вище методів обробки інформації з прикладу інформаційно-аналітичної системи " Астарта " (розробник - компанія Cognitive Technologies, http://www.cognitive.ru). Це програмне рішення базується на технології "Єфрат" і призначене для збору, обробки та аналізу неструктурованої інформації, що отримується з Інтернету, друкованих матеріалів, ЗМІ та інших джерел. Воно має клієнт-серверну архітектуру з можливістю публікації на сервері документів, призначених для загального користування, та форматів стрічок новин. У системі передбачено три різнотипних робочих місця і відповідно три типи користувачів: адміністратор, експерт та користувач.

Адміністрація

Крім стандартних функцій управління правами доступу до системи та проведення регламентних робіт, на адміністратора "Астарти" покладено функції публікації на сервері системних реквізитів, загальних форматів для стрічок новин і рубрикаторів. Під час створення та коригування списку користувачів системи, а також встановлення їх прав на роботу з її компонентами можна враховувати структуру підприємства, класифікатор посад, а також зв'язки, характерні для взаємодії між підрозділами. Всі ці компоненти формуються та коригуються адміністратором з інтерфейсу системи (рис. 1).

Мал. 1. Вікно адміністратора системи.

Призначати права доступу можна як кожному користувачеві системи окремо, і групі користувачів. У разі для всіх користувачів групи автоматично встановлюються права цієї групи. Якщо користувач перебуває у кількох групах, його права розширюються відповідно до правами, які має у кожній групі.

Адміністратор - це виділений користувач системи, який не повинен мати прав на виконання функцій користувача.

Робота з рубрикатором

Формування рубрикатора - один із найважливіших кроків при підготовці системи до роботи, оскільки саме він визначає тематику, за якою розбиратиметься вхідна інформація. Система підтримує роботи з ієрархічним рубрикатором необмеженої глибини. Рубрикатор можна створити безпосередньо з інтерфейсу системи або підготувати заздалегідь у довільному текстовому редакторі та імпортувати до системи. Під час підготовки тексту рубрикатора дозволено використовувати довільні роздільники рівнів ієрархії.

За підбір навчальної вибірки відповідає або експерт системи, або фахівець, який виконує його функції. Навчальна вибірка може складатися з набору файлів, розподілених за рубриками, і з документів, раніше введених в "Астарту". При цьому можна вибрати рівень оцінки релевантності належності даній рубриці, встановленій під час введення документа в систему. Можливість участі документів системи у формуванні навчальної вибірки особливо зручна при побудові уточнюючої вибірки.

Якість роботи побудованого авторубрикатора системи визначається за результатами автоматичного визначення тематики інформації, що надходить. Авторубрикація документів проводиться на етапі введення інформації в БД. Документам надається оцінка релевантності, що характеризує належність тій чи іншій рубриці (чи кільком рубрикам). Документи, тематика яких не була встановлена, належать до останньої по порядку рубрики рубрикатора (наприклад, "Різне"). При незадовільній якості визначення тематики авторубрикатор слід перенавчити, уточнивши склад навчальної вибірки, та заново рубрикувати той самий набір документів (рис. 2).

Мал. 2. Процес побудови рубрикатора.

Результат роботи програми навчання (набір характеристичних термінів) доступний для перегляду та коригування. Експерту надається можливість відкоригувати вагу того чи іншого терміну, додати новий термін чи видалити непотрібний.

Підготовлений та навчений рубрикатор публікується на сервері системи або відразу стає доступним для подальшої роботи (якщо використовується локальна версія системи).

Робота користувача

Робота користувача системи починається з визначення списку джерел інформації, завдання розкладу роботи програми, що обробляє Інтернет-ЗМІ, і вказівки списку директорій, в яких будуть накопичуватися новинні стрічки. Крім того, необхідно обрати рубрикатор. У системі дозволено роботу з кількома рубрикаторами, т. е. будь-який документ може бути прорубрикований за кількома рубрикаторами, проте поточним у кожний час має бути один рубрикатор.

За замовчуванням система налаштована так, що один документ одночасно рубується за кількома рубриками. Однак існує можливість - і це зручно при складанні статистичних звітів - налаштувати авторубрикування за належністю документа лише до однієї рубрики.

Введення документів

Система введення підтримує автоматичний перегляд сторінок новин заздалегідь вказаних сайтів із заданою періодичністю та відповідно до складеного розкладу. Застосування системи розкладів дозволяє розподілити роботу із введення новин, відносячи її, наприклад, на нічний або обідній час.

Попередня обробка новинної Інтернет-сторінки полягає у виділенні окремих новин з блоку новин і розбору структури кожної новини, тобто у виділенні текстового фрагмента і списку реквізитів, що його супроводжують. Підготовлені таким чином новини передаються до системи введення, в процесі роботи якої проводиться перевірка на дублювання інформації, а потім авторубрикація її тексту. Повторні документи до системи не вводяться. Вся інформація про роботу з Інтернет-ЗМІ відображається у спеціальному протоколі.

При обробці стрічок новин різних форматів в першу чергу визначається формат даної стрічки. Зауважимо, що в одному потоці можуть знаходитися стрічки новин різних форматів. Потім з стрічки новин виділяються окремі новини, які передаються системі введення. Стрічки новин, формат яких системі не вдалося визначити автоматично, збираються в заздалегідь вказаному місці. Надалі можна вручну вказати формат, яким їх слід вводити. Крім того, передбачено можливість введення в "Астарту" так званих неформатних документів, тобто документів, формат яких у системі не описаний. Вказівка, що зараз запроваджуватиметься потік неформатних документів, робиться вручну.

Для обробки паперових документів у системі є можливість запустити програму сканування та вказати в її інтерфейсі місце розташування одержаних графічних образів документів. Наступне введення таких документів у систему виконується вручну, з використанням додаткової можливості розпізнавання тексту документа "на лету" (drag&recog) під час заповнення реквізитів документа. Можлива також автоматична повнотекстова індексація графічного документа шляхом сліпого розпізнавання всього графічного образу і передачі розпізнаного тексту модулю повнотекстової індексації.

Пошук документів

Розгалужена пошукова система програмного комплексу "Астарта" (рис. 3) забезпечує складання складних запитів, підтримуючи організацію повнотекстового, контекстного та реквізитного пошуку документів, причому як по локальному, так і серверному сховищу даних. При організації пошуку використовуються методи морфологічного аналізу, що дозволяють знаходити в тексті документа не тільки вказане слово (або словосполучення), але і всі його словоформи. Пошук з урахуванням морфології можна проводити як за текстом документа, і за його реквізитами.


Мал. 3. Формування запиту на пошук документів.

Інтерфейс системи дозволяє формувати запити з використанням логічних операцій І, АБО, НЕ, вказуючи тим самим точнішу умову для пошуку інформації. Є також ряд засобів та функцій, що спрощують роботу з формування запиту на пошук документів:

  • наявність словників при реквізитах системи (полегшує вибір необхідного значення);
  • можливість вказівки дати "природною" мовою (наприклад, вибір дати "березень 2003 р." рівносильний вказівці інтервалу з 1.03.03 по 31.03.03);
  • формування запиту за результатами пошуку;
  • зберігання визначених запитів.

Формування дайджестів

Формування зведених звітів (дайджестів), згрупованих за різними інформаційними зрізами, - невід'ємна частина функціональних можливостей системи (рис. 4). Для реалізації цієї можливості в системі "Астарта" є компонент, що дозволяє створювати різні шаблони подання інформації у звітах, де задаються стилі та структура всіх складових частин звіту та вказується спосіб сортування документів. Наявні налаштування дозволяють скласти дайджест лише з анотації документів або сформувати повнотекстовий дайджест. При великих обсягах інформації можна сформувати багатотомний документ або, навпаки, лише зміст для нього.


Мал. 4. Формування зведеного звіту (дайджесту).

За замовчуванням загальний документ створюється у форматі Microsoft Word, проте можна вибрати інший формат представлення даних на етапі заповнення шаблону.

Побудова статистичних зведень

Основне завдання статистичного аналізу у тому, щоб визначити тенденції розвитку досліджуваної проблеми. Найбільш наочні способи уявлення результатів - тимчасовий ряд, що показує розвиток досліджуваної величини з часом, і діаграма, що показує частку досліджуваної величини щодо інших величин. Якщо для вирішення завдань прогнозування потрібне застосування різних статистичних пакетів, що використовують спеціальні алгоритми (наприклад, алгоритм авторегресії та інтегрального ковзного середнього АРІСС - ARIMA), то якісну оцінку, отриману на підставі побудованих тимчасових рядів, можна отримати за допомогою стандартного пакета Excel.

У системі "Астарта" реалізовані обидва способи побудови різних статистичних зведень: з використанням можливостей пакета Statistica 5.5 або стандартного пакета Excel. При експорті в Excel з інтерфейсу системи можна вказати тип подання інформації: графік, кругова діаграма чи таблиця. Приклад тимчасового ряду, збудованого з використанням пакета Excel для рубрикатора сайту Lenta.ru, наведено на рис. 5.

Висновок

Інформаційним та аналітичним службам підприємств у своїй роботі доводиться стикатися з найрізноманітнішими джерелами інформації. Це паперові періодичні видання, електронні газети, інші Інтернет-ресурси, електронна пошта, передача новинних потоків по IP- і ftp-каналах і т.п. Тематичні ознаки зводить до мінімуму ймовірність пропустити необхідні відомості. Автоматична фільтрація потоків дозволяє оперативно отримувати інтегральну інформаційну картину, а для детального вивчення інформації, що надходить, може використовуватися потужний пошуковий механізм з побудовою складних запитів.

Досвід впровадження інформаційно-аналітичної системи у різних організаціях показав високу ефективність та простоту адаптації системи до місцевих умов завдяки розробленому універсальному інструменту автоматизованого завантаження великих, різноманітних структурою потоків текстової інформації.

Універсальний розбірник форматів дає можливість повністю автоматизувати введення електронних інформаційних потоків з гетерогенних джерел з приведенням інформації до єдиного внутрішнього подання, а також звести до мінімуму рутинну роботу з введення нерегулярних текстових даних (наприклад, введення текстів з паперових носіїв при розпізнаванні статей з друкованих ЗМІ) , а в перспективі та автоматичне розпізнавання поточної аудіоінформації тощо). Вбудована система автоматичного стеження за публікацією "свіжих" новин на інформаційних сайтах в Інтернеті дозволяє автоматизувати цю частину діяльності інформаційних та аналітичних служб підприємств.

Важлива обставина – гнучкість запропонованої технології авторубрикації (тематичної фільтрації). Побудову списку рубрик та навчання системи може виконувати експерт – спеціаліст інформаційно-аналітичної служби конкретного підприємства – для потреб спеціалізованого інформаційно-аналітичного обслуговування. Діапазони достовірних оцінок релевантності документів заданим рубрикам також мають бути доступні експерту як інструмент аналізу чи самонавчання системи на свіжих даних.

Аналітичний блок служить для автоматизації процесу підготовки звітів та дайджестів, а також дозволяє аналітику відстежувати та давати прогноз відображення у публічному інформаційному просторі (ЗМІ, Інтернет,..) різних тенденцій розвитку конкретної предметної галузі.

Ефективність інформаційно-аналітичних систем такого класу може бути підвищена завдяки розвитку та впровадженню методів штучного інтелекту у застосуванні до аналізу текстів, зокрема методів автоматичного семантичного аналізу текстів, розуміння сенсу.