ოპერატიული ანალიტიკური მონაცემთა დამუშავების სისტემები. ანალიტიკური მონაცემთა დამუშავების მეთოდები. ჩარჩოების სიგრძე ბიზნესისთვის

თემა 6

კორპორატიული საინფორმაციო სისტემები ეკონომიკური ინფორმაციის დამუშავებისთვის

კორპორატიული საინფორმაციო ტექნოლოგიების ცნებები

კორპორატიული საინფორმაციო ტექნოლოგიების არსი და მნიშვნელობა

ბიზნეს პროგრამების მრავალფეროვნებას შორის, ტერმინი „ინფორმაციული ტექნოლოგიები კორპორატიულ მენეჯმენტში“ ტრადიციულად ნიშნავს „კომპლექსური მართვის ავტომატიზაციის სისტემებს“. სხვა სახელები მოიცავს საწარმოს მასშტაბის სისტემებს, კორპორატიული საინფორმაციო სისტემები (CIS), კორპორატიული (ან ინტეგრირებული) მართვის სისტემები (ICS), ავტომატური კონტროლის სისტემები (ACS).

როგორც წესი, რთული ავტომატიზაციის კონტროლის სისტემები არის "ძირითადი" უნივერსალური გადაწყვეტილებები, რომლებიც შესაფერისია სხვადასხვა ტიპის საწარმოებისთვის. ჩვენ პირველ რიგში უნდა შევეხოთ ფინანსურ მენეჯმენტს, ინვენტარის მართვას, შესყიდვებსა და გაყიდვების მენეჯმენტს. თუმცა, ეს სისტემები ხშირად მიჰყვება გალუზევის გადაწყვეტილებებს, რომლებიც ასახავს ერთმანეთს. სხვა სპეციფიკა გასათვალისწინებელია შესაბამისი მარეგულირებელი და მარეგულირებელი ჩარჩოს მიხედვით.

მაგალითად, SAP R/3 სისტემის გადაწყვეტა საავიაციო ინდუსტრიისთვის მხარს უჭერს ყველა თვითმფრინავის ნაწილების სერიული წარმოების ნომრების კონტროლს, მათი ექსპლუატაციის პირობებს, დაგეგმილ ჩანაცვლებასა და შეკეთებას, რაც უზრუნველყოფს მგზავრების ინტიმურ უსაფრთხოებას.

ვინაიდან კომპლექსური მართვის სისტემები ორიენტირებულია, უპირველეს ყოვლისა, ფართომასშტაბიან სტრუქტურებსა და საწარმოებზე, ისინი არა მხოლოდ ავლენენ ფუნქციების კომპლექტის ბოდიშს, არამედ უზრუნველყოფენ ინფორმაციის დიდი ვალდებულებების საიმედო შენარჩუნებას და დამუშავებას. პლატფორმა და სისტემური ფუნქციები დაზღვეულია უხვად კორისტუვაჩივ რობოტებზე.

თანამედროვე საინფორმაციო ტექნოლოგიები, კომუნიკაციები და ინტერნეტი იძლევა დისტანციური წვდომის საშუალებას ერთ მონაცემთა ბაზაზე, რაც ასევე აქტუალურია კორპორატიული მენეჯმენტისთვის.

პობუდოვის კონცეფცია

მიუხედავად იმისა, რომ საცალო ვაჭრობის უმეტესობა თავის პროგრამულ პროდუქტებს მენეჯმენტს უწოდებს (ბიზნესის მენეჯმენტი, საწყობის მენეჯმენტი, ფინანსების მართვა და ა. უკუკავშირისა და მტკიცებულების შესაძლებლობა ანალიტიკური ნიშნებით დაშვებულ მონაკვეთებში. ასე რომ, ეს ინფორმაცია შედის მონაცემთა ბაზაში სტრუქტურირებული გზით. ეს სტრუქტურა ჩამოყალიბებულია ამ და სხვა ურთიერთდაკავშირებული ინდიკატორებით, კლასიფიკატორებით, პარამეტრებით და სტანდარტული დოკუმენტების ფორმებით. მონაცემთა ბაზაში აშკარა ინფორმაციის მიღმა ის არის „ყოფნა“, „დახატვა“, „შეგროვება“ ინსტრუმენტული საშუალებებით, ე.წ. „დისექცია“. ასეთი მონაცემების საფუძველზე დასკვნის გამოტანის შემდეგ, რომელსაც ხშირად ანალიტიკურს უწოდებენ, მკვლევარებს შეუძლიათ გადაწყვეტილების მიღება. ეს არის კლასის სისტემების მქონე რობოტების ტიპიური კონცეფცია და ტიპიური ტექნოლოგია, რომელიც განიხილება.



ასეთი განსხვავება არ არის ფუნქციურ სფეროებს, სისტემურ გადაწყვეტილებებსა და ისეთი „მართვის“ პროგრამული უზრუნველყოფის გამოყენებას, როგორიცაა „Galaktika“, „BEST“ და „1C: Enterprise“, ისევე როგორც ინფორმაციის ორგანიზაციის პრინციპებს შორის. ї, ტექნოლოგიები її ჩამოსხმა. და დამუშავება, ასევე სისტემებთან ურთიერთქმედების მეთოდები.

და მაინც, საწარმოები, მაგალითად, დღგ „ურალელექტრომედი“, კორპორატიული მმართველობისთვის ისეთი მკაცრი და მრავალფეროვანი მოთხოვნების წინაშე დგანან, რომ საჭიროა მათი ბევრი სტიმული. განვიხილოთ ცენტრალური - სისტემის ბირთვი, რომელიც არ შეიცავს პროგრამის კოდს. შემდეგი კონცეპტუალურად მნიშვნელოვანი ელემენტია სისტემის ინსტრუმენტარიუმის დანერგვა, რომელიც საშუალებას იძლევა პროგრამის კოდების შეცვლის გარეშე განახორციელოს მინიმუმ კორექტირება სამუშაო სადგურებზე, განსაზღვროს კონკრეტული ოპერაციები, შემოიტანოს ახლები და შეცვალოს ისინი. არც პირველადი და არც მნიშვნელოვანი დოკუმენტების ფორმა. არც პარამეტრული კორექტირების სხვა მეთოდების გამოყენება. სისტემის უფრო განვითარებამ შეიძლება უზრუნველყოს სხვადასხვა ბიზნეს მოდელების შექმნის შესაძლებლობა: ინფორმაციული, ორგანიზაციული, ფუნქციონალური და ა.შ. და, დიახ, თავად მონაცემთა ბაზა.

ინფორმაციის ანალიტიკური დამუშავება

ბიზნესის საქმიანობის დაგეგმვა, ოპერატიული ინფორმაციის მოპოვება და სწორი გადაწყვეტილების ზრუნვა და ანალიზი დაკავშირებულია მონაცემთა დიდი ვალდებულებების დამუშავებასთან. შედეგები, რომლებიც ყალიბდება ღრუბელზე დაფუძნებულ კორპორატიული მართვის სისტემებში, მოითხოვს სირთულის შემცირებას. მათი „დაგრეხვა“, „დაწვა“ ან „დაწვა“ არ შეიძლება, რათა ამ მონაცემებიდან ამოიღონ მონაცემები, კიდევ უფრო გრაფიკულად. რაც უფრო მეტი „ხედვა“ და „ჩაჭრა“ შეიძლება შეიქმნას, მით უფრო რეალისტურადაა შესაძლებელი საწარმოს საქმიანობის სურათის გაგება და ოპტიმალური გადაწყვეტილებების მიღება ბიზნეს პროცესების მართვისთვის. ამ ტიპის ამოცანისთვის საჭიროა მეტი მათემატიკური და ეკონომიური მოდელირება, ასევე მაღალი ეფექტურობა. ანალიტიკური მოდული ხელმისაწვდომია "RepCo" სისტემაში, ყველაზე ხშირად "Triumph-Analytics" სისტემაში (PARUS Corporation - "Tora Center"). როგორც ჩანს, ღრუბლოვანი სისტემები მოჰყვება მონაცემთა ბაზაში შენახულ ინფორმაციას სხვადასხვა „სექციებში“, უბრალოდ იდენტიფიცირებს მათ, რაც არის. და ანალიტიკური სისტემები გამოიმუშავებენ ახალ ინფორმაციას მითითებულ პარამეტრებსა და კრიტერიუმებზე დაყრდნობით, ოპტიმიზაციას უკეთებენ მას კონკრეტული მიზნებისთვის. ამიტომ, ინფორმაციის მიმოხილვისა და ვიზუალიზაციისთვის ყველაზე საჭირო სპეციალური ინსტრუმენტი არის „ონლაინ მონაცემთა ანალიზი“ (OLAP - ონლაინ ანალიტიკური დამუშავება). ეს განპირობებულია საცავში დაგროვილი ინფორმაციის ხელმისაწვდომობის, განხილვისა და ვრცელი ანალიზის სახელმძღვანელო და სწრაფი საშუალებების კომბინაციით.

OLAP ტექნოლოგიები გამოიყენება სიტუაციის მოდელირებისთვის სქემის მიხედვით "რა მოხდება, რა ...", რომელიც აერთიანებს სხვადასხვა ანალიტიკურ მონაცემებს. იპოვნეთ სპეციალიზებული პროგრამული პროდუქტები.

კორპორატიული მართვის სისტემებიდან ინფორმაცია გადადის ანალიტიკური მონაცემთა დამუშავების სპეციალიზებულ პროგრამებში. ბევრი კომერციული საცალო ვაჭრობა ცდილობს გაარკვიოს როგორ გააკეთოს ეს დამოუკიდებლად, მაგალითად, კომპანიები "Nikos-Soft" (NS-2000 სისტემა), "Cefei" (კორპორატიული მართვის სისტემა "Etalon"), "COMSOFT" (პროგრამული უზრუნველყოფა). -მეთოდური და ინსტრუმენტული კომპლექსი "COMSOFT-STANDARD" 2.0) ტა ინ.

6.4. კორპორატიული საინფორმაციო ტექნოლოგიების განვითარებისა და განვითარების პერსპექტივები

გარდა ყოველდღიური ხელსაწყოებისა და პლატფორმების განვითარებისა, ასევე სისტემის მახასიათებლებისა, ეროვნული კორპორატიული სისტემების განვითარება გადასცემს მათ ფუნქციურ ინტენსივობას, განსაკუთრებით წარმოების თვალსაზრისით.

კონტროლის სტანდარტების ფართო დანერგვის მიუხედავად, საკვების პროგრამული უზრუნველყოფის ბაზარზე წამყვანი მოთამაშეები დაკავებულნი არიან Galouze გადაწყვეტილებების შემუშავებით სხვადასხვა ტიპის წარმოებისთვის.

არსებობს ფირმების ცვალებადობის შიში, გამოავლინონ თავიანთი მოვლენების „კონფიდენციალურობა“, რაც იწვევს მათი მცდელობების კონსოლიდაციას მათი პროდუქტების ინტეგრირებისთვის, ვიდრე დამოუკიდებლად განავითარონ ყველაფერი „ა“-დან „ზ“-მდე. დღეს რესურსების ფლანგვა არ ხდება. ახალი კონცეფციის გააზრებისას, პროექტისა და სისტემის შემუშავებისას იკარგება თავად სისტემა, რომელიც ძალას იცვლის იმისდა მიხედვით, თუ რა არის მასში. გარდა ამისა, ასევე არის ბიზნესები, რომლებსაც შეუძლიათ პროგრამული პროდუქტების ინტეგრირება, რომელთაც სურთ დაზოგონ „მუშაობა“, ჩვეულებრივ სპეციალიზებული, სისტემები და საინფორმაციო სისტემები, რათა მათ ინტეგრირდეს ახალი დანამატებით.

ინტეგრაცია ასევე საჭიროა სხვადასხვა მწარმოებლის პროდუქციისთვის - რთული გადაწყვეტილებების სპეციალიზებულთან შერწყმის მიზნით:

– ბიუჯეტირება, ფინანსური და ეკონომიკური ანალიზი, მომხმარებლის მომსახურება, მონაცემთა ანალიტიკური დამუშავება და ა.შ.

უნდა აღინიშნოს, რომ პერსპექტიულია არა თავად კონტროლის სისტემები, არამედ შექმნილი მარტივი და უნივერსალური ინსტრუმენტი, რომელიც განკუთვნილია კვალიფიციური შუამავლებისთვის საცალო ვაჭრობასა და საბოლოო მომხმარებელს შორის. ამ ფუნქციების გამორთვა შესაძლებელია სისტემის ადმინისტრატორისა და ანალიტიკის მიერ.

ასეთი ხელსაწყოს არსებობის გამო, საჭირო იქნება "მზა" სტანდარტული გადაწყვეტილებები ყველა ტიპის drywall ბიზნესისთვის.

ინტერნეტი, როგორც ბიზნესის განვითარების დამატებითი ინსტრუმენტი, ეფექტურია მხოლოდ ყოვლისმომცველი მართვის სისტემის არსებობის შემთხვევაში.

თუ თანამედროვე საინფორმაციო და საკომუნიკაციო ტექნოლოგიები, მათ შორის ინტერნეტი, საშუალებას გაძლევთ მოაწყოთ პროგრამული უზრუნველყოფის დაქირავება, ისაუბრეთ ასეთი შესაძლებლობების უახლოეს მომავალზე, განსაკუთრებით ჩვენს ქვეყანაში. და ეს არ ეხება იმდენად კონფიდენციალურობას, რამდენადაც შეკვეთის ხელმისაწვდომობა და საიმედო კომუნიკაციის მეთოდები.

კომერციულ საწარმოებში ინფორმაციული ტექნოლოგიების გამოყენების სცადა და დამტკიცების შემდეგ, პრაქტიკულად ცხადი გახდა, რომ „ქაოსის ავტომატიზაცია შეუძლებელია“. აუცილებელია თავად საწარმოს ბიზნესის რეორგანიზაცია, ასევე მენეჯმენტის რეგულაციების (ინსტრუქციების) დანერგვა. ბიზნეს მუშაკებს უჭირთ დამოუკიდებლად გაუმკლავდნენ ასეთ სამუშაოს. რისკის ფაქტორი განსაკუთრებით მნიშვნელოვანია ბაზრის გონებაში. აქედან გამომდინარე, ყველგან ვითარდება საკონსულტაციო კომპანიებთან თანამშრომლობის პრაქტიკა, რომელიც ეხმარება საწარმოებს და მათ სპეციალისტებს „გაფართოვდეს სფეროები“, გააუმჯობესოს ძირითადი ბიზნეს პროცესი და ა.შ. როდესაც ტექნოლოგია განვითარდება, იქნება საინფორმაციო ნაკადები. განვითარების პროცესის ავტომატიზაცია უფრო მარტივი, მარტივი, იაფი, სწრაფია.

კოჟენს შეუძლია იზრუნოს მის კანონზე. ბუღალტერი, გამყიდველი, გაყიდვების მენეჯერი და სხვა „სუბიექტის“ ბუღალტერები არ არიან ვალდებულნი საფუძვლიანად შეავსონ დოკუმენტის ფორმების ფორმა, მონიშნონ სვეტები ან შეცვალონ ისინი მათ ადგილას კანონმდებლობისა და ბიზნეს სქემების ცვლილებებთან დაკავშირებით. აქედან გამომდინარე, პროგრამული უზრუნველყოფის ბაზარი გადადის "სასურსათო" ბაზრიდან "მომსახურების" ბაზარზე. იწყებს განვითარებას აუთსორსინგი - საწარმოს გარკვეული ფუნქციების გადაცემა შეძენილი კომპანიების მენეჯერებზე. ისინი ეწევიან აღჭურვილობის, სისტემური პროგრამული უზრუნველყოფის მოვლას, სისტემების გამოყენებული (ფუნქციონალური) ნაწილის მოდიფიკაციას და ა.შ.

კორპორაციული მართვის თანამედროვე სისტემებისთვის ყველაზე მნიშვნელოვანი და აქტუალური საკითხია საინფორმაციო ტექნოლოგიები და მათი თანამშრომლებისა და თანამშრომლების მეთოდური მომსახურება.

საუკუნეების მანძილზე საინფორმაციო ტექნოლოგიები ორიენტირებული იყო კორპორატიული ტრანზაქციების დამუშავების მხარდაჭერის სისტემების უზრუნველყოფაზე. ასეთი სისტემები უნდა იყოს ვიზუალურად მდგრადი ლაქების მიმართ და უზრუნველყოს გლუვი დასრულება. ეფექტური გადაწყვეტა მოწოდებული იყო OLTP-ის მიერ, რომელიც ორიენტირებული იყო განაწილებულ რელაციურ მონაცემთა ბაზაზე.

ამ სფეროში უახლესი მიღწევები იყო კლიენტ-სერვერის არქიტექტურის დამატება. OLTP დანამატების შემუშავებისთვის უამრავი ინსტრუმენტი იყო ხელმისაწვდომი.

მონაცემებზე წვდომა ხშირად მოითხოვს როგორც OLTP პროგრამებს, ასევე გადაწყვეტილებების მხარდაჭერის საინფორმაციო სისტემებს. სამწუხაროდ, შეურაცხყოფილი სასმელების სერვისის მცდელობა შეიძლება იყოს პრობლემური. ამიტომ, კომპანიის თანამშრომლებმა აირჩიეს მონაცემთა ბაზის დაყოფა OLTP ტიპებად და OLAP ტიპებად.

OLAP (ონლაინ ანალიტიკური დამუშავება - ოპერატიული ანალიტიკური დამუშავება)- ეს არის საინფორმაციო პროცესი, რომელიც შესაძლებელს ხდის სისტემაში წვდომას, ანალიზის ჩატარებას და ა.შ. ოპერაციულ რეჟიმში (ონლაინ). შედეგები გენერირდება წამებში.

მეორეს მხრივ, OLTP სისტემაში დიდი რაოდენობით მონაცემები მუშავდება ისე სწრაფად, როგორც ისინი შემოდის.

Wikonan OLAP სისტემები განკუთვნილია სამრეწველო back-end კლიენტებისთვის, ხოლო OLTP სისტემები შემუშავებულია პროფესიონალი back-end კლიენტებისთვის. OLAP ახორციელებს ისეთ აქტივობებს, როგორიცაა მოთხოვნების გენერირება, ad hoc ზარების მოთხოვნა, სტატისტიკური ანალიზის შესრულება და მულტიმედიური პროგრამების გაშვება.

OLAP-ის უზრუნველსაყოფად, თქვენ უნდა იმუშაოთ მონაცემთა საწყობთან (ან მონაცემთა მდიდარ კოლექციასთან), ასევე ინსტრუმენტების კომპლექტით, შესაძლებლობების ფართო სპექტრით. ეს მეთოდები შეიძლება შეიცავდეს შეკითხვის ინსტრუმენტებს, ცხრილებს, მონაცემთა მოპოვების ტექნიკას, მონაცემთა ვიზუალიზაციის ტექნიკას და სხვა.

OLAP კონცეფცია ეფუძნება მონაცემთა მდიდარი და მრავალფეროვანი წარმოდგენის პრინციპს. ე. კოდმა, შეხედა ურთიერთობითი მოდელის რამდენიმე ნაწილს, პირველ რიგში მიუთითა მონაცემთა გაერთიანების, განხილვისა და ანალიზის შეუძლებლობაზე გადაშენების სიმრავლის თვალსაზრისით, კორპორატიული ანალიტიკოსებისთვის ყველაზე გონივრული გზით და, შესაბამისად, ის ასევე შესაფერისია OLAP სისტემებისთვის, რომელიც აფართოებს რელაციური DBMS-ების ფუნქციონირებას და მოიცავს მისი ერთ-ერთი მახასიათებლის მდიდარ ანალიზს.

ბევრ პუბლიკაციაში, აბრევიატურა OLAP გამოიყენება მონაცემთა მდიდარი ხედის აღსანიშნავად და თავად მონაცემთა მდიდარ მონაცემთა ბაზაში შესანახად. როგორც ჩანს, ეს არასწორია, რადგან თავად კოდი ვარაუდობს, რომ რელაციური მონაცემთა ბაზები იქნება საუკეთესო ტექნოლოგია კორპორატიული მონაცემების შესანახად. საჭიროა არა ახალი მონაცემთა ბაზის ტექნოლოგია, არამედ ანალიზის ტექნიკა, რომელიც ავსებს არსებული DBMS-ების ფუნქციებს და ამატებს ფუნქციებს სხვადასხვა ტიპის ინტელექტუალური ანალიზის გადასაცემად და ავტომატიზაციისთვის, Power OLAP.

კოდის აზრით, არსებობს მდიდარი მსოფლიო კონცეპტუალური გამოვლინება და მრავალმხრივი პერსპექტივა, რომელიც შედგება რამდენიმე დამოუკიდებელი სამყაროსგან, რომელთა ანალიზიც შესაძლებელია მონაცემთა მთლიანობიდან. მრავალი სამყაროს ერთსაათიანი ანალიზი ითვლება მდიდარ მსოფლიო ანალიზად. Kozhen vimir მოიცავს უშუალოდ მონაცემების კონსოლიდაციას, რომელიც წარმოიქმნება ანალიზის თანმიმდევრული დონის სერიიდან, სადაც მიმდინარე დონე შეესაბამება მონაცემთა ერთიდან მეორეში გაერთიანების დიდ ხარისხს imir-ში. ამრიგად, ვიკონავეცის გარდაცვალება შეიძლება ჩაითვალოს პირდაპირ კონსოლიდაციად, რომელიც წარმოიქმნება „საწარმო – დაყოფილი – ფილიალი – სერვისის“ გათანაბრების შედეგად. Vimir Hour ახლა შეიძლება შეიცავდეს ორ პირდაპირ კონსოლიდაციას - "მდინარე - მეოთხედი - თვე - დღე" და "კვირა - დღე", რადგან საათები განსხვავდება თვის და წლის მიხედვით. ამ შემთხვევაში შესაძლებელი ხდება კანის მკურნალობისთვის ინფორმაციის სასურველი დონის დეტალების შერჩევა. დაღმართის ოპერაცია შეესაბამება მოძრაობას კონსოლიდაციის უმაღლესი დონეებიდან ყველაზე დაბალზე; თუმცა, ოპერაცია მაღლა ნიშნავს აწევას ქვედა დონეებიდან უმაღლესზე.

Codd-მა გამოავლინა 12 წესი, რაც შესაძლებელს ხდის პროგრამული პროდუქტის დაკმაყოფილებას OLAP კლასში. ეს არის წესები:

1. ბევრი განსხვავებული კონცეპტუალური მონაცემია.

2. გამჭრიახობა.

3. ხელმისაწვდომობა.

4. იყავი პროდუქტიული.

5. კლიენტი – სერვერის არქიტექტურა.

6. სამყაროთა თანასწორობა.

7. იშვიათი მატრიცების დინამიური დამუშავება.

8. მდიდრულად დაზღვეული რეჟიმის მხარდაჭერა.

9. არამიწიერი ოპერაციების მხარდაჭერა შეზღუდული არ არის.

10. მონაცემებით ინტუიციური მანიპულირება.

11. ბგერების შექმნის მხრის მექანიზმი.

12. ვიბრაციის და თანაბარი აგრეგაციის რაოდენობა შეზღუდული არ არის.

მათმა ერთობლიობამ შესაძლებელი გახადა, რომ იქცა OLAP-ის ფაქტობრივ მნიშვნელობებად, განხილულიყო რეკომენდაციებად და კონკრეტული პროდუქტის შეფასება ეტაპობრივად, სანამ ის იდეალურად შეესაბამებოდა ყველა შესაძლებლობას.

ინტელექტუალური მონაცემთა ანალიზი.

ინტელექტუალური მონაცემთა ანალიზი (IDA), ან მონაცემთა მოპოვება, არის ტერმინი, რომელიც გამოიყენება მონაცემთა ბაზებიდან ცოდნის აღმოჩენის, ხილული ცოდნის, მონაცემთა მიკვლევა, მონაცემთა მიკვლევა, მონაცემთა დამუშავება, მონაცემთა გაწმენდა და მონაცემთა შეგროვება; დაუყოვნებლივ ემთხვევა კომპანიონი PZ-ს პატივისცემას. ყველა ეს ქმედება ავტომატურად ხორციელდება და არაპროგრამისტებს საშუალებას აძლევს მიიღონ საუკეთესო შედეგი.

რეცხვა ჩატარდება კინეტიკური კორისტუვაჩით, შესაძლოა ნატურალური რძით. მოთხოვნა გადაიქცევა SQL ფორმატში. SQL-ს მოეთხოვება ერთდროულად წვდომა DBMS-ზე, რომელიც ინახავს მონაცემთა ბაზას ან მონაცემთა შენახვას. DBMS-მა იცის პასუხი შეკითხვაზე და აწვდის მას უკან. შემდეგ მოსწავლეს შეუძლია პრეზენტაციის დეტალურად დამუშავება ან მისი შესაძლებლობების მაქსიმალურად წარმოჩენა.

ბევრი მნიშვნელოვანი გადაწყვეტილება ბიზნესისა და სოციალური სფეროს ნებისმიერ სფეროში ეფუძნება დიდი და რთული მონაცემთა ბაზების ანალიზს. IAD შეიძლება კიდევ უფრო მუქი იყოს ამ პერიოდებში.

ინტელექტუალური მონაცემთა ანალიზის მეთოდები მჭიდროდ არის დაკავშირებული OLAP ტექნოლოგიებთან და მონაცემთა მოპოვების ტექნოლოგიებთან. ამიტომ, საუკეთესო ვარიანტია განხორციელების ყოვლისმომცველი მიდგომა.

იმისათვის, რომ ნედლეულმა მონაცემთა შეგროვებამ მიიღოს მენეჯმენტის გადაწყვეტილებები, ინფორმაცია ანალიტიკოსს უნდა წარუდგინოს საჭირო ფორმით, რათა ინსტრუმენტს არ ჰქონდეს წვდომა მონაცემთა შეგროვებასა და მის დამუშავებაზე.

ყველაზე ხშირად, საინფორმაციო და ანალიტიკური სისტემები, რომლებიც შექმნილია გადაწყვეტილების მიმღებთა დაუყოვნებელი გამოყენებისთვის, ძალიან მარტივია მათი სტაგნაციით, მაგრამ საკმაოდ შეზღუდული ფუნქციონირებით. ასეთ სტატიკურ სისტემებს სერვერის საინფორმაციო სისტემები ეწოდება. ისინი შეგიქმნით სასმელების უპიროვნების შთაბეჭდილებას და, რაც საკმარისია ყოველდღიური შემოწმებისთვის, წარმოუდგენელი პასუხებია ყველა კვებაზე, სანამ აშკარა მონაცემი შეიძლება წარმოიშვას გადაწყვეტილების მიღებისას. ასეთი სისტემის მუშაობის შედეგები, როგორც წესი, არის მდიდარი სიგნალები, რომელთა ფრთხილად მოდიფიკაციის შემდეგ ანალიტიკოსი ჩნდება მონაცემთა ახალი სერია. თუმცა, ახალი ჩანაწერი, ასეთი სისტემის დიზაინის დროს გადაცემის წარუმატებლობა, ძირითადად განპირობებულია ფორმალური აღწერებით, პროგრამისტის მიერ კოდირებით და მხოლოდ ამის შემდეგ ცვლილებებით. ასეთ დროს გამოჯანმრთელების საათი შეიძლება უფრო და უფრო მეტი დღე გახდეს, მაგრამ ის აღარასოდეს იქნება სასიამოვნო. ამრიგად, გადაწყვეტის მხარდამჭერი სტატისტიკური IS-ის უკიდურესი სიმარტივე, რომლისთვისაც აქტიურად იბრძვის საინფორმაციო და ანალიტიკური სისტემების მენეჯერების უმეტესობა, ძალაუფლების ფუჭად კარგვაა.

თუმცა, დინამიური IS-ის მხარდაჭერის გადაწყვეტილებები მიზნად ისახავს ანალიტიკოსებიდან მონაცემებისადმი ad hoc მოთხოვნების დამუშავებას. ანალიტიკოსების მუშაობა ამ სისტემებთან მოიცავს ინტერაქტიული თანმიმდევრობით ფორმირებას მოთხოვნების და მათი შედეგების ანალიზს.

ალტერნატიულად, დინამიურ IS გადაწყვეტილებებს შეუძლიათ მხარი დაუჭირონ აქტივობებს ონლაინ ანალიტიკური დამუშავების (OLAP) სფეროში. დაგროვილი მონაცემების მენეჯმენტიდან მენეჯერული გადაწყვეტილებების მიღების წახალისება შეიძლება ფოკუსირებული იყოს სამ ძირითად მიმართულებაზე.

1. დეტალური მონაცემების ფარგლები. ამ სფეროში შემოდის უამრავი სისტემა, რომლებიც ორიენტირებულია ინფორმაციის მოძიებაზე. რელაციური DBMS-ების უმეტესობა კარგად უმკლავდება აქ წარმოქმნილ ნებისმიერ პრობლემას. მიმართებითი მონაცემების მანიპულირების წამყვანი სტანდარტი არის SQL. საინფორმაციო-საძიებო სისტემები, რომლებიც უზრუნველყოფენ საბოლოო მომხმარებლის კომპიუტერის ინტერფეისს დეტალური ინფორმაციის მოსაძიებლად, შეიძლება მოძებნოთ, ისევე როგორც ამ ტრანზაქციული სისტემების სხვა მონაცემთა ბაზებში და მიწისქვეშა საცავებში.

2. აგრეგირებული ინდიკატორების სფერო. ყოვლისმომცველი მიმოხილვა მონაცემთა შენახვისგან, მისი ორგანიზებული აგრეგაციისა და OLAP სისტემების მონაცემების მდიდარი ანალიზის შესახებ. აქ შეგიძლიათ ან ფოკუსირება მოახდინოთ სპეციალურ მდიდარ DBMS-ებზე, ან დაკარგოთ თავი რელაციური ტექნოლოგიების ფარგლებში. სხვა ტიპის შემთხვევაში, გაერთიანებული მონაცემები შეიძლება შეგროვდეს ვიზუალურ მონაცემთა ბაზაში, ხოლო ინფორმაციის აგრეგაცია შეიძლება მოხდეს რელაციური მონაცემთა ბაზის დეტალური ცხრილის სკანირების პროცესში.

3. ნიმუშების სფერო. ინტელექტუალური დამუშავება ხორციელდება ძირითადი ამოცანების მონაცემების ინტელექტუალური ანალიზის მეთოდებით, როგორიცაა ინფორმაციის დაგროვების ფუნქციური და ლოგიკური შაბლონების ძიება, მოდელებისა და წესების შექმნა, რომლებიც ხსნიან გამოვლენილ ანომალიებს და/ან იწინასწარმეტყველებენ განვითარებას. საქმიანობა წესივ.

საინფორმაციო და ანალიტიკური სისტემის სრული სტრუქტურა, მონაცემთა საწყობზე დაფუძნებული, ნაჩვენებია ნახ. 3.2. სხვა კომპონენტების სპეციფიკურ განხორციელებაში, მიკროსქემის მნიშვნელობები ხშირად განსხვავებულია.

3.4 ანალიტიკური მონაცემთა დამუშავების მეთოდები

იმისათვის, რომ ნედლეულმა მონაცემთა შეგროვებამ მიიღოს მენეჯმენტის გადაწყვეტილებები, ინფორმაცია ანალიტიკოსს უნდა წარუდგინოს საჭირო ფორმით, რათა ინსტრუმენტს არ მიეცეს წვდომა მონაცემთა შეგროვებასა და მის დამუშავებაზე.

ყველაზე ხშირად, საინფორმაციო და ანალიტიკური სისტემები, რომლებიც შექმნილია გადაწყვეტილების მიმღებთა დაუყოვნებელი გამოყენებისთვის, ძალიან მარტივია მათი დიზაინით, მაგრამ საკმაოდ შეზღუდული ფუნქციონალურობით. ასეთ სტატიკურ სისტემებს ეძახიან Enterprise Information Systems (ISR) ან Executive Information Systems (EIS). არსებობს უამრავი კითხვა და, საკმარისია ყოველდღიური შემოწმებისთვის, არ არსებობს მითითებები ყველა კვების შესახებ, რომელიც შეიძლება წარმოიშვას გადაწყვეტილების მიღებისას. ასეთი სისტემის მუშაობის შედეგი, როგორც წესი, არის მდიდარი სიგნალები ფრთხილად მოდიფიკაციის შემდეგ, რომელსაც ანალიტიკოსი იღებს საკვების ახალ სერიას. თუმცა, ახალი ჩანაწერი, ასეთი სისტემის დიზაინის დროს გადაცემის წარუმატებლობა, ძირითადად განპირობებულია ფორმალური აღწერებით, პროგრამისტის მიერ კოდირებით და მხოლოდ ამის შემდეგ ცვლილებებით. ასეთ დროს გამოჯანმრთელების საათი შეიძლება უფრო და უფრო მეტი დღე გახდეს, მაგრამ ის აღარასოდეს იქნება სასიამოვნო.

ოპერატიული ანალიტიკური დამუშავება. ან On-Line ანალიტიკური დამუშავება, OLAP არის მონაცემთა საწყობების ორგანიზების ძირითადი კომპონენტი. OLAP კონცეფცია აღწერილია 1993 წელს. ედგარ კოდი იძლევა შემდეგ სარგებელს ვრცელი ანალიზისთვის:

- მონაცემთა მდიდარი კონცეპტუალური პრეზენტაცია, იერარქიებისა და მრავალჯერადი იერარქიების განახლებული მხარდაჭერის ჩათვლით (OLAP-ის ძირითადი მახასიათებელი);

- ანალიზის შედეგების მიწოდება სასიამოვნო საათში (არაუმეტეს 5 წამისა), არ მოხდეს ნაკლებად დეტალური ანალიზის ფასად;

– მოცემული პროგრამისთვის სპეციფიკური ნებისმიერი ლოგიკური და სტატისტიკური ანალიზის ჩატარების და საბოლოო მომხმარებლისთვის მისაწვდომი სახით შენახვის შესაძლებლობა;

- მონაცემთა პერსონალური წვდომის ფართო სპექტრის სადაზღვევო დაფარვა უსაფრთხო დაბლოკვის მექანიზმებისა და ავტორიზებული წვდომის მექანიზმების მხარდაჭერით;

– ნებისმიერ საჭირო ინფორმაციაზე წვდომის შესაძლებლობა დამოუკიდებელია მისი შენახვის ვალდებულებისგან.

OLAP სისტემა შედგება რამდენიმე კომპონენტისგან. ყველაზე მოწინავე დონეზე, წარმოდგენილი სისტემა მოიცავს მონაცემთა ბირთვს, დიდ მონაცემთა ბაზას (MBD), რაც შესაძლებელს ხდის OLAP ტექნოლოგიაზე დაფუძნებული ანგარიშების დასაკეცი მექანიზმის დანერგვას, OLAP სერვერს და კლიენტს. სისტემა ეფუძნება კლიენტ-სერვერის პრინციპს და უზრუნველყოფს MDB სერვერზე გრძელვადიან წვდომას.

მოდით შევხედოთ საწყობის OLAP სისტემებს.

ძერელა. Jerel OLAP სისტემებში არის სერვერი, რომელიც იღებს მონაცემებს ანალიზისთვის. კერძოდ, OLAP პროდუქტის ბირთვი შეიძლება იყოს მონაცემთა საწყობი, მონაცემთა ბაზა, რომელიც იშლება, ფარული მონაცემების შენახვა, აკრეფა.

ცხრილი, რომელიც აჯამებს ფინანსურ მონაცემებს ან ზემოაღნიშნულის ნებისმიერ კომბინაციას.

ხარკების თაიგული. გამომავალი მონაცემები გროვდება და ინახება მონაცემთა საწყობის პრინციპების მიხედვით შექმნილ საწყობში. მონაცემთა ბაზა არის რელაციური მონაცემთა ბაზა (RDB). მთავარი ცხრილი DW (ფაქტების ცხრილი) შეიცავს ინდიკატორების ციფრულ მნიშვნელობებს, რომლებიც აგროვებენ სტატისტიკურ ინფორმაციას.

დიდი გლობალური მონაცემთა ბაზამონაცემთა შეგროვება ემსახურება ინფორმაციის წყაროს მონაცემთა მდიდარი მონაცემთა ბაზისთვის, რომელიც წარმოადგენს ობიექტების ერთობლიობას. ამ ობიექტების ძირითადი კლასებია გადაშენება და ჩვენება. სიკვდილამდე შეყვანილია უპიროვნო მნიშვნელობები (პარამეტრები), რისთვისაც საჭიროა მონაცემთა ინდექსირება, მაგალითად, საათი, რეგიონი, ინსტალაციის ტიპი და ა.შ. კანის მონაცემები ივსება მონაცემთა შენახვის ცხრილის მნიშვნელობებით. ვიმირების მთლიანობა მიუთითებს გასატარებელი პროცესის მასშტაბებზე. ეკრანის ქვეშ არის სხვადასხვა მონაცემთა კუბი (ჰიპერკუბები). ჰიპერკუბი შეიცავს მონაცემებს, ისევე როგორც მთლიანი თანხები კორექტირებისთვის, რომლებიც შედის ჩვენების საწყობში. ინდიკატორები ემატება MDB-ის ძირითად ჩანაცვლებას და შესაბამისად ივსება ფაქტების ცხრილის მიხედვით. ჰიპერკუბის კანის ღერძის გასწვრივ მონაცემები შეიძლება ორგანიზებული იყოს იერარქიაში, რომელიც წარმოადგენს დეტალების სხვადასხვა დონეს. ეს იძლევა იერარქიული ცვლილებების შექმნის საშუალებას, რაც მონაცემთა შემდგომი ანალიზის დროს იწვევს მონაცემთა აგრეგაციას და დეტალიზაციას. იერარქიული სამყაროს ტიპიური მაგალითია ტერიტორიული ობიექტების სია, რომლებიც დაჯგუფებულია რაიონების, რეგიონების, რაიონების მიხედვით.

სერვერი OLAP სისტემის აპლიკაციის ნაწილი არის OLAP სერვერი. ეს საწყობი ინახავს ყველა სამუშაოს (დამოკიდებულია სისტემის მოდელზე) და ინახავს ყველა ინფორმაციას აქტიური წვდომის უზრუნველყოფამდე. სერვერის არქიტექტურა იმართება სხვადასხვა კონცეფციით. Zokrema, OLAP პროდუქტების მთავარი ფუნქციური მახასიათებელია MDB და RDB მონაცემთა შენახვის გამოყენება.

კლიენტის პროგრამამონაცემები სტრუქტურირებულია უნიკალური გზით და ინახება MDB-ში, რომელიც ხელმისაწვდომია დამატებითი კლიენტის პროგრამების ანალიზისთვის. ავტორი იძლევა მონაცემებზე დისტანციური წვდომის, რთული მოთხოვნების ფორმულირების, მოთხოვნების შექმნისა და მონაცემთა მრავალი ქვეჯგუფის მოპოვების საშუალებას. გადაწყვეტილება დამოკიდებულია კონკრეტული მნიშვნელობების შერჩევასა და ჰიპერკუბის მოჭრის აუცილებლობაზე. ბადურა მითითებულია ვიმირების შერჩეული მნიშვნელობებით. მონაცემები უნდა იქნას გათვალისწინებული სხვა გადაშენებამდე.

OLAPკლიენტზე და სერვერზე.მონაცემთა ვრცელი ანალიზი შეიძლება განხორციელდეს სხვადასხვა მეთოდების გამოყენებით, რომლებიც შეიძლება დაიყოს კლიენტისა და სერვერის OLAP ფუნქციებად.

კლიენტის მხარის OLAP ფუნქციები (მაგალითად, Pivot Tables Excel 2000-ში Microsoft-დან ან ProClarity Knosys-ისგან) უზრუნველყოფს დანამატებს, რომლებიც საშუალებას გაძლევთ გამოთვალოთ მთლიანი მონაცემები და მათი ჩვენება. ამ შემთხვევაში, მთლიანი მონაცემები თავად მდებარეობს ქეშებში OLAP მისამართის სივრცის შუაში.

თუ გამომავალი მონაცემები განთავსებულია დესკტოპის DBMS-ში, მთლიანი მონაცემების გამოთვლა ხდება თავად OLAP მეთოდით. გამომავალი მონაცემების შედეგად - სერვერის DBMS, რომელიც კლიენტის OLAP შესაძლებლობების გამოყენებით აგზავნის SQL შეკითხვებს სერვერზე და, შედეგად, წარმოქმნის სერვერზე გამოთვლილ მთლიან მონაცემებს.

როგორც წესი, OLAP ფუნქციონირება ხორციელდება მონაცემთა სტატისტიკურ დამუშავებაში და სხვადასხვა ელექტრონულ ცხრილებში.

არსებობს მრავალი განვითარების მეთოდი კლასების ან კომპონენტების ბიბლიოთეკების შესაქმნელად, რომლებიც საშუალებას გაძლევთ შექმნათ დანამატები, რომლებიც განახორციელებენ უმარტივეს OLAP ფუნქციონირებას (როგორიცაა, მაგალითად, Decision Cube Borland Delphi და Borland C++ Builder-ის კომპონენტები). გარდა ამისა, არსებობს უამრავი კომპანია, რომლებიც ავრცელებენ ActiveX ელემენტებს და სხვა ბიბლიოთეკებს, რომლებიც ახორციელებენ მსგავს ფუნქციონირებას.

კლიენტის OLAP ფუნქციები სტაგნაციისკენ მიდრეკილია, როგორც წესი, როდესაც არის ცვლადების მცირე რაოდენობა (რიცხვი არაუმეტეს ექვსი) და მცირე მრავალფეროვნება ამ პარამეტრების მნიშვნელობებში - მთლიანი მონაცემების ფრაგმენტები უნდა განთავსდეს მისამართში. სივრცე ისე, და მათი რაოდენობა ექსპონენტურად იზრდება ვიბრაციების მზარდი რაოდენობით.

კლიენტის OLAP-ის მრავალი ფუნქცია შეიძლება ინახებოდეს ქეშში, ფაილში მთლიანი მონაცემებით, რათა არ მოხდეს მათი ხელახლა გამოთვლა. თუმცა, ეს უნარი ხშირად გამოიყენება საერთო მონაცემების ამოსაღებად სხვა ორგანიზაციებში გადასაცემად ან გამოსაქვეყნებლად.

ფაილში მთლიანი მონაცემების ქეშის შენახვის იდეას შემდგომი განვითარება აქვს სერვერის OLAP-ტექნიკებში (მაგალითად, Oracle Express Server ან Microsoft OLAP Services), როგორიცაა მთლიანი მონაცემების შენახვა და შეცვლა, აგრეთვე მექანიზმის ხელშეწყობა. რომელიც შეიძლება გამოყენებულ იქნას მათ მოსაშორებლად. ჩვენ მოგნათლავთ დამატებითი პროცესით, ჩვენ ვუწოდებთ OLAP სერვერს. კლიენტის პროგრამებს შეუძლიათ მოიძიონ მსგავსი სიმდიდრე მონაცემები და მიიღონ სხვა მონაცემები მისგან. ნებისმიერ კლიენტ პროგრამას შეუძლია შექმნას ასეთი მოვლენები ან განაახლოს ისინი შეცვლილი გამომავალი მონაცემების მიხედვით.

სერვერის მხარეს OLAP შესაძლებლობების დაყენების უპირატესობები კლიენტის მხარეს OLAP-ტექნიკებთან შედარებით, მსგავსია სერვერის DBMS-ის დაყენების უპირატესობებთან შედარებით დესკტოპთან შედარებით: სერვერის მხრივ შესაძლებლობების დაყენების შემთხვევაში ხდება მთლიანი მონაცემების გაანგარიშება და შენახვა. შესრულებული. განლაგებულია სერვერზე და კლიენტის დანამატი იღებს მხოლოდ მათ წინაშე არსებული მოთხოვნების შედეგებს, რაც საშუალებას იძლევა ეს გამოიწვევს შუალედური ტრაფიკის შემცირებას, გაჩერების დროს და კლიენტის მიერ მოწოდებულ რესურსებზე წვდომას.

3.5 გლობალური მონაცემთა შენახვის ტექნიკური ასპექტები

OLAP აპლიკაციების მრავალფეროვნება შეიძლება დაიყოს სამ დონეზე:

1. მდიდარი მსოფლიო მონაცემები– საბოლოო მომხმარებლის მახასიათებლები მონაცემთა მდიდარი ვიზუალიზაციისა და მანიპულაციის უზრუნველსაყოფად; მდიდარი სამყაროს ბურთი ავლენს აბსტრაქციებს მონაცემთა ფიზიკური სტრუქტურიდან და აღიქვამს მონაცემებს, როგორც მდიდარ სამყაროს.

    მდიდარი მსოფლიო ნიმუში- მრავალფეროვანი მოთხოვნების ფორმულირება (ტრადიციული რელაციური SQL ენა აქ შეუსაბამოა) და პროცესორი, რომელსაც შეუძლია დამუშაოს და გამოიტანოს ასეთი შეკითხვა.

    ბაგატომირნე შემნახველი- მონაცემების ფიზიკური ორგანიზაციის თავისებურებები, რომლებიც უზრუნველყოფენ აპლიკაციების მრავალფეროვნების ეფექტურ დამუშავებას.

პირველი ორი დონე არსებითად არის წარმოდგენილი OLAP-ის ყველა აპლიკაციაში. მესამე ხაზი, თუმცა ის უნდა გაფართოვდეს, სულაც არ არის რთული; მდიდრულად გლობალური ფენომენის მონაცემების ფრაგმენტები შეიძლება გამოვიდეს ტრადიციული რელაციური სტრუქტურებიდან. rich-world შეკითხვის პროცესორი, ამ შემთხვევაში, თარგმნის rich-world შეკითხვებს SQL შეკითხვებად, რომლებიც მუშავდება რელაციური DBMS-ით.

მონაცემთა ნებისმიერ კოლექციაში - როგორც პირველადში, ასევე მსოფლიოში - ინახება დეტალური მონაცემების სერია, რომელიც ამოღებულია ოპერაციული სისტემებიდან და გროვდება ინდიკატორები (შემაჯამებელი ინდიკატორები), როგორიცაა გაყიდვებზე პასუხისმგებელი თვეების მიხედვით, პროდუქტის კატეგორიის მიხედვით და ა.შ. ერთეულების შენახვა ხდება ერთი მეთოდით - სასმელების მოხმარების დაჩქარება. და, ერთის მხრივ, სისტემა აგროვებს, როგორც წესი, ძალიან დიდ მონაცემებს, ხოლო მეორეს მხრივ, ანალიტიკოსები არ იჭრებიან დეტალურ, მაგრამ დეტალურ მითითებებს. და ვინაიდან, ბაზარზე გაყიდვების ოდენობის გამოსათვლელად, საჭირო იქნებოდა მილიონობით ინდივიდუალური გაყიდვების ჩართვა, ფასი ყველაფერზე უფრო უსიამოვნო იქნებოდა. ამიტომ, როდესაც მონაცემთა შეძენილია მდიდარი მონაცემთა ბაზიდან, ყველა მთლიანი მონაცემი ან მისი ნაწილი გამოითვლება და ინახება.

არანაკლებ, გაერთიანებული მონაცემების ძიება ხარვეზებით ემუქრება. მთავარი მინუსი არის შენახული ინფორმაციის მოცულობის ზრდა (კუბის შესაქმნელად ახალი მონაცემების დამატებისას, ის ექსპონენტურად იზრდება) და მათი მოზიდვისთვის საჭირო დრო. უფრო მეტიც, ინფორმაციის გაცვლა შეიძლება გაიზარდოს ათობით ან ასეულჯერ. მაგალითად, ერთ-ერთ გამოქვეყნებულ სტანდარტულ ტესტში, აგრეგატების ახალი დამატება 10 მბ გამომავალი მონაცემებისთვის იკავებს 2,4 გბ-ს, ასე რომ, მონაცემები გაიზარდა 240-ჯერ!

მონაცემების გაზრდილი ვალდებულების დონე აგრეგატების გაანგარიშებისას უნდა ეფუძნებოდეს კუბების რაოდენობას და ამ ერთეულების სტრუქტურებს, რათა ისინი შეესაბამებოდეს ტანკების და ბალიშების რაოდენობას ამოღების სხვადასხვა დონეზე. დანაზოგების დაზოგვის პრობლემის გადასაჭრელად გამოიყენება დასაკეცი სქემები, რომლებიც საშუალებას იძლევა, არა ყველა შესაძლო ერთეულის გაანგარიშებისას, მიაღწიონ ენერგიის მოხმარების პროდუქტიულობის მნიშვნელოვან ზრდას.

შაბათ-კვირის და მთლიანი მონაცემების შენახვა შესაძლებელია ნებისმიერში

ურთიერთობითი და მდიდარი სტრუქტურები. ამასთან დაკავშირებით, არსებობს სამი გზა ამქვეყნიური მონაცემების სიმდიდრის შესანახად:

MOLAP (მრავალგანზომილებიანი OLAP) – გამომავალი და მთლიანი მონაცემები ინახება მდიდარ მონაცემთა ბაზაში. მონაცემთა შენახვა მდიდარი სამყაროს სტრუქტურებში საშუალებას გაძლევთ მანიპულირება მოახდინოთ მონაცემებით, როგორც მდიდარი სამყაროს მასივი, თუმცა, საერთო მნიშვნელობების გამოთვლის სითხე იგივეა ნებისმიერი სახის გადაშენებისთვის. თუმცა, ამ შემთხვევაში, მდიდარი სამყაროს მონაცემთა ბაზა, როგორც ჩანს, ზედმეტია და მდიდარი სამყაროს მონაცემების ფრაგმენტები გაერთიანდება გამომავალ რელაციურ მონაცემებთან.

ეს სისტემები უზრუნველყოფენ OLAP დამუშავების უახლეს ციკლს. თქვენ შეგიძლიათ, სერვერის კომპონენტის გარდა, შეიტანოთ კლიენტის ინტერფეისის ინტეგრაციის ძალა, ან გამოიყენოთ vicor გარე პროგრამებთან და ცხრილებთან დასაკავშირებლად.

ROLAP (რელაციური OLAP) – გამომავალი მონაცემები იკარგება იმავე რელაციური მონაცემთა ბაზიდან, რომელიც ადრე იყო გამოყენებული. მთლიანი მონაცემები მოთავსებულია ამ მონაცემთა ბაზაში მათი შენახვის სერვისის ცხრილის სპეციალურ ქმნილებაში.

ჰოლაპი (ჰიბრიდული OLAP) – გამომავალი მონაცემები ინახება იმავე რელაციურ მონაცემთა ბაზაში, როგორც ადრე, ხოლო მთლიანი მონაცემები ინახება მდიდარ გლობალურ მონაცემთა ბაზაში.

ზოგიერთი OLAP ინსტრუმენტი ხელს უწყობს მონაცემთა შენახვას რელაციურ სტრუქტურებში, მაგრამ მხოლოდ მდიდარ სტრუქტურებში. ამასთან, სერვერის მხარის OLAP ფუნქციების უმეტესობა მხარს უჭერს მონაცემთა შენახვის სამ გზას. შენახვის მეთოდის არჩევა დამოკიდებულია გამომავალი მონაცემების სტრუქტურაზე, რაც საშუალებას იძლევა მოთხოვნის სიგლუვეს და OLAP კუბების განახლების სიხშირეს.

3.6 ინტელექტუალური მონაცემთა ანალიზი (მონაცემებიმაინინგი)

ტერმინი მონაცემთა მოპოვება ნიშნავს კორელაციების, ტენდენციებისა და ურთიერთობების პოვნის პროცესს სხვადასხვა მათემატიკური და სტატისტიკური ალგორითმების გამოყენებით: კლასტერირება, რეგრესია და კორელაციის ანალიზი და გადაწყვეტილების მხარდაჭერის სისტემებისთვის. დაგროვების შემდეგ, ჩანაწერი ავტომატურად დაიყვანება ინფორმაციამდე, რომელიც შეიძლება დახასიათდეს როგორც ცოდნა.

მონაცემთა მოპოვების თანამედროვე ტექნოლოგია ეფუძნება შაბლონების კონცეფციას, რომელიც წარმოადგენს იმ შაბლონებს, რომლებიც მართავენ მონაცემთა და საწყობების შერჩევას, ე.წ. ცოდნის შეძენას.

შაბლონების ძიება ხორციელდება მეთოდების გამოყენებით, რომლებიც არ ეწინააღმდეგება საერთო აპრიორი ვარაუდებს ამ ქვეშერჩევების შესახებ. მონაცემთა მოპოვების მნიშვნელოვანი მახასიათებელია შაბლონების არასტანდარტული და არააშკარაობა, რომელთა იდენტიფიცირებაც შესაძლებელია. სხვა სიტყვებით რომ ვთქვათ, მონაცემთა მოპოვების ფუნქციები დიფერენცირებულია სტატისტიკური მონაცემების დამუშავების ხელსაწყოებისგან და OLAP ფუნქციებისგან, რათა ჩაანაცვლოს კორესპონდენტების მიერ გადაცემული ურთიერთკავშირების უკანა შემოწმება.

ამ მონაცემებს შორის, აშკარა მონაცემებიდან გამომდინარე, შენობამ დამოუკიდებლად იცის ასეთი ურთიერთობები და იქნება ჰიპოთეზები პერსონაჟის შესახებ.

ინტელექტუალური მონაცემთა ანალიზის პროცესი (Data Mining) სამი ეტაპისგან შედგება

    ნიმუშების იდენტიფიკაცია (ველური ძიება);

    უცნობი მნიშვნელობების გადაცემის ნიმუშების აღმოჩენა (პროგნოზირებადი მოდელირება);

    ხარვეზების ანალიზი, მნიშვნელობები, ანომალიების გამოვლენა და გამოსწორება ცნობილ ნიმუშებში.

ზოგჯერ, როგორც ჩანს, არსებობს შუალედური ეტაპი მათსა და მათ წყაროებს შორის აღმოჩენილი შაბლონების სანდოობის შესამოწმებლად (ვალიდაციის ეტაპი).

არსებობს ხუთი სტანდარტული ტიპის შაბლონები, რომლებიც ვლინდება მონაცემთა მოპოვების მეთოდებით:

1.ასოციაციასაშუალებას გაძლევთ იხილოთ ობიექტების სტაბილური ჯგუფები, რომელთა შორის არის იმპლიციტური კავშირი. მოცემული ობიექტის ან საგნების ჯგუფის ასობით გამოჩენის სიხშირეს ეწოდება სიგანე. სიგანის დაბალი დონე (მეათასედზე ნაკლები) ნიშნავს, რომ ასეთი ასოციაცია არ არსებობს. ასოციაციები რეგისტრირდება შემდეგი წესებით: => , დე A -საკვების მოძიება, IN -გამოძიება. კანის ასოციაციური წესის მნიშვნელობის შესაფასებლად, აუცილებელია გამოვთვალოთ ღირებულება, რომელსაც ეწოდება სანდოობა ადრე (ან ურთიერთკავშირები A და B).ნდობა გვიჩვენებს, რამდენად ხშირად ჩნდება იგი ჩნდება Ხელოვნება.მაგალითად, ვფიქრობ d(A/B)=20%, რაც იმას ნიშნავს, რომ საქონლის შეძენიდან მეხუთე კანის მდგომარეობაზე აბაზანები და საქონელი Ხელოვნება.

ასოციაციის შექმნის ტიპიური მიდგომაა შესყიდვების სტრუქტურის ანალიზი. მაგალითად, სუპერმარკეტში კვლევის ჩატარებისას შეიძლება დადგინდეს, რომ კარტოფილის ჩიფსს ყიდულთა 65% ყიდულობს კოკა-კოლას, ხოლო ასეთ კომპლექტზე აშკარა ფასდაკლებისთვის 85% ყიდულობს კოკას. ასეთი შედეგები ღირებულია მარკეტინგული სტრატეგიების ჩამოყალიბებისას.

2.მიმდევრობა - ეს არის ერთ საათში ასოციაციების იდენტიფიცირების მეთოდი. დროდადრო დადგენილია წესები მომღერალ ჯგუფების თანმიმდევრული გარეგნობის აღსაწერად. ეს წესები აუცილებელია ყოველდღიური სცენარებისთვის. გარდა ამისა, ისინი შეიძლება გამოყენებულ იქნეს, მაგალითად, ზემოთ გაყიდვების ტიპიური ნაკრების შესაქმნელად, რამაც შეიძლება გამოიწვიოს კონკრეტული პროდუქტის ქვემოთ გაყიდვები.

3. კლასიფიკაცია - სიმკვეთრის ხელსაწყო. ეს საშუალებას გაძლევთ გადახვიდეთ ცალკეული ობიექტების დათვალიერებიდან იმის გაგებამდე, თუ რა ახასიათებს ობიექტების კოლექციის მოქმედებებს და საკმარისია ამ კოლექციების (კლასების) კუთვნილი ობიექტების ამოცნობისთვის. ჩამოყალიბების პროცესის არსი მდგომარეობს კლასების მარეგულირებელი კანონების ცოდნაში. ობიექტების აღწერისთვის გამოიყენება სხვადასხვა ნიშნის (ატრიბუტების) უპიროვნება. ნიშნების აღწერილობების მიღმა გაგების ჩამოყალიბების პრობლემა ჩამოაყალიბა მ.მ. ბონჰარტი. ეს გადაწყვეტილებები ეფუძნება ორ ძირითად პროცედურას: ინიციალიზაციას და გადამოწმებას. დაწყების პროცედურებს ექნებათ კლასიფიკაციის წესი, რომელიც ეფუძნება ობიექტების საწყისი ნაკრების დამუშავებას. შემოწმების პროცედურა მიჰყვება იმავე წესს, რომელიც კლასიფიცირებს ობიექტების ამოცნობას ახალი (გამოკვლევის) შერჩევით. თუ შემოწმების შედეგები დამაკმაყოფილებელია, დაწყების პროცესი დასრულდება, წინააღმდეგ შემთხვევაში კლასიფიკაციის წესი დაზუსტდება ხელახალი დაწყების პროცესში.

4.კლასტერიზაცია – ეს არის მონაცემთა ბაზიდან ინფორმაციის (ჩანაწერების) დაყოფა ჯგუფებად (კლასტერებად) და სეგმენტებად ერთდროულად დანიშნული ჯგუფებით. კლასიფიკაციის შემთხვევაში, ანალიზი არ საჭიროებს კლასების წინასწარ დაყენებას.

5. პროგნოზირების საათების სერია ეს არის ინსტრუმენტი დროთა განმავლობაში გაანალიზებული ობიექტების ატრიბუტებში ცვლილებების ტენდენციების დასადგენად. დროის სერიების ქცევის ანალიზი საშუალებას გაძლევთ წინასწარ განსაზღვროთ შემდეგი ინდიკატორების მნიშვნელობები.

ასეთი ამოცანების შესასრულებლად გამოიყენება მონაცემთა მოპოვების სხვადასხვა მეთოდები და ალგორითმები. მნიშვნელოვანია, რომ მონაცემთა მოპოვება განვითარდა და ვითარდება ისეთი დისციპლინების საფუძველზე, როგორიცაა სტატისტიკა, ინფორმაციის თეორია, კომპიუტერული მეცნიერება, მონაცემთა ბაზის თეორია, სრულიად ბუნებრივია, რომ მონაცემთა მოპოვების ალგორითმები და მეთოდების უმეტესობა იყოფა და მათ სხვადასხვა მეთოდებად. დისციპლინები.

მეთვალყურეობის ძირითადი მეთოდების მრავალფეროვნება შეიძლება გამოიყურებოდეს შემდეგნაირად:

    რეგრესიის, ვარიაციის და კორელაციის ანალიზი(გაყიდვები უმეტეს მიმდინარე სტატისტიკურ პაკეტებში, Zocrema, პროდუქტები SAS Institute-დან, StatSoft და ა.შ.);

    ანალიზის მეთოდებიკონკრეტულ საგნობრივ სფეროში, რომელიც ეფუძნება ემპირიულ მოდელებს (ხშირად, მაგალითად, ფინანსური ანალიზის იაფ მეთოდებში);

    ნეიროფენირების ალგორითმები– პროცესებისა და ყუთების სიმულაციის მეთოდი, რომელიც დასაკეცი საცავის შექმნის საშუალებას იძლევა. მეთოდი ეფუძნება ბიოლოგიური ტვინის მოკლევადიან გამარტივებულ მოდელს და ეფუძნება იმ ფაქტს, რომ გამომავალი პარამეტრები განიხილება როგორც სიგნალები, რომლებიც გარდაიქმნება აშკარა კავშირებად "ნეირონებს" შორის და შედეგად, ანალიზის შედეგად ნაჩვენებია ყველა ღონისძიების შედეგები გამომავალ მონაცემებზე. კავშირები იქმნება ეგრეთ წოდებული შერჩევის პროცესის დახმარებით, რათა განთავსდეს როგორც გამომავალი მონაცემები, ასევე სწორი შეყვანები. ნერვული ქსელები ფართოდ არის კლასიფიცირებული უმაღლესი კლასიფიკაციის მოთხოვნების მიხედვით;

    ბუნდოვანი ლოგიკააუცილებელია მონაცემების დამუშავება სხვადასხვა სიმართლის მნიშვნელობებით, რომლებიც შეიძლება წარმოდგენილი იყოს სხვადასხვა ენობრივი ცვლადით. Fuzzy წარმოდგენილი ცოდნა ფართოდ გამოიყენება გაფართოებული კლასიფიკაციისა და პროგნოზირებისთვის, მაგალითად, XpertRule Miner სისტემაში (Attar Software Ltd., დიდი ბრიტანეთი), ასევე AIS, NeuFuz და ა.შ.;

    ინდუქციური გადამრთველებისაშუალებას გაძლევთ ამოიღოთ ფორმალური ფაქტები მონაცემთა ბაზიდან. სპეციალისტს, რომელიც ავითარებს ჰიპოთეზებს, შეუძლია მონაწილეობა მიიღოს ინდუქციური სწავლის პროცესში. ამ მეთოდს მასწავლებლისგან სწავლა ჰქვია. ფორმალიზებული წესების ძიება შეიძლება განხორციელდეს მკითხველის გარეშე ჰიპოთეზების ავტომატური წარმოქმნით. დღევანდელი პროგრამული უზრუნველყოფა იყენებს ორ მეთოდს, ხოლო სტატისტიკური მეთოდები გამოიყენება ჰიპოთეზების შესამოწმებლად. ინდუქციურ კავშირებზე დაფუძნებული სისტემის მაგალითია XpertRule Miner, შემუშავებული Attar Software Ltd. (Დიდი ბრიტანეთი);

    მერჩენდაიზინგი საფუძველზე მსგავსი ეპიზოდები(„უახლოესი შემთხვევის“ მეთოდი) (Case-based მსჯელობა - CBR) ეფუძნება DB სიტუაციის ძიებას, მოცემული სიტუაციიდან ზოგიერთი მსგავსი ნიშნის აღწერას. ანალოგიის პრინციპი საშუალებას გვაძლევს ვივარაუდოთ, რომ მსგავსი სიტუაციების შედეგებიც ახლოს იქნება ერთმანეთთან. ამ მიდგომის დიდი ნაწილი მდგომარეობს იმაში, რომ არ არსებობს რეგულარული მოდელები ან წესები უახლესი მტკიცებულებების დასამყარებლად. გარდა ამისა, შედეგების სანდოობა მდგომარეობს სიტუაციის აღწერის სისრულეში, ისევე როგორც ინდუქციური დასკვნის პროცესებში. სისტემების მაგალითები, რომლებსაც CBR იყენებს, არის: KATE Tools (Acknosoft, საფრანგეთი), Pattern Recognition Workbench (Unica, აშშ);

    ხის ხსნარი– სტრუქტურირების მეთოდი ხის მსგავსი გრაფის სახით, რომლის წვეროები წარმოადგენენ წარმოების წესებს, რომლებიც საშუალებას გაძლევთ დაალაგოთ მონაცემები და განახორციელოთ მიღებული ამოხსნის ანალიზი. ეს მეთოდი იძლევა ნათელ გაგებას კლასიფიკაციის წესების სისტემის შესახებ, რომელიც საკმაოდ მდიდარია. მარტივი ამოცანების გადაჭრა შესაძლებელია ამ მეთოდის გამოყენებით ბევრად უფრო მარტივად, ნერვულ ქსელებზე დაყრდნობის გარეშე. რთული პრობლემებისა და გარკვეული ტიპის ხის მონაცემებისთვის, გადაწყვეტილებები შეიძლება უსიამოვნო აღმოჩნდეს. მეორე მხრივ, ამ მეთოდს ახასიათებს მნიშვნელობის პრობლემა. მონაცემთა იერარქიული კლასტერიზაციის ერთ-ერთი მემკვიდრეობა არის თავდაპირველი აპლიკაციების დიდი რაოდენობის არსებობა დაკავშირებული საკითხების ფართო სპექტრისთვის, რომელთა კლასიფიკაცია არ შეიძლება გაკეთდეს საიმედოდ. გადაწყვეტილების ხის მეთოდები დანერგილია ბევრ პროგრამულ აპლიკაციაში, მათ შორის: C5.0 (RuleQuest, ავსტრალია), Clementine (Integral Solutions, დიდი ბრიტანეთი), SIPINA (ლიონის უნივერსიტეტი, საფრანგეთი), IDIS (Information Discovery, აშშ);

    ევოლუციური პროგრამირება– ძიება არის ალგორითმის წარმოქმნა, რომელიც გამოხატავს მონაცემთა ურთიერთდამოკიდებულებას, მოცემული ალგორითმის საფუძველზე, რომელიც მოდიფიცირებულია ძიების პროცესში; ხანდახან ურთიერთდამოკიდებულებების ძიება ხდება მრავალი ტიპის ფუნქციას შორის (მაგალითად, მრავალწევრებს);

შემოსაზღვრული უხეში ძალის ალგორითმები, რომელიც გამოითვლება მარტივი ლოგიკური ცნებების კომბინაციით მონაცემთა ქვეჯგუფებში

3.7 ინტეგრაციაOLAPіმონაცემებიმაინინგი

ონლაინ ანალიტიკური დამუშავება (OLAP) და ინტელექტუალური მონაცემთა ანალიზი (მონაცემთა მოპოვება) არის ორი საწყობი პროცესი, რომელიც მხარს უჭერს გადაწყვეტილების მიღებას. დღესდღეობით, OLAP სისტემების უმეტესობა ფოკუსირებულია უსაფრთხო წვდომაზე გლობალური მონაცემების სიმდიდრეზე და მონაცემთა მოპოვების ფუნქციების უმეტესობა, რომლებიც მოქმედებს კანონზომიერების სფეროში, თანმიმდევრულია მონაცემთა იგივე პერსპექტივებით. გადაწყვეტილების მხარდაჭერის სისტემებისთვის მონაცემთა დამუშავების ეფექტურობის გასაზრდელად, ანალიზის ორი ტიპი შეიძლება გაერთიანდეს.

ამჟამად, საწყობის ტერმინი OLAP Data Mining (მდიდარი ინტელექტუალური ანალიზი), როგორც ჩანს, მიუთითებს ასეთ აგრეგაციაზე.

„OLAP მონაცემთა მოპოვების“ ფორმირების სამი ძირითადი მეთოდი არსებობს:

    "კუბირება და შემდეგ მაინინგი". ინტელექტუალური ანალიზის პოტენციალის მიღწევა შესაძლებელია კონცეპტუალური მონაცემების სიმდიდრის ნებისმიერ შედეგზე, დემონსტრანტების ჰიპერკუბზე ნებისმიერი პროექციის ნებისმიერ ფრაგმენტზე.

    "მაღარო და შემდეგ კუბური". ანალოგიიდან მიღებული მონაცემების მსგავსად, დამნაშავის ინტელექტუალური ანალიზის შედეგები წარმოდგენილი იყო ჰიპერკუბური ფორმით შემდგომი მრავალსამყარო ანალიზისთვის.

    "კუბირება მაინინგის დროს". ინტეგრაციის ეს მოქნილი მეთოდი საშუალებას გაძლევთ ავტომატურად გაააქტიუროთ იგივე ტიპის ინტელექტუალური დამუშავების მექანიზმები კანის ანალიზის შედეგების ფართო სპექტრის ანალიზის (გადასვლის) გასწორების დონეებს შორის, ჰიპერკუბის ახალი ფრაგმენტის ამოღება და ა.შ. ).

    ასტრონომიისთვის 11 კლასი [ტექსტი... მე ვარიაკ ნაწილიყველაფერი სისტემები ... ასისტენტ - პროფესორი ... ჩობოქსარი, 2009. № 10. 44 -49....ავტორი- პოლიციის ოფიცრები: N... შენიშვნებილექციები, ...

  • ძირითადი მეთოდოლოგიური გზამკვლევი

    ... ლექციები. მომზადება ლექციებიმათემატიკაში. დაწერილი შენიშვნებილექციები ლექციები. ვიკორისტანნია ინფორმაციატექნოლოგია ...

  • მე კონდაუროვამდე და ლებედევამდე, მათემატიკის მომავალი მასწავლებლის სამეცნიერო კვლევითი საქმიანობა, შემოქმედებითი მუშაობა ელემენტარულ მათემატიკაში და გამოთვლის მეთოდებში.

    ძირითადი მეთოდოლოგიური გზამკვლევი

    ... ლექციები. მომზადება ლექციებიმათემატიკაში. დაწერილი შენიშვნებილექციები. საწყისი დამხმარე საშუალებების მომზადება. კითხვის ტექნიკა ლექციები. ვიკორისტანნია ინფორმაციატექნოლოგია ...

  • M გველების მონიტორინგი პროფესიული განათლების მოდერნიზაცია Berezen - Serpen 2011r

    Მოკლე ვადა

    ... 11 .08.2011 "Dead Souls-2" AT RNIMU მე ვარ ... 3,11 -3,44 . ... საჯარო ლექციებიკერივნიკი... ჩებოქსარი... და ჩაწერა შენიშვნებიაუდიტორია -... ინფორმაციასისტემებიі ტექნოლოგიები. ... სისტემაანათებს, - ეტყობა ასისტენტ - პროფესორი ... პოლიციის ოფიცრები ... ნაწილებირეალურის წინსვლა zmіstu ...

ინფორმაციის მიწოდების გადამოწმება

ინფორმაცია გროვდება სხვადასხვა წყაროდან და ჯგუფდება და გროვდება. ამ შემთხვევაში განსაკუთრებული პატივისცემა განპირობებულია მონაცემთა სარგებლიანობისა და მათი სანდოობის შებრუნებით. ორიგინალური დოკუმენტები, როგორც წესი, ობიექტურად ასახავს ამ და სხვა სამთავრობო ოპერაციების არსს, მაგრამ, სამწუხაროდ, არის დეტალებიც, დაპირისპირებებიც და კომპრომისებიც. ინფორმაციის უზუსტობა შეიძლება იყოს ობიექტური ან სუბიექტური მიზეზების გამო.

გადამოწმების პროცესი მოიცავს რამდენიმე ეტაპს:

1) სამედიცინო ხელახალი შემოწმება (ბრუნვის ფურცლების დაკეცვის გზაზე მონაცემების ტიპის გადამოწმება, სამედიცინო შემოწმების ცხრილი);

2) სუსტრიკული შებრუნება (განახლებული ინფორმაცია აღებულია სხვადასხვა წყაროდან);

3) ლოგიკური შემობრუნება (ანალიტიკოსს ესმის ეკონომიკური მდგომარეობა, რამდენად შეიძლება ენდობოდეს შიდა და გარე ინფორმაციას);

4) კორიგუვანია (გაიტანა კორექტირება საბალანსო მოგებაზე, კაპიტალის ზომასა და ცვეთაში);

ყველა შესწორება, რომელიც შესრულებულია, უნდა იყოს დასაბუთებული და ობიექტური.

საწარმოს მენეჯმენტის მნიშვნელოვანი ნაწილია ინფორმაციის მომზადება და ანალიტიკური დამუშავება საწარმოს ფინანსური და სამთავრობო საქმიანობის პროგრესის, მიმდინარე და შიდა აზროვნების შესახებ. ეს პროცესი ეფუძნება სხვადასხვა ტექნიკური საშუალებების სტაგნაციას წარმოების პროგრესის მონიტორინგის მიზნით გადაწყვეტილების სწრაფი მიღებისათვის საჭირო ინფორმაციის შეგროვების, დამუშავების, შენახვისა და გადაცემისათვის.

ინფორმაციის ანალიტიკური დამუშავება მოიცავს:

1) ჩვენების სისტემის აღნიშვნაშეფასებები, რომლებიც აუცილებელია ანალიზის მიზნების მისაღწევად.

გამოფენის მონაწილეები დაჯგუფებულია შემდეგნაირად:

- გაანგარიშების მეთოდი(აბსოლუტური და კონკრეტული);

- zastosovuvannym vimiryuvach(ბუნებრივი, ვარტისნი, შრომითი და ა.შ.);

- შეპყრობილი მახასიათებლები(კოლკისნი, იაკისნი);

- ეტაპი(უზაგალნუჩი, კერძო);

- პერიოდი, რომელიც არეულობაშია(სტატიკა, დინამიკა);

- მთლიანად საწარმოს საქმიანობა(ობიექტური, სუბიექტური);

- საწყობის ეფექტურობა(პროდუქტიულობა, კაპიტალის გამომუშავება, პროდუქტის მოსავლიანობა, მატერიალური გამომუშავება);

- სასიცოცხლო ციკლის ეტაპები(დიზაინი, წარმოება, მატერიალური უზრუნველყოფა, განხორციელება, ექსპლუატაცია).

2) დეტალური ინფორმაცია:

ა) დაკეცილი ანალიტიკური ცხრილი ;

ანალიტიკური ცხრილი- ფენომენის გამოკვლევის შესახებ ანალიტიკური ინფორმაციის წარდგენის ყველაზე რაციონალური და ადვილად გასაგები ფორმა, რომელიც არის აზრების, განსჯის, ჩემი რიცხვების გამოხატვის სისტემა.

ანალიტიკური ცხრილები გამოიყენება ქრონოლოგიური პერიოდების ანალიტიკური მონაცემების შესაქმნელად და ამის საფუძველზე ადგენენ: გაზომვის მაჩვენებლების დინამიკას; მიღწეული ან პროგნოზირებული მნიშვნელობების გათანაბრება საბაზისო მონაცემებთან, რაც შეიძლება იყოს მომავალი გეგმის დამატებითი ინდიკატორები და პროგნოზირებული სამომავლო პერიოდები, სავალდებულო ნორმები, სხვა მმართველობის სუბიექტების ინდიკატორები, შერჩეული და ანალიტიკოსი ცნობს კვლევას, რომ მიმდინარეობს. ცხრილის მასალა შესაძლებელს ხდის ანალიტიკური მონაცემების გაანალიზებას, როგორც ერთიან სისტემას. დამატებითი ცხრილის გამოყენება ბევრად გაადვილებს კავშირების დალაგებას შემდეგ ელემენტებს შორის.

ბ) ინფორმაციის გრაფიკული ჩვენება;

ანალიზის მასალების სიზუსტის გასაზრდელად ინდიკატორების დინამიკა წარმოდგენილია მცირე ზომის, გრაფიკების, დიაგრამების სახით, რაც მასალას უფრო ხელმისაწვდომს და შინაარსობრივს ხდის.

გრაფიკები- ეს არის ფიგურების, რიცხვების უფრო ფართომასშტაბიანი გამოსახვა გეომეტრიული ნიშნების (ხაზები, სწორი ნაწლავები, წრეები) ან მენტალურ-მხატვრული ფიგურების გამოყენებით. გრაფიკი, როგორც ცხრილი, იძლევა ნათელ სურათს საკვლევი ობიექტის განვითარებისა და განვითარების შესახებ და საშუალებას გაძლევთ ვიზუალურად აღნიშნოთ შაბლონები, რომლებიც შეიცავს ციფრულ ინფორმაციას. გრაფიკების ძირითადი ტიპები, რომლებიც გამოიყენება ანალიზში, არის: დიაგრამები. შენი ფორმის მიღმაისინი იყოფა ჰისტოგრაფებად (სახსრის ნაწილები, წრფივი ნაწილები), წრიული, რგოლი, გრანულები, კრემისფერი, ცილინდრული და სხვა. Სცენის მიღმაიყოფა გასწორების, სტრუქტურული, დინამიური, კავშირის განრიგებად, საკონტროლო გრაფიკებად და ა.შ.

V) ნიველირება - მსგავსი ობიექტების განლაგება მათი მსგავსების ან მსგავსების გამოსავლენად (მოხსენება შემდგომში იქნება განხილული);

გ) ჩვენების პრეზენტაცია გასუფთავებული გარეგნობით , მაშინ. ინდიკატორების დაქვეითება ერთიან ბაზამდე ფაქტორების საფუძველზე, რომლებიც შედის , ფრაგმენტების შედარება შესაძლებელია მხოლოდ აშკარად ერთგვაროვან მნიშვნელობებთან. ინდიკატორების შეუსაბამობა შეიძლება გამოწვეული იყოს სხვადასხვა ფასების დონით, განსხვავებული წარმოების პროცესებით, პროდუქციის ჰეტეროგენურობით, სტრუქტურული ცვლილებებით და ა.შ. არასწორი ინდიკატორების კორექტირება გამოიწვევს არასწორ დავალებებს ანალიზის შედეგებზე დაყრდნობით;

დ) ინფორმაციის დაჯგუფება - ობიექტების მთლიანობის დაყოფა, რომლებიც შედის გარკვეულწილად ერთგვაროვან ჯგუფებად მსგავსი ნიშნების მიღმა. მნიშვნელოვანია გავითვალისწინოთ ანალიზი ტიპოლოგიური(მოსახლეობის ჯგუფები საქმიანობისთვის, საწარმოები ძალაუფლების ფორმებისთვის და ა.შ.); სტრუქტურული(მუშაკთა საწყობი პროფესიით, სამუშაო გამოცდილებით, ასაკის და ა.შ.); ანალიტიკური(იაკისნი, კილკისნი) დაჯგუფება. ყოველდღიური ცხოვრების სირთულის მიღმა დგას დაჯგუფება ბოდიშიі კომბინირებული.

ე) დეტალი - გაანალიზებული ეკონომიკური ფენომენების თანმიმდევრული დისექცია, რაც საშუალებას გვაძლევს მოვახდინოთ ანალიზის ორგანიზება, ყოვლისმომცველი გავითვალისწინოთ ყველა ის ფაქტორი, რომელიც შემოდის ინდიკატორში, მოდელირდეს სხვადასხვა ინდიკატორისა და ფაქტორების ურთიერთდამოკიდებულება და ა.შ.

გალინა აკიმოვა, მატივი პაშკინი

ტექნოლოგია ჩართულია izhnizhi jerel-ისთვის, INTERNENT-SMI-ის ნომერი, შესავლის ავტომატიზაცია (ShO-მ ჩართო თემატური ანალიზმი, უხერხულობა, ზბერგანია, რომელიც არის ქურთუკი) ანუ Otrimanni Statistical Tu Dajestiv.

დღეს ტექსტის მონაცემთა მასივების ანალიტიკური დამუშავების ძირითადი მეთოდია დოკუმენტების ძიება საკვანძო სიტყვების გამოყენებით. ამ ოპერაციის ინტელექტს ხელს უწყობს საძიებო სისტემებიდან ნაპოვნი დოკუმენტების ავტომატური რანჟირება და მათი მნიშვნელობის შეფასების მარტივი მეთოდების გამოყენება ენის მორფოლოგიის და (უფრო ხშირად) სემანტიკური ლექსიკონების სახით iv.

თუმცა, მიმდინარე ანალიტიკური ამოცანების, განსაკუთრებით მედიცინის განვითარებისთვის, დიდია საჭირო გამომავალი ინფორმაცია (ჩვეულებრივ, ინტერნეტიდან), რაც საკმარისი არ არის. როგორც მაგალითი იმისა, თუ რა სჭირდებათ დღევანდელ დეტექტივებს, შეგიძლიათ გამოიყენოთ Newsblaster პროგრამა, რომელიც შემუშავებულია კოლუმბიის უნივერსიტეტში. თავდაპირველად ის გამიზნული იყო ინტერნეტში ინფორმაციის მოძიების გასაადვილებლად, მაგრამ სინამდვილეში თქვენ შეგიძლიათ მიიღოთ მნიშვნელოვანი სიახლეები ინტერნეტიდან. ეს სისტემა ათვალიერებს საინფორმაციო საიტებს, ახარისხებს თემებზე მოძიებულ ინფორმაციას, განსაზღვრავს ტექსტების მსგავსების დონეს და აყალიბებს ახალ პროდუქტს კომენტარის სახით ხუთი წინადადებით. კამპანიაში მონაწილეთა დაახლოებით 88%-ს მიაჩნია, რომ ბევრად უფრო ადვილია ამ პროგრამით მუშაობა, ვიდრე ახალი ნივთების საძიებლად სხვადასხვა ვებ-გვერდებზე „სიარული“.

უნდა აღინიშნოს, რომ დიდი რაოდენობით ინფორმაციასთან მუშაობის პრობლემას ორი ასპექტი აქვს: ერთი არის ინფორმაციის ავტომატური შეგროვება (რის საფუძველზეც ცნობილია უმაღლესი სისტემისა და ანალოგების ორიენტაცია), მეორე კი ავტომატურია. ინფორმაციის შეგროვება ინფორმაცია, რომელიც მოიძებნა ამ თემაზე, აქტივობები ანალიზის საფუძველია დოკუმენტის ტექსტი.

ა.ხარლამოვის მსგავსად, ტექსტის ანალიზის ძირითადი მიდგომები შეიძლება დაიყოს ორ კლასად. პირველ კლასამდე შემოთავაზებულია შვედური ალგორითმების დანერგვა ისე, რომ არ აღმოჩნდეს ენისა და საგნის მიღმა, მაგალითად, სტატისტიკური მეთოდების გამოყენება. სხვა კლასი ცდილობს მიაღწიოს უფრო დახვეწას, რაც იძლევა კარგ შედეგს, მაგრამ უფრო მოწინავე მიდგომებს, რომლებიც დევს საგნის არეალის ენაში და უფრო მეტად ეფუძნება ლინგვისტურ მეთოდებს.

ეჭვგარეშეა, რომ ყველაზე ეფექტური მიდგომა იქნება ის, რომელიც აერთიანებს პირველი კლასის ალგორითმების მოქნილობას და დამოუკიდებლობას მეორის დამუშავების მაღალ ეფექტურობასთან.

ძირითადი სისტემებიდან, ავტორების აზრით, ყველაზე ეფექტურია TERMIN-5 სისტემა, რომელიც ტექსტების კატეგორიზაციის ლექსიკურ-სტატისტიკური მეთოდია. ლექსიკურ-სტატისტიკური მეთოდის სარგებლიანობა არის მისი მაღალი უნივერსალურობა, რუბრიკის დარჩენილი ნაწილები მითითებულია მხოლოდ საწყისი ტექსტების ნაკრებით. სისტემა საშუალებას გაძლევთ სრულყოფილად მოახდინოთ რუბრიკაციის პროცესის ავტომატიზაცია, უსაფრთხოდ დაარეგულიროთ რუბრიკატორი ტექსტების თავდაპირველი შერჩევისგან და შექმნათ ზოგადი წესი დოკუმენტის ამა თუ სხვა რუბრიკაში წარდგენის შესახებ. ის ორიენტირებულია PHI-დან ტექსტური შეტყობინებების რეალური ნაკადების რუბრიკაზე.

ფაქტობრივად, ანალიტიკური სისტემების სეგმენტი, რომელიც ორიენტირებულია სხვადასხვა ფიზიკური და ვიზუალური ინდიკატორების მათემატიკური და სტატისტიკური ანალიზისკენ, უკვე დიდი ხანია ვითარდება პროგრამული უზრუნველყოფის ბაზარზე. თუმცა, ჯერ კიდევ დიდი გზაა გასავლელი, სანამ სრულ ყურადღებას მივაქცევთ დიდი რაოდენობით ტექსტური ინფორმაციის ანალიზს, რომელიც განთავსებულია სხვა პუბლიკაციებში, ახალი საინფორმაციო სააგენტოების გვერდებზე და ინტერნეტის თემატურ საიტებზე.

ავტორუბრიკაციის სისტემების პობუდოვა

ტექსტური ინფორმაციის უკეთესი ანალიზისთვის და შემდგომი ავტომატური დაყოფისთვის შესაბამის თემებად, ჯერ უნდა ჩამოვაყალიბოთ რუბრიკატორი, რათა მიუთითოთ თემების ან კატეგორიების სია, რომლებიც ყველაზე ზუსტად ახასიათებს ცოდნის სფეროს, რომელსაც მე ვიკვლევ. დიახ. საჭიროა გქონდეს გონება ტექსტის გასაანალიზებლად - ნაწარმოების მხარდაჭერა როგორც წრფივი, ისე იერარქიული რუბრიკატორით თანაბარი შენატანების შეუზღუდავი რაოდენობით. ქვემოთ მოცემულია ხაზოვანი რუბრიკატორის მაგალითი, რომელიც ვიკორიზებულია Lenta.ru ვებსაიტზე:

გარდა ამისა, ვინაიდან პირდაპირი თვალთვალი შეიძლება შეიცვალოს, ჩვენ გვსურს შეგვეძლოს შეყვანილი ინფორმაციის ერთიდაიგივე მასივის კლასიფიცირება სხვადასხვა თემებიდან, რომლებიც მითითებულია სხვადასხვა რუბრიკატორის მიერ.

ტექსტური ინფორმაციის დამუშავების სხვა სისტემებში არსებობს ორი ფართო მიდგომა: სათაურში ამა თუ იმ გზით დამატებული საკვანძო სიტყვების ან ტერმინების ჩამონათვალზე (ნომინალური ჯგუფები და ფრაზები). უფრო მეტიც, რობოტის მომზადება ნებისმიერი განყოფილების საკვანძო სიტყვებისა და ტერმინების პრეზენტაციისთვის ყველაზე ხშირად ხორციელდება ხელით ექსპერტების მიერ.

ამ სტატიაში ჩვენ განვიხილავთ მეთოდს, რომელიც წარმოადგენს TERMIN-5 სისტემის განვითარებას და საშუალებას გაძლევთ ავტომატურად შექმნათ ტერმინების სია, რომელიც ახასიათებს ტექსტური ინფორმაციის შესაბამისობას სიმღერის განყოფილებასთან. ამ მიდგომას შეიძლება ეწოდოს ტექსტის ავტომატური სემანტიკური ანალიზის მეთოდი. პობუდოვის დამახასიათებელი ტერმინების სია შესრულებულია ტექსტის მორფოლოგიური და სინტაქსური ანალიზის საფუძველზე, რათა ენაში სიტყვების სიხშირის მიხედვით ზუსტი ტერმინებით დაინახოს არატრივიალური სახელები და ოფიციალური სახელები.

პობუდოვას პირველადი არჩევნები

რუბრიკატორის მიღმა ტექნოლოგია ეფუძნება თავდაპირველ შერჩევას - ფაილების ან დოკუმენტების სიას, რომლებიც მინიჭებულია ამ რუბრიატორის კატეგორიებზე. რუბრიკატორის მიდგომა ყველაზე ეფექტურია, როდესაც ის არის მაქსიმალური სემანტიკური მნიშვნელობის მქონე მოკლე ინფორმაციული ტექსტების ხაზგასმა. უამრავ რუბრიკატორთან მუშაობისას შეგიძლიათ მათი გამოყენება თქვენი საწყისი შერჩევის ფორმულირებისთვის.

საწყისი შერჩევის სიზუსტის დადგენა შესაძლებელია მხოლოდ ტექსტური ინფორმაციის თემატური ანალიზის დროს, ანუ მონაცემთა ბაზაში შეტანამდე. აქედან გამომდინარე, თავდაპირველი შერჩევა განმეორებითი პროცესია: საწყისი შერჩევის კორექტირება შესაძლებელია არჩეული თემისა და ტექსტის ანალიზის მიხედვით.

რუბრიკატორის შიგთავსი

რუბრიკატორის დაწყების პროცესი მოიცავს ტერმინების დიდ რაოდენობას, რომლებიც ახასიათებს თითოეული რუბრიკის შესაბამისობას. საწყისი ტერმინების სია ყალიბდება საწყის შერჩევაში შენახული დოკუმენტების ტექსტის ანალიზის საფუძველზე, ცალკე რუბრიკით. თითოეულ ნანახ ტერმინს ენიჭება მნიშვნელობა, რომელიც ახასიათებს მის მნიშვნელობას ტექსტში. შედეგების შემდგომი ანალიზი საშუალებას გაძლევთ დახვეწოთ სია, გაიგოთ დაბნეული ტერმინების მნიშვნელობა და ხშირად განასხვავოთ ისინი.

რუბრიკების იერარქიას რუბრიკის მნიშვნელოვან ტერმინებთან ერთად, ანუ პირველი რუბრიკატორი, ეწოდება ავტო რუბრიკატორი. დამატებითი ფუნქციების დასამატებლად, რომლებიც საშუალებას აძლევს ექსპერტს შეცვალოს დამატებული ან არჩეული ტერმინის მოქმედება, შეცვალოს თქვენი შეყვანა, თქვენ შეგიძლიათ პირდაპირ გავლენა მოახდინოთ სამუშაოს შედეგებზე ავტორუბრიკატორის საწყისი პირობების ფორმირებიდან. მორგებული შედეგები თავდაპირველად ინახება ტერმინების მძლავრ მონაცემთა ბაზაში (ნომინალური ჯგუფები), რომლებიც ახასიათებენ კანის კატეგორიას, რომელიც შემდეგ იძებნება ავტომატურად შერჩეული თემის სპეციფიკური ინფორმაციისთვის, რომელიც ნაპოვნია.

ვიკოსტრიული რუბრიკატორი

უფრო მეტიც, როგორც მოთხოვნის რუბრიკატორი, ის შეიძლება გამოყენებულ იქნას ტექსტური დოკუმენტების გასაანალიზებლად, რომლებიც აღწევს სისტემას. რისთვისაც დოკუმენტის ტექსტი ექვემდებარება იმავე დამუშავებას, როგორც ტექსტები საწყისი შერჩევისას რუბრიკატორის მოთხოვნით. ტექსტის ავტომატური მორფოლოგიური და სინტაქსური ანალიზის შედეგად, სიხშირის მიხედვით გამოიყოფა დამახასიათებელი ტერმინების ერთობლიობა (სახელობითი სიტყვის ჯგუფები). ტერმინების ეს ნაკრები ხდება რუბრიკატორის შეყვანის პარამეტრი კანის რუბრიკების მსგავს კომპლექტებთან მისი ურთიერთობისთვის. შედეგად, თქვენ მიიღებთ შეფასებას ამ ტექსტის შესაბამისობის შესახებ კანის რუბრიკებთან. პოსტპროცესორს შეუძლია აღმოაჩინოს არასანდო (სუსტი) და/ან დაინახოს სანდო (მაღალი) ქულები მითითებულ ნდობის ზღვრამდე.

ზოგადად, ამა თუ სხვა კატეგორიაში შეყვანის ინფორმაციის ავტორიტეტის ავტომატურად განსაზღვრის პროცესს ავტორუბრიკაცია ეწოდება.

ინფორმაციის ფორვარდული დამუშავება

ინფორმაციის ძირითად წყაროდ შეიძლება გამოიყურებოდეს ინტერნეტ მედია, ახალი ამბების გვერდები, ელექტრონული დოკუმენტები და სხვა პუბლიკაციები. მონაცემთა დამუშავება ეფუძნება მაქსიმალური ავტომატიზაციის პრინციპს. იგი მოიცავს როგორც დოკუმენტის ტექსტის ანალიზს, ასევე ახალი დოკუმენტების ძიებას და მათ შემდგომ შეტანას საინფორმაციო საწყობში.

ტექსტისა და თემის სპეციფიკური ინფორმაციის ავტომატური ანალიზი, რომელიც ნაპოვნია, განურჩევლად წარდგენის ფორმატისა, შედგენილია უშუალოდ სინტაქსში შესვლამდე და გამომავალი მონაცემების შემდგომი დამუშავების შემდეგ.

ინფორმაციის დამუშავების სისტემების აუცილებელი ფუნქციური ელემენტია მათი გადამოწმება დუბლირებაზე. ეს განსაკუთრებით ეხება ინტერნეტს, სადაც ხშირად ხდება ინფორმაციის ახალი ნაკადი, ზოგჯერ საიტზე გაგზავნის გარეშე. არანაკლებ იშვიათია, რომ სტატიის სათაური და საიტზე გამოქვეყნების თარიღი იცვლება ერთ საათში. ამიტომ რეკომენდირებულია შეამოწმოთ როგორც დეტალების, ისე ტექსტური საწყობის დოკუმენტის გამეორება, რომელიც შეყვანილია.

ინტერნეტ-ZMI.ინტერნეტში გამოქვეყნებული ახალი პროდუქტების დამუშავება მდგომარეობს არა მხოლოდ საიტის სტრუქტურის აღწერაში და ახალი პროდუქტების მოზიდვის პროცესის ორგანიზებაში, არამედ კორესპონდენტის სამუშაო ადგილზე დადგენილ განახლებულ წესებში, რომლებშიც მითითებულია გადაცემის გრაფიკი და სიხშირე მე ვუყურებ ვებსაიტს, დეტალების საწყობს, რომელიც მხარს უჭერს ახალ პროდუქტებს, საიტზე მითითებულ საგანს და ა.შ.

ახალი ამბების ნაკადები.ახალი ამბების გვერდის სტრუქტურის სპეციფიკა არის მრავალი დოკუმენტის არსებობა ერთი ტექსტური ფაილის შუაში. დოკუმენტების წარდგენის ფორმატიდან გამომდინარე, ახალი გვერდი მითითებულია ორგანიზაციის შუაში, რომელმაც მოამზადა იგი, ასე ვთქვათ მათ მრავალფეროვნებაზე. ახალი ელემენტების დამუშავება გულისხმობს ახალი ელემენტების ავტომატურ აღმოჩენას, რომლებიც ინახება მყარ დისკზე, ახალი ელემენტების, სხვა დოკუმენტების და შენახვის ადგილებისთვის დანიშნულ ფორმატში.

ელექტრონული და ქაღალდის დოკუმენტები.ქაღალდის დოკუმენტებთან მუშაობის ტექნოლოგია იწყება მათი ელექტრონულ ფორმაში გადაქცევით ან სკანირების ოპერაციით.

ანალიტიკური ანალიზი

მრავალფეროვანი ინფორმაციის შეგროვების ავტომატიზაციისა და მათ თემატურ საწყობებში დაჯგუფების სხვადასხვა ვარიანტები პირველი ნაბიჯია სხვადასხვა წყაროდან მომდინარე ინფორმაციის ნაკადებთან მუშაობისას. ახლა მოდის ინფორმაციის ანალიზი, რომელიც ყველაზე ხშირად გადასცემს სტატისტიკური ანგარიშების კომპოზიტს (შესაძლოა პროგნოზირების ელემენტებით) და ყოველკვირეული დაიჯესტები, რომლებიც საშუალებას გაძლევთ დააჯგუფოთ და გამოაქვეყნოთ მონაცემები კონკრეტულ თემაზე.

სტატისტიკური ანგარიშები.ანალიტიკური ანგარიშები, რომლებიც დაფუძნებულია შეყვანილი ინფორმაციის სტატისტიკურ ანალიზზე, ხელს უწყობს ხელმისაწვდომი მონაცემების სიძლიერის სწრაფად შეფასებას და ხშირად ქმნის კარგ პროგნოზს მომდევნო დღისთვის. ასეთი ინფორმაციის მიღება შესაძლებელია ან სტანდარტული სტატისტიკური პაკეტებიდან (განსაკუთრებით პროგნოზებიდან) ან მონაცემების ექსპორტიდან Microsoft Excel-ში.

პობუდოვა ამუშავებს.დაიჯესტის ფორმირებისას აუცილებელია გავითვალისწინოთ, რომ საჭიროა ინფორმაციის მაქსიმალურად დიდი წარმოდგენა მოცემული წყაროდან (ანუ დოკუმენტის სრული ტექსტის პრეზენტაცია), ისევე როგორც მხოლოდ პრეზენტაცია. მოკლე ფორმა, ასევე ტექსტები და ინფორმაცია შეირჩევა აბსტრაქტულად ან აბსტრაქტულად.

საინფორმაციო და ანალიტიკური სისტემა "ასტარტა"

ქვემოთ განვიხილავთ ინფორმაციის დამუშავების მეთოდების უმეტესობის აღწერას საინფორმაციო და ანალიტიკური სისტემის "Astarta" აპლიკაციიდან (დეველოპერი - Cognitive Technologies კომპანია, http://www.cognitive.ru). ეს პროგრამული გადაწყვეტა ეფუძნება „ეფრატის“ ტექნოლოგიას და განკუთვნილია ინტერნეტიდან, სხვა მასალებიდან, PMI-დან და სხვა წყაროებიდან შეგროვებული არასტრუქტურირებული ინფორმაციის შეგროვების, დამუშავებისა და ანალიზისთვის. იგი იყენებს კლიენტ-სერვერის არქიტექტურას სერვერზე გამოქვეყნების შესაძლებლობით, რომლებიც განკუთვნილია back-end რედაქტირებისთვის და ახალი გვერდის ფორმატებით. სისტემას აქვს სამი სხვადასხვა ტიპის სამუშაო ადგილი და, შესაბამისად, სამი ტიპის ოფისის თანამშრომელი: ადმინისტრატორი, ექსპერტი და ოფისის მუშაკი.

ადმინისტრაცია

სისტემაზე წვდომის უფლებების მართვისა და მარეგულირებელი სამუშაოების განხორციელების სტანდარტული ფუნქციების გარდა, Astarti ადმინისტრატორს აქვს ფუნქცია გამოაქვეყნოს სისტემის დეტალები, ახალი ამბების გვერდების დამალული ფორმატები და რუბრიკატორები სერვერზე. მომხმარებელთა სისტემების სიის შექმნით და კორექტირებით, ასევე ამ კომპონენტებთან მუშაობის მათი უფლებების დადგენით, შესაძლებელია საწარმოს სტრუქტურის, ნარგავების კლასიფიკატორის, აგრეთვე ერთეულებს შორის ურთიერთქმედებისთვის დამახასიათებელი კავშირების ჩამოყალიბება. ყველა ეს კომპონენტი იქმნება და რეგულირდება ადმინისტრატორის მიერ სისტემის ინტერფეისის მეშვეობით (ნახ. 1).

Პატარა 1. სისტემის ადმინისტრატორის ფანჯარა.

თქვენ შეგიძლიათ მიანიჭოთ წვდომის უფლება როგორც კანის მოვლის სისტემას, ასევე ექიმების ჯგუფს. ამ ჯგუფის უფლებები ავტომატურად დაყენებულია მომხმარებლის ყველა ჯგუფისთვის. იმის გამო, რომ ადამიანი მრავალ ჯგუფში ცხოვრობს, მისი უფლებები გაფართოვებულია თითოეული ჯგუფის უფლებებთან შესაბამისობაში.

ადმინისტრატორი არის სისტემის ვიზუალური მფლობელი, რომელიც არ არის დამნაშავე ადმინისტრატორის ფუნქციების კონტროლის უფლებაში.

იმუშავეთ რუბრიკატორთან

რუბრიკატორის ფორმირება არის სისტემის მუშაობისთვის მომზადების ერთ-ერთი ყველაზე მნიშვნელოვანი ნაბიჯი, რადგან ის თავად განსაზღვრავს თემას, რომლისთვისაც უნდა შეგროვდეს შემავალი ინფორმაცია. სისტემა მხარს უჭერს მუშაობას შეუზღუდავი სიღრმის იერარქიულ რუბრიკატორთან. რუბრიკატორი შეიძლება შეიქმნას უშუალოდ სისტემის ინტერფეისიდან ან მოგვიანებით მომზადდეს შესაბამისი ტექსტური რედაქტორით და იმპორტირებული იყოს სისტემაში. მომზადების დროს რუბრიკატორის ტექსტის გადასინჯვა ნებადართულია იერარქიის რიგების მეტი მონაკვეთის მიერ.

საწყისი შერჩევის არჩევას მხარს უჭერს სისტემის ექსპერტი ან სპეციალისტი, რომელიც პასუხისმგებელია მის ფუნქციაზე. თავდაპირველი შერჩევა შეიძლება შედგებოდეს ფაილების ნაკრებისგან, დაყოფილი კატეგორიებად და ასტარტაში ადრე შეყვანილი დოკუმენტებიდან. ამ შემთხვევაში, თქვენ შეგიძლიათ აირჩიოთ ამ კატეგორიის შესაბამისობის შეფასების დონე, დაინსტალირებული დოკუმენტის სისტემაში შესვლის დროს. სისტემური დოკუმენტების მონაწილეობის შესაძლებლობა ჩამოყალიბებულ საწყის შერჩევაში განსაკუთრებით სასარგებლოა დახვეწილი შერჩევისას.

სისტემის მოთხოვნილი ავტომატური კატეგორიზატორის მუშაობის ეფექტურობა განისაზღვრება იმ ინფორმაციის თემების ავტომატური შერჩევის შედეგებით, რომლებიც შეიძლება მოიძებნოს. დოკუმენტების ავტორიზაცია ხორციელდება მონაცემთა ბაზაში ინფორმაციის შეყვანის ეტაპზე. დოკუმენტებს ენიჭება შესაბამისი ქულა, რომელიც ახასიათებს ამა თუ იმ სექციის (ან რამდენიმე განყოფილების) შესაბამისობას. დოკუმენტები, რომელთა თემები არ არის მითითებული, უნდა განთავსდეს რუბრიკატორის დანარჩენ განყოფილებაში (მაგალითად, "რიზნე"). თუ შერჩეული თემა არადამაკმაყოფილებელია, ხელახლა მოაწყვეთ ავტოკატეგორიზატორი, მიუთითეთ საწყისი შერჩევის საწყობი და ხელახლა მოაწყვეთ დოკუმენტების იგივე ნაკრები (ნახ. 2).

Პატარა 2. რუბრიკატორის გაღვიძების პროცესი.

რობოტული პროგრამის შედეგი (დამახასიათებელი ტერმინების ნაკრები) ხელმისაწვდომია განსახილველად და გამოსასწორებლად. ექსპერტს აქვს შესაძლებლობა შეცვალოს ერთი ტერმინის მნიშვნელობა, დაამატოთ ახალი ტერმინი ან წაშალოს არასაჭირო.

მომზადების პროცესში, რუბრიკატორი გამოქვეყნებულია სისტემის სერვერზე და დაუყოვნებლივ ხელმისაწვდომი ხდება შემდგომი მუშაობისთვის (რადგან მიმდინარეობს სისტემის ლოკალური ვერსიის განხილვა).

რობოტი კორისტუვაჩი

სისტემის მენეჯერის მუშაობა იწყება შესაბამისი ინფორმაციის სიის შერჩევით, რობოტული პროგრამების გამოყოფით, რომლებიც აგროვებენ ინტერნეტ მედიას და იმ დირექტორიების სიის ჩასმას, რომლებშიც დაგროვდება ახალი გვერდები. გარდა ამისა, აუცილებელია რუბრიკატორის შებრუნება. სისტემა რობოტს საშუალებას აძლევს იმუშაოს რამდენიმე რუბრიკატორთან, ანუ ნებისმიერი დოკუმენტი შეიძლება დაიყოს რამდენიმე რუბრიკატორის მიხედვით, მაგრამ მოდით ვიყოთ ზუსტი, ნებისმიერ დროს შეიძლება იყოს ერთი რუბრიკატორი.

კულისებში სისტემა ისეა მოწყობილი, რომ ერთი დოკუმენტი ერთდროულად რამდენიმე კატეგორიად იყოფა. თუმცა, აბსოლუტურად შესაძლებელია - და ადვილია ამის გაკეთება ხელით სტატისტიკური მონაცემების დამატებით - დოკუმენტის ავტომატური კატეგორიზაციის მორგება მხოლოდ ერთ კატეგორიაზე.

დოკუმენტების შეყვანა

შესავალი სისტემა მხარს უჭერს ახალი პროდუქტების გვერდების ავტომატურ მიმოხილვას მითითებული საიტების მიღმა მითითებული სიხშირით და შესაბამისად დაკეცილი განლაგების შესაბამისად. განლაგების სისტემის დაყენება საშუალებას გაძლევთ გაყოთ სამუშაო ახალი ნივთების შემოტანიდან, მაგალითად, ღამით ან დღის განმავლობაში.

ახალი ინტერნეტ საიტის პირველი ნახვა ეფუძნება ახალი პროდუქტების ბლოკიდან ხილულ სიახლეებს და ყოველი ახალი პროდუქტის სტრუქტურის ანალიზს, ხილული ტექსტის ფრაგმენტს და მას თანმხლები დეტალების ჩამონათვალს. ამ გზით მომზადებული ახალი ნივთები გადაეცემა შეყვანის სისტემას, რომლის დროსაც სამუშაო ხორციელდება დუბლიკატი ინფორმაციის შემოწმებით, შემდეგ კი ტექსტის ავტომატური რუბრიკაციის გზით. განმეორებითი დოკუმენტები არ უნდა შევიდეს სისტემაში. ინტერნეტ მედიასთან მუშაობის შესახებ ყველა ინფორმაცია ნაჩვენებია სპეციალურ პროტოკოლში.

სხვადასხვა ფორმატის ახალი გვერდების დამუშავებისას ჯერ დგინდება მოცემული გვერდის ფორმატი. გთხოვთ გაითვალისწინოთ, რომ ერთი თემა შეიძლება შეიცავდეს ახალი პროდუქტების გვერდებს სხვადასხვა ფორმატში. შემდეგ ახალი ელემენტების გვერდიდან შეგიძლიათ ნახოთ ყველა ახალი ელემენტი, რომელიც გადადის შესვლის სისტემაში. ახალი ამბების გვერდები, რომელთა ფორმატიც სისტემამ ავტომატურად ვერ განსაზღვრა, წინასწარ გროვდება მითითებულ ადგილას. შემდეგი, შეგიძლიათ ხელით მიუთითოთ ფორმატი, რომელშიც შეიყვანთ თქვენს მონაცემებს. გარდა ამისა, გადავიდა ასტარტაში ეგრეთ წოდებული არაფორმატირებული დოკუმენტების, ანუ დოკუმენტების, რომელთა ფორმატიც სისტემაში არ არის აღწერილი, შემოტანის შესაძლებლობა. Vkazivka, თუ ერთდროულად არის არაფორმატირებული დოკუმენტების ნაკადი, დააყოვნეთ ამის გაკეთება ხელით.

ქაღალდის დოკუმენტების დასამუშავებლად სისტემას აქვს შესაძლებლობა გაუშვას სკანირების პროგრამა და მის ინტერფეისში მიუთითოს დოკუმენტების გრაფიკული გამოსახულების შინაარსის რეტუშირების ადგილი. ასეთი დოკუმენტების შეყვანისას სისტემას მოუწევს ხელით შედგენა, დოკუმენტის დეტალების შევსების დროს დოკუმენტის ტექსტის ამოცნობის დამატებითი შესაძლებლობით (გადაათრიეთ და ამოცნობა). ასევე შესაძლებელია გრაფიკული დოკუმენტის სრული ტექსტის ავტომატური ინდექსირება მთელი გრაფიკული გამოსახულების ბრმად ამოცნობით და ამოცნობილი ტექსტის სრული ტექსტის ინდექსირების მოდულზე გადატანით.

მოძებნეთ დოკუმენტები

Astarta-ს პროგრამული კომპლექსის საძიებო სისტემა (ნახ. 3) დაინსტალირებულია რთული მოთხოვნების შექმნის უზრუნველსაყოფად, რომელიც მხარს უჭერს სრული ტექსტის, კონტექსტური და საჭირო საძიებო დოკუმენტების ორგანიზებას, როგორც ლოკალური, ასევე სერვერის მონაცემთა შესანახად. ძიების ორგანიზებისას გამოიყენება მორფოლოგიური ანალიზის მეთოდები, რაც საშუალებას გაძლევთ იპოვოთ დოკუმენტის ტექსტში არა მხოლოდ მითითებული სიტყვა (ან სიტყვის კომბინაცია), არამედ მისი ყველა სიტყვის ფორმა. მორფოლოგიის ძიება შეიძლება განხორციელდეს როგორც დოკუმენტის ტექსტისთვის, ასევე მისი დეტალებისთვის.


Პატარა 3. ფორმულირება ეფუძნება დოკუმენტების ძიებას.

სისტემის ინტერფეისი საშუალებას გაძლევთ ჩამოაყალიბოთ ჩანაწერები სხვადასხვა ლოგიკური ოპერაციებით I, ABO, NOT, რითაც მიუთითებს გონების სიზუსტეზე ინფორმაციის ძიებისას. ასევე არსებობს მთელი რიგი ფუნქციები და ფუნქციები, რომლებიც გაამარტივებს დოკუმენტების ფორმირებისა და ძიების პროცესს:

  • ლექსიკონების ხელმისაწვდომობა სისტემის დეტალებით (აადვილებს საჭირო მნიშვნელობის არჩევას);
  • „ბუნებრივი“ თარიღის შეყვანის შესაძლებლობა (მაგალითად, თარიღის არჩევა „2003 წლამდე“ უდრის 1.03.03-დან 31.03.03-მდე ინტერვალის შეყვანას);
  • მივყვები ძიების შედეგებს;
  • მნიშვნელოვანი სასმელების დაზოგვა.

საჭმლის მონელების ფორმირება

ინფორმაციის ფორმირება (დაიჯესტები), დაჯგუფებული სხვადასხვა ინფორმაციის განყოფილების უკან, სისტემის ფუნქციონალური შესაძლებლობების უცნობი ნაწილია (ნახ. 4). ასტარტას სისტემაში ამ ფუნქციის განსახორციელებლად, არსებობს კომპონენტი, რომელიც საშუალებას გაძლევთ შექმნათ სხვადასხვა შაბლონები ანგარიშებში ინფორმაციის წარდგენისთვის, სადაც ადგენთ მოხსენების ყველა საწყობის ნაწილის სტილს და სტრუქტურას და მიუთითებთ დახარისხების მეთოდის დოკუმენტებს. ამჟამად, პარამეტრები საშუალებას გაძლევთ შეადგინოთ დაიჯესტი ან დოკუმენტის ანოტაციებიდან ან ჩამოაყალიბოთ სრული ტექსტის დაიჯესტი. დიდი ინფორმაციის საშუალებით შესაძლებელია მდიდრულად მოცულობითი დოკუმენტის ჩამოყალიბება ან, თუმცა, სხვა არაფრისთვის ადგილი არ არის.


Პატარა 4. გამოქვეყნებული ამბების (დაიჯესტის) ფორმირება.

საბოლოო ჯამში, საბოლოო დოკუმენტი იქმნება Microsoft Word ფორმატში, შეგიძლიათ აირჩიოთ სხვა ფორმატი მონაცემების წარდგენისთვის შაბლონის შევსების ეტაპზე.

პობუდოვას სტატისტიკური ინფორმაცია

სტატისტიკური ანალიზის მთავარი მიზანია გამოკვლეული პრობლემის განვითარების ტენდენციების გამოვლენა. შედეგების გამოსავლენად საუკეთესო გზაა დროის საათების სერია, რომელიც აჩვენებს თვალთვალის მნიშვნელობის ევოლუციას საათის განმავლობაში და დიაგრამა, რომელიც აჩვენებს თვალთვალის მნიშვნელობის ნაწილს სხვა მნიშვნელობებს შორის. ვინაიდან სრულყოფილი პროგნოზირება მოითხოვს სხვადასხვა სტატისტიკური პაკეტების გამოყენებას, რომლებიც იყენებენ სპეციალურ ალგორითმებს (მაგალითად, ავტორეგრესიული ალგორითმი და ARISS ინტეგრალური საშუალო - ARIMA), მაშინ მხედველობაში მიიღება მკაფიო შეფასება. საჭირო დროის სერიების დაყენება შეიძლება განხორციელდეს გამოყენებით. სტანდარტული Excel პაკეტი.

Astarta სისტემა ახორციელებს ორ მეთოდს სხვადასხვა სტატისტიკური მონაცემების მოსაპოვებლად: Statistica 5.5 პაკეტის ან სტანდარტული Excel პაკეტის შესაძლებლობების გამოყენებით. Excel-ში ექსპორტის დროს, სისტემური ინტერფეისიდან შეგიძლიათ მიუთითოთ მოწოდებული ინფორმაციის ტიპი: გრაფიკი, ტორტი სქემა ან ცხრილი. დროის სერიის მაგალითი, შექმნილი Excel პაკეტიდან რუბრიკატორისთვის Lenta.ru ვებსაიტზე, ნაჩვენებია ნახ. 5.

ვისნოვოკი

საწარმოების საინფორმაციო და ანალიტიკურ სამსახურებს თავიანთ საქმიანობაში უწევთ საქმე ინფორმაციის უაღრესად მგრძნობიარე წყაროებთან. ეს არის ქაღალდის პერიოდული გამოცემები, ელექტრონული გაზეთები, სხვა ინტერნეტ რესურსები, ელექტრონული ფოსტა, ახალი ნაკადების გადაცემა IP და FTP არხებით და ა.შ. შეამცირეთ თემატური ნიშნები მინიმუმამდე და შეიძლება გამოტოვოთ საჭირო ინფორმაცია. ნაკადების ავტომატური ფილტრაცია საშუალებას გაძლევთ სწრაფად აირჩიოთ ინტეგრირებული საინფორმაციო სურათი და საჭირო ინფორმაციის დეტალური ანალიზისთვის, შეგიძლიათ გამოიყენოთ ზეწოლის ქვეშ ხმის მექანიზმი შემთხვევითი დასაკეცი მოთხოვნებით.

საინფორმაციო და ანალიტიკური სისტემების დანერგვის დამადასტურებელი საბუთი სხვადასხვა ორგანიზაციაში, რომელიც აჩვენებს სისტემის მაღალ ეფექტურობას და ადაპტაციის მარტივს ადგილობრივ გონებასთან და უნივერსალური ხელსაწყოს შემუშავება დიდი ადამიანების ავტომატური მოზიდვისთვის, მრავალფეროვნება ეს არის ტექსტური ინფორმაციის ნაკადების სტრუქტურა. .

უნივერსალური ფორმატის ანალიზატორი შესაძლებელს ხდის სრულად ავტომატიზირდეს ელექტრონული ინფორმაციის ნაკადების შეყვანა მონაცემთა ჰეტეროგენული წყაროებიდან ერთ შიდა წარდგენაში, ასევე შეამციროს რუტინული სამუშაო მინიმუმამდე არარეგულარული ტექსტის მონაცემების შეყვანისას (მაგალითად, ტექსტების შეყვანა ქაღალდის მედიიდან ამოცნობისას. სტატიები სხვა მედიიდან) და მომავალში, აუდიო ინფორმაციის ნაკადის ავტომატური ამოცნობა). დაინერგა ინტერნეტში საინფორმაციო საიტებზე „ახალი“ სიახლეების გამოქვეყნების ავტომატური მონიტორინგის სისტემა, რაც შესაძლებელს ხდის საწარმოების საინფორმაციო და ანალიტიკური სერვისების საქმიანობის ამ ნაწილის ავტომატიზირებას.

მნიშვნელოვანი ასპექტია შემოთავაზებული ავტოკატეგორიზაციის ტექნოლოგიის მოქნილობა (თემატური ფილტრაცია). სათაურებისა და სისტემის კომპონენტების ჩამონათვალის შერჩევა შეუძლია ექსპერტს - კონკრეტული საწარმოს საინფორმაციო და ანალიტიკური სამსახურის სპეციალისტს - სპეციალიზებული ინფორმაციისა და ანალიტიკური სერვისების საჭიროებებისთვის. დოკუმენტების შესაბამისობის სანდო შეფასებების დიაპაზონი მოცემულ სათაურებთან შეიძლება ასევე ხელმისაწვდომი იყოს ექსპერტისთვის, როგორც ახალი მონაცემების სისტემის ანალიზისა და თვითკონტროლის ინსტრუმენტი.

ანალიტიკური ბლოკი ემსახურება ახალი ამბების და დაიჯესტების მომზადების პროცესის ავტომატიზირებას, ასევე ანალიტიკოსს საშუალებას აძლევს განსაზღვროს და იწინასწარმეტყველოს განვითარება საჯარო საინფორმაციო სივრცეში (PMI, ინტერნეტი,...) სხვადასხვა ტენდენციებისა და კონკრეტული საგნის განვითარებისათვის.

ამ კლასის საინფორმაციო-ანალიტიკური სისტემების ეფექტურობას შეიძლება კიდევ უფრო შეუწყოს ხელი ტექსტის ანალიზზე დაფუძნებული ხელოვნური ინტელექტის მეთოდების შემუშავებით და დანერგვით, ტექსტების ავტომატური სემანტიკური ანალიზის მეთოდების გარდა, გაგებით.