რა არის დიდი მონაცემები: ჩვენ შევაგროვეთ ყველა ყველაზე მნიშვნელოვანი რამ დიდი მონაცემების შესახებ. მარკეტინგის ენციკლოპედია რა არის რობოტი დიდი ხარკით

გავრცელდა ინფორმაცია, რომ 2011 წელს შექმნილი და გამეორებული მონაცემების მთლიანი მოცულობა შეიძლება იყოს 1,8 ზეტაბაიტი (1,8 ტრილიონი გიგაბაიტი) - დაახლოებით 9-ჯერ მეტი, ვიდრე 2006 წელს შეიქმნა.

უფრო დასაკეცი

პროტე` დიდი ხარკიმოდით ვივარაუდოთ მეტი, ვიდრე უბრალოდ ინფორმაციის დიდი ვალდებულებების ანალიზი. პრობლემა ის კი არ არის, რომ ორგანიზაციები ქმნიან დიდი რაოდენობით მონაცემებს, არამედ ის, რომ მათი უმეტესობა წარმოდგენილია ფორმატში, რომელიც ცუდად თავსებადია ტრადიციული სტრუქტურირებული მონაცემთა ბაზის ფორმატთან - როგორიცაა ვებ ჟურნალები, ვიდეო ჩანაწერები, ტექსტური დოკუმენტები, მანქანის კოდი და ა.შ. გეოსივრცული მონაცემები. ყველაფერი ინახება სხვადასხვა კოლექციაში, ზოგჯერ ორგანიზაციის საზღვრებს მიღმა. შედეგად, კორპორაციებს შეუძლიათ რაც შეიძლება მეტ მონაცემზე წვდომა საჭირო ინსტრუმენტების გარეშე, რათა დაამყარონ ურთიერთობები მათ მონაცემებს შორის და მიიღონ ღირებულება მისგან. ამას დაუმატეთ ის ვითარება, რომ მონაცემები უფრო და უფრო ხშირად ახლდება და თქვენ ხედავთ სიტუაციას, როდესაც ინფორმაციის ანალიზის ტრადიციული მეთოდები ვერ ასწრებს მუდმივად განახლებადი მონაცემების დიდ მოცულობას. გზას უხსნის ტექნოლოგიას დიდი ხარკი.

ყველაზე ლამაზი დიზაინი

ძირითადად მესმის დიდი ხარკიგადასცემს ინფორმაციას რობოტს დიდი სერვისით და მრავალფეროვანი საწყობით, რომელიც ხშირად განახლდება და არის სხვადასხვა განყოფილებაში რობოტის ეფექტურობის გაზრდის, ახალი პროდუქტების შექმნისა და კონკურენტუნარიანობის გაზრდის მიზნით ე.ი. საკონსულტაციო კომპანია Forrester იძლევა მოკლე ფორმულირებას: ` დიდი ხარკიტექნიკისა და ტექნოლოგიების ინტეგრირება, რომლებიც მონაცემთა განცდას უკიდურეს პრაქტიკულობამდე მიიყვანს.

რამდენად დიდია განსხვავება ბიზნეს ანალიტიკასა და დიდ მონაცემებს შორის?

კრეიგ ბეიტმა, ვიცე-პრეზიდენტმა მარკეტინგის მთავარმა ოფიცერმა და Fujitsu Australia-ს მთავარმა ტექნოლოგიების ოფიცერმა, თქვა, რომ ბიზნესის ანალიზი არის წარსულში ბიზნესის მიერ მიღწეული შედეგების ანალიზის აღწერითი პროცესი, ახლა როგორც დამუშავების სიჩქარე. დიდი ხარკისაშუალებას გაძლევთ განახორციელოთ ტრანსფერების ანალიზი, ბიზნესს მიაწოდოთ რეკომენდაციები მომავლისთვის. დიდი მონაცემთა ტექნოლოგიები საშუალებას გაძლევთ გაანალიზოთ მეტი ტიპის მონაცემები ბიზნეს დაზვერვის ინსტრუმენტებთან შედარებით, რაც საშუალებას გაძლევთ ფოკუსირება მოახდინოთ არა მხოლოდ სტრუქტურირებულ ერთეულებზე.

Matt Slocum O"Reilly Radar-თან ერთად აქვს მნიშვნელობა რა გინდა დიდი ხარკიდა ბიზნეს ანალიტიკას შეიძლება ჰქონდეს იგივე მნიშვნელობა (კვებითი მტკიცებულებების ძიება), ისინი იყოფა ერთ ტიპად სამი ასპექტის შემდეგ.

დიდი მონაცემები გამოიყენება დიდი რაოდენობით ინფორმაციის დასამუშავებლად, როგორიცაა ბიზნეს ანალიტიკა, და ეს, რა თქმა უნდა, შეესაბამება დიდი მონაცემების ტრადიციულ მნიშვნელობას.
უფრო დიდი მონაცემები გამოიყენება მეტი მონაცემების დასამუშავებლად და მონაცემების შესაცვლელად, რაც ნიშნავს უფრო ღრმა კვლევას და ინტერაქტიულობას. ზოგიერთ შემთხვევაში, შედეგები უფრო სწრაფად გენერირდება, ეს დამოკიდებულია ვებსაიტზე.
დიდი მონაცემები მნიშვნელოვანია არასტრუქტურირებული მონაცემების დასამუშავებლად და ჩვენ ვიწყებთ იმის გარკვევას, თუ როგორ გამოვიყენოთ ისინი მას შემდეგ, რაც გამოვიყენებთ მათ შეგროვებას და შენახვას, და გვჭირდება ალგორითმები და დიალოგის შესაძლებლობა, რათა ხელი შეუწყოს ტენდენციების ძიებას. y, რაც არის მდებარეობს ამ მასივების შუაში.

Oracle-ის მიერ გამოცემული თეთრ წიგნზე "Oracle Information Architecture: The Architect's Career Behind Big Data"-ზე დაყრდნობით, დიდ მონაცემებთან მუშაობისას ჩვენ ინფორმაციას განსხვავებულად მივუდგებით, ვიდრე ბიზნესის მართვისას. ანალიზი.

დიდ მონაცემებთან მუშაობა არ ჰგავს ბიზნესის ანალიტიკის ძირითად პროცესს, არამედ მონაცემთა მარტივ დაგროვებას, რომელიც იძლევა შედეგებს: მაგალითად, ხარჯების გადახდის შესახებ მონაცემების მიწოდება ხდება გაყიდვების ვალდებულება ბაზარზე. დიდ მონაცემებთან მუშაობისას შედეგი გამოდის მათი გაწმენდის პროცესიდან თანმიმდევრული მოდელირების გზით: ჯერ ყალიბდება ჰიპოთეზა, იქმნება სტატისტიკური, ვიზუალური და სემანტიკური მოდელი და მის ფარგლებში მოწმდება ჰიპოთეზის მართებულობა. და შემდეგ ნაბიჯი ეკიდება. ეს პროცესი გულისხმობს ვიზუალური მნიშვნელობების ინტერპრეტაციის გამოკვლევას, ცოდნაზე დაფუძნებული ინტერაქტიული მოთხოვნების შემუშავებას, ან „მანქანური სწავლის“ ადაპტაციური ალგორითმების შემუშავებას, რომლებიც შექმნილია იმისთვის, რომ უარყოს სასურველი შედეგი. უფრო მეტიც, ასეთი ალგორითმის სიცოცხლის ხანგრძლივობა შეიძლება იყოს მოკლე.

დიდი მონაცემების ანალიზის ტექნიკა

არსებობს მასიური მონაცემების ანალიზის სხვადასხვა ტექნიკა, რომლებიც დაფუძნებულია ინსტრუმენტებზე, სტატისტიკასა და კომპიუტერულ მეცნიერებებზე (მაგალითად, მანქანათმცოდნეობაზე). სია არ არის ამომწურავი, თუმცა ამ სურათს ყველაზე დიდი საჭიროება აქვს სხვადასხვა ტიპის აპლიკაციებზე. ამასთან, გასაგებია, რომ წინამორბედები გააგრძელებენ მუშაობას ახალი ტექნიკის შექმნაზე და არსებულის საფუძვლიან განვითარებაზე. გარდა ამისა, ზოგიერთი მეთოდი სულაც არ არის სტაგნაცია, მათ შორის დიდი მონაცემები და შეიძლება წარმატებით იქნას გამოყენებული მცირე მასივებისთვის (მაგალითად, A/B ტესტირება, რეგრესიის ანალიზი). წარმოუდგენელია, რაც უფრო დიდი და დივერსიფიცირებულია მასივი, რომლის ანალიზიც შესაძლებელია, მით უფრო ზუსტი და შესაბამისი მონაცემების მოპოვება შესაძლებელია გამოსავალზე.

A/B ტესტირება. თითოეული საკონტროლო ნიმუშის მეთოდი სხვების ტოლია. თავად ტიმი ცდილობს გამოავლინოს ინდიკატორების ოპტიმალური კომბინაცია, რათა მიაღწიოს, მაგალითად, საუკეთესო რეაქციას თანამემამულეებს შორის მარკეტინგულ წინადადებაზე. დიდი ხარკისაშუალებას გაძლევთ განახორციელოთ ჩუმად გამეორება და ამით მიიღოთ სტატისტიკურად მნიშვნელოვანი შედეგი.

ასოციაციის წესების სწავლა. ტექნიკის ნაკრები ურთიერთქმედებების იდენტიფიცირებისთვის, შემდეგ. ასოციაციის წესები ცვლად მნიშვნელობებს შორის მონაცემთა დიდ ნაკრებებში. ვიკორისტი შევიდა მონაცემების მოპოვება.

კლასიფიკაცია. ტექნიკის ნაკრები, რომელიც საშუალებას გაძლევთ გადაიტანოთ სეგმენტის მომხმარებლების ქცევა ბაზარზე (გადაწყვეტილების მიღება შესყიდვების, ტრანზაქციების შესახებ და ა.შ.). ვიკორისტი შევიდა მონაცემების მოპოვება.

კლასტერული ანალიზი. ადრე უცნობი ფარული ნიშნების საფუძველზე ობიექტების ჯგუფებად კლასიფიკაციის სტატისტიკური მეთოდი. ვიკორისტი შევიდა მონაცემების მოპოვება.

Crowdsourcing. dzherel-ის დიდი რაოდენობით მონაცემების შეგროვების მეთოდოლოგია.

მონაცემთა შერწყმა და მონაცემთა ინტეგრაცია. მეთოდების ნაკრები, რომელიც საშუალებას გაძლევთ გაანალიზოთ კლიენტების კომენტარები სოციალური ზომებიდა აჩვენეთ გაყიდვების შედეგები რეალურ დროში.

Მონაცემების მოპოვება. ტექნიკის ერთობლიობა, რომელიც საშუალებას გაძლევთ განსაზღვროთ ყველაზე შესაფერისი პროდუქტი, რომელიც გაჟონავს, ან მომსახურება კომპანიონთა კატეგორიისთვის, დაადგინოთ ყველაზე წარმატებული მუშაკების მახასიათებლები, გადაიტანოთ თანამგზავრების ქცევითი მოდელი.

ანსამბლის სწავლა. მთელი ეს მეთოდი ეყრდნობა პროგნოზირების მოდელების არარსებობას, რაც კიდევ უფრო აძლიერებს პროგნოზების შემუშავების უნარს.

გენეტიკური ალგორითმები. ამ მეთოდით შესაძლებელია ქრომოსომების გარეგნობის წარმოდგენა, რომლებსაც შეუძლიათ გაერთიანება და მუტაცია. როგორც ბუნებრივი ევოლუციის პროცესების შემთხვევაში, ყველაზე დომინანტური ინდივიდი გადარჩება.

მანქანათმცოდნეობა. უშუალოდ საინფორმაციო მეცნიერებაში (ისტორიულად მას დაერქვა სახელწოდება „ცალი ინტელექტი“), რაც გულისხმობს ემპირიული მონაცემების ანალიზზე დაფუძნებული თვითინსტრუქციის ალგორითმების შექმნას.

ბუნებრივი ენის დამუშავება (NLP). კომპიუტერული მეცნიერებიდან და ლინგვისტიკიდან ბუნებრივ ენაზე მყოფი ადამიანების ამოცნობის მეთოდების ნაკრები.

ქსელის ანალიზი. საზღვრებზე კვანძებს შორის კავშირების ანალიზის მეთოდების ნაკრები. ასი სოციალური ღონისძიება საშუალებას გაძლევთ გაანალიზოთ ურთიერთობები ახლომდებარე ინვესტორებს, კომპანიებს, ჯგუფებს და ა.შ.

ოპტიმიზაცია. რიცხვითი მეთოდების ნაკრები დასაკეცი სისტემებისა და პროცესების ხელახალი დიზაინისთვის ერთი ან მეტი დისპლეის დეკორაციისთვის. ეხმარება სტრატეგიული გადაწყვეტილებების მიღებაში, მაგალითად, ბაზარზე გასაცნობი პროდუქციის ხაზის შენახვა, საინვესტიციო ანალიზის ჩატარება და ა.შ.

ნიმუშის ამოცნობა. ტექნიკის კომპლექტი თვითმმართველობის ელემენტებით მოსწავლეთა ქცევითი მოდელის გადაცემისათვის.

პროგნოზირებადი მოდელირება. ტექნიკის ნაკრები, რომელიც საშუალებას გაძლევთ შექმნათ წინასწარ განსაზღვრული განვითარების სცენარის მათემატიკური მოდელი. მაგალითად, CRM სისტემის მონაცემთა ბაზის ანალიზი სასარგებლოა უნარიანი გონებისთვის, რათა წაახალისონ აბონენტები შეცვალონ პროვაიდერები.

რეგრესია. სტატისტიკური მეთოდების ერთობლიობა, რათა განისაზღვროს შაბლონები მოძველებული და არამოძველებული ჯიშების ცვლილებას შორის. ხშირად საჭიროა პროგნოზების გაკეთება და ტრანსფერები. ვიკორიზებს მონაცემთა მოპოვებას.

განწყობის ანალიზი. თანამემამულეების განწყობის შეფასების მეთოდები ეფუძნება ბუნებრივი ენის ამოცნობის ტექნოლოგიებს. სუნები საშუალებას გაძლევთ ამოიღოთ ინფორმაციის ფარული ნაკადიდან, რომელიც დაკავშირებულია ობიექტთან, რომელზეც საუბრობთ (მაგალითად, ცოცხალი პროდუქტი). შემდეგი, შეაფასეთ განსჯის პოლარობა (დადებითი ან უარყოფითი), ემოციის ეტაპი და ა.შ.

Სიგნალი მუშავდება. რადიოინჟინერიის საფუძველზე, არსებობს ტექნიკის ნაკრები, რომელიც შეიძლება გამოყენებულ იქნას სიგნალის ამოცნობის, ხმაურის და შემდგომი ანალიზისთვის.

სივრცითი ანალიზი. სივრცითი მონაცემების ანალიზის სტატისტიკური მეთოდების ნაკრები - ლოკალურობის ტოპოლოგია, გეოგრაფიული კოორდინატები, ობიექტის გეომეტრია. ჯერელ დიდი ხარკიგეოგრაფიული საინფორმაციო სისტემები (GIS) ხშირად მოქმედებს.

Revolution Analytics (მათემატიკური სტატისტიკის R ენაზე დაფუძნებული).

ამ სიისთვის განსაკუთრებით საინტერესოა Apache Hadoop - ღია კოდის პროგრამული უზრუნველყოფა, რომელიც ტესტირებულია ბოლო ხუთი წლის განმავლობაში, როგორც მონაცემთა ანალიზატორი საფონდო ტრეკერების უმეტესობისთვის. ისევე, როგორც Yahoo-მ გამოუშვა Hadoop კოდი ღია კოდით, IT ინდუსტრიამ მოულოდნელად დაინახა Hadoop-ზე დაფუძნებული პირდაპირ შექმნილი პროდუქტები. თითქმის ყველა ყოველდღიური ანალიზის მახასიათებელი დიდი ხარკიგთავაზობთ Hadoop-თან ინტეგრაციის ფუნქციებს. მათი დისტრიბუტორები არიან როგორც სტარტაპები, ასევე მაღალი დონის მსოფლიო კომპანიები.

ბაზრის გადაწყვეტილებები დიდი მონაცემების მართვისთვის

მონაცემთა დიდი პლატფორმები (BDP, დიდი მონაცემთა პლატფორმა) როგორც ციფრული აურზაურის წინააღმდეგ ბრძოლის საშუალება

ანალიზის შესაძლებლობა დიდი ხარკი, სასაუბროდ სახელწოდებით Big Data, აღიქმება როგორც სარგებელი და აუცილებლად. მართლა მართალია? რამდენ ხანს შეგიძლიათ შეაფასოთ მონაცემების არასტრიმინგის დაგროვება? დიდი დრო გავიდა, სანამ მთელი მსოფლიოდან ფსიქოლოგები პათოლოგიურ განძარცვას, სილოგიომანიას ან ფიგურალურად „პლიუშკინის სინდრომს“ უწოდებდნენ. ინგლისურად, ყველაფრის სწრაფად შეგროვების ჩვევას ჰქვია hording (ინგლისური განძიდან - "სტოკი"). ფსიქიკური დაავადებების კლასიფიკაციის მიღმა დგას დაზღვევის კლასიფიკაცია ფსიქიკურ აშლილობებამდე. ციფრულ ეპოქაში, ტრადიციული მეტყველების ჰორდინგის დაწყებამდე, ემატება Digital Hoarding, რომელსაც შეუძლია გავლენა მოახდინოს როგორც ინდივიდზე, ასევე საწარმოსა და ორგანიზაციის მიზნებზე.

რუსეთის შუქი და ბაზარი

დიდი მონაცემების პეიზაჟი - მთავარი კონტრიბუტორები

ინტერესი შეგროვების, დამუშავების, მართვისა და ანალიზის ინსტრუმენტებით დიდი ხარკიყველა IT კომპანიამ არ გამოავლინა ეს, რაც სრულიად ბუნებრივია. უპირველეს ყოვლისა, სუნი მთლიანად ეწებება ამ ფენომენს ენერგეტიკულ ბიზნესში, სხვა სიტყვებით რომ ვთქვათ, დიდი ხარკიისინი ავლენენ წარმოუდგენელ შესაძლებლობებს ახალი ბაზრის ნიშების განვითარებისა და ახალი შემცვლელების მოპოვებისთვის.

ბაზარზე ბევრი სტარტაპი იყო, რომლებსაც სურდათ ბიზნესის წარმოება დიდი რაოდენობით მონაცემების შეგროვებით. ზოგიერთი მათგანი ეყრდნობა მზა ინფრასტრუქტურას, რათა დიდი ზეწოლა მოახდინოს ამაზონის პლატფორმაზე.

გალუსელებს შორის დიდი ხარკის თეორია და პრაქტიკა

განვითარების ისტორია

2017

TmaxSoft პროგნოზი: დიდი მონაცემები მოდის DBMS-ის მოდერნიზაციით

საწარმოებმა იციან, რომ მათ მიერ დაგროვილი დიდი ვალდებულებები განპირობებულია მნიშვნელოვანი ინფორმაციამათი ბიზნესისა და კლიენტების შესახებ. თუ კომპანიას შეუძლია ამ ინფორმაციის წარმატებით დაჭერა, მას ექნება მნიშვნელოვანი უპირატესობა კონკურენტებთან შედარებით და შეძლებს მათზე უკეთესი პროდუქტებისა და სერვისების დანერგვას. თუმცა, ბევრ ორგანიზაციას ჯერ კიდევ არ შეუძლია ეფექტური კონკურენცია დიდი ხარკიმათი მეშვეობით, ვისი IT ინფრასტრუქტურა შემცირდა, შეუძლებელია შენახვის სისტემების, მონაცემთა გაცვლის პროცესების, კომუნალური და პროგრამების საჭირო სიმძლავრის მიწოდება, რომლებიც აუცილებელია არასტრუქტურირებული მონაცემების დიდი მასივის დამუშავებისა და ანალიზისთვის, მათგან მონაცემების ამოსაღებად სხვა ინფორმაცია, განთავსებულია TmaxSoft-ში. .

გარდა ამისა, კომპლექსური მონაცემების ანალიზისთვის საჭირო გაზრდილი დამუშავების სიმძლავრე, რომელიც სტაბილურად იზრდება, შეიძლება მოითხოვოს მნიშვნელოვანი ინვესტიციები ორგანიზაციის ძველ IT ინფრასტრუქტურაში, ასევე დამატებითი რესურსები მხარდაჭერისთვის, რომელიც შეიძლება გამოყენებულ იქნას ახალი დანამატებისა და სერვისების შესაქმნელად.

2015 წლის 5 თებერვალს თეთრმა სახლმა გამოაქვეყნა ჩვენება, რომელშიც განიხილეს თუ როგორ ვიკორისტულ კომპანიებს დიდი ხარკიგანსხვავებული ფასების დაწესება სხვადასხვა მყიდველისთვის - პრაქტიკა, რომელიც ცნობილია როგორც „ფასის დისკრიმინაცია“ ან „პერსონალიზებული ფასები“. ეს აღწერს „დიდი მონაცემების“ მნიშვნელობას როგორც გამყიდველებისთვის, ასევე მყიდველებისთვის და მისი ავტორები მივიდნენ დასკვნამდე, რომ არსებობს უამრავი პრობლემური საკვები, რომლებიც დაკავშირებულია დიდი მონაცემების გაჩენასთან და დიფერენციალურ ფასებთან, რომლებიც შეიძლება იყოს გამარჯვებული და ფარგლებში. ზოგადი ანტიდისკრიმინაციული კანონმდებლობისა და კანონების ჩარჩო, რომელიც იცავს მოსახლეობის უფლებებს

ნათელია, რომ ამ დროისთვის ფაქტებზე მეტი არაფერია სათქმელი იმის შესახებ, თუ როგორ იყენებენ კომპანიები დიდ მონაცემებს ინდივიდუალური მარკეტინგისა და დიფერენციალური ფასების კონტექსტში. ეს ინფორმაცია აჩვენებს, რომ გამყიდველები გვთავაზობენ ფასების მეთოდებს, რომლებიც შეიძლება დაიყოს სამ კატეგორიად:

კეხიანი კონდახის იმპლანტაცია;
სამართავი და დიფერენციალური ფასები დემოგრაფიული მონაცემების საფუძველზე; მე
მიზნობრივი ბიჰევიორული მარკეტინგი (ქცევითი მიზნობრივი) და ინდივიდუალური ფასები.

Vivchennya crooked ქვედა: სამომხმარებლო მარკეტოლოგების ქცევის გასაგებად, მარკეტოლოგები ხშირად ატარებენ ექსპერიმენტებს ამ სფეროში, სადაც კლიენტები შემთხვევით ნაწილდებიან ორი შესაძლო ფასის კატეგორიაში. ”ტექნიკურად, ეს ექსპერიმენტები არის დიფერენციალური ფასების ფორმა და მათი დარჩენილი ნაწილი იწვევს კლიენტებისთვის განსხვავებულ ფასებს, რაც მიუთითებს იმაზე, რომ ისინი ”არადისკრიმინაციულია” მათთვის, ვინც გრძნობს, რომ ”ყველა კლიენტის ნდობა დაიხარჯება იმავე ფასად. "

საჭე: ეს არის პროდუქციის წარდგენის პრაქტიკა თანამშრომლებისთვის მათი კუთვნილებისა და დემოგრაფიული ჯგუფის მიხედვით. ამრიგად, კომპიუტერული კომპანიის ვებსაიტს შეუძლია შესთავაზოს ერთი და იგივე ლეპტოპი სხვადასხვა ტიპის მყიდველებს სხვადასხვა ფასად, მათ მიერ მოწოდებული ინფორმაციის საფუძველზე (მაგალითად, იმისდა მიხედვით, არის თუ არა მყიდველი სამთავრობო სააგენტოს წარმომადგენელი სამეცნიერო და კომერციულ საკითხებში. პარამეტრები , ან კერძო პირი) ან მათი გეოგრაფიული განაწილების საფუძველზე (მაგალითად, მინიჭებული კომპიუტერის IP მისამართზე).

მიზანმიმართული ქცევითი მარკეტინგი და ინდივიდუალური ფასები: ამ შემთხვევებში, მომხმარებლის პერსონალური მონაცემები გამოიყენება მიზნობრივი რეკლამისთვის და კონკრეტული პროდუქტების მორგებული ფასებისთვის. მაგალითად, ონლაინ რეკლამის განმთავსებლები აგროვებენ მონაცემებს რეკლამებიდან და მესამე მხარის ქუქი-ფაილებიდან მათი ონლაინ აქტივობის შესახებ, რათა გააძლიერონ თავიანთი სარეკლამო მასალები. ეს მიდგომა, ერთი მხრივ, საშუალებას აძლევს ადამიანებს უარი თქვან მათთვის საინტერესო საქონლისა და მომსახურების რეკლამაზე, თუმცა, მათ შეუძლიათ დაურეკონ მოუსვენარ ადამიანებს, რომლებსაც არ სურთ მათი პირადი მონაცემების ნახვა (როგორიცაა ინფორმაცია ამის შესახებ. საიტების პოპულარიზაცია, „სამედიცინო და ფინანსური უზრუნველყოფისთვის საჭირო) შეგროვდა ყოველგვარი მოგების გარეშე.

მიუხედავად იმისა, რომ მიზნებზე ორიენტირებული ქცევითი მარკეტინგი, სავარაუდოდ, მნიშვნელოვნად გაფართოვდება, აშკარად მცირეა მტკიცებულება ინდივიდუალური ფასების შესახებ ონლაინ გარემოში. არსებობს შეზღუდვა, რომელიც შეიძლება გამოწვეული იყოს იმით, რომ მსგავსი მეთოდები ჯერ კიდევ ფრაგმენტირებულია, ან იმის გამო, რომ კომპანიები არ ჩქარობენ ინდივიდუალური ფასების გამოყენებას (ან უფრო სწრაფად პატივს სცემენ საუბარს) - შესაძლოა, თანამემამულეების უარყოფითი რეაქციის შიშით. .

ავტორები აღნიშნავენ, რომ „ინდივიდუალური მოსწავლისთვის, დიდი მონაცემების განვითარება უდავოდ ასოცირდება როგორც პოტენციურ მოგებასთან, ასევე რისკებთან“. იმის ცოდნა, რომ მიუხედავად იმისა, რომ ჩნდება დისკრიმინაციისა და დისკრიმინაციის პრობლემები, ამავე დროს დადასტურებულია, რომ მათ დასაძლევად საკმარისია ძირითადი ანტიდისკრიმინაციული კანონები და კანონები, რომლებიც იცავს მოსახლეობას უფლებებს. თუმცა, ისინი ასევე თანხმდებიან ამ შემთხვევებში „მუდმივი კონტროლის“ აუცილებლობაზე, თუ კომპანიები იპარავენ კონფიდენციალურ ინფორმაციას გაუმჭვირვალე გზით ან იმ გზით, რომელიც არ შეესაბამება არსებულ მარეგულირებელ ჩარჩოს.

ეს მტკიცებულება აგრძელებს თეთრი სახლის ინფორმირებას ინტერნეტში „დიდი მონაცემების“ სტაგნაციისა და დისკრიმინაციული ფასების შესახებ და ამერიკელი მოქალაქეების მემკვიდრეობაზე. ადრე უკვე გავრცელდა ინფორმაცია, რომ თეთრი სახლის სამუშაო ჯგუფმა დიდი მიზეზების გამო გამოაქვეყნა გაზეთში 2014 წლის მათი მტკიცებულებები ამ დიეტის შესახებ. ფედერალურმა სავაჭრო კომისიამ (FTC) ასევე განიხილა ეს სემინარზე, რომელიც ჩაატარა 2014 წლის გაზაფხულზე დიდი მონაცემების კორუფციასთან დაკავშირებით დისკრიმინაციის შესახებ.

2014

გარტნერი იკვლევს მითებს "დიდი ხარკების" შესახებ

2014 წლის შემოდგომაზე ანალიტიკურ ჩანაწერში გარტნერმა გადახედა დიდი მონაცემების IT-არქივის მითების დაბალი სივრცისა და მათი გაჩენის შესახებ.

ჩვენთვის დაინერგება დიდი ხარკის დამუშავების ყველა სისტემა

Big Data ტექნოლოგიებისადმი ინტერესი ყველა დროის მაქსიმუმზეა: გარტნერის ანალიტიკოსების მიერ ინფორმირებული ორგანიზაციების 73% უკვე ინვესტირებას ან რეკრუტირებას ახორციელებს დაკავშირებულ პროექტებში. თუმცა, ამ ინიციატივების უმეტესობა ჯერ კიდევ ადრეულ ეტაპზეა და რესპონდენტთა მხოლოდ 13%-ს აქვს უკვე მიღებული ასეთი გადაწყვეტილებები. ყველაზე სახიფათო რამ არის იმის გარკვევა, თუ როგორ უნდა გამოიტანოთ შემოსავალი დიდი მონაცემებიდან და გაარკვიოთ, რითი დავიწყოთ. ბევრი ორგანიზაცია ჩარჩენილია საპილოტე ეტაპზე და ფრაგმენტები ვერ აკავშირებს ახალ ტექნოლოგიას კონკრეტულ ბიზნეს პროცესებთან.

ჩვენ გვაქვს იმდენი მონაცემები, რომ არ არის საჭირო მათში სხვადასხვა დეტალებზე ფიქრი

IT პროფესიონალები პატივს სცემენ, რომ მონაცემების სხვა ხარვეზები ხელს არ უშლის დიდი ვალდებულებების ანალიზის შედეგებს. თუ ბევრი მონაცემი იქნება, კანის მოვლა შედეგზე ნაკლებ გავლენას მოახდენს, ამბობენ ანალიტიკოსები და თავად უფრო მეტი ზიანი იქნება. მეორეს მხრივ, მონაცემთა ანალიზის უმეტესი ნაწილი არის გარეგანი, უცნობი სტრუქტურისა და მსგავსების, ამიტომ წყალობის სანდოობა იზრდება. ამ გზით, დიდი მონაცემების სამყაროში, სიკეთე მართლაც ძალიან მნიშვნელოვანია.

მონაცემთა დიდი ტექნოლოგიები პასუხობს მონაცემთა ინტეგრაციის საჭიროებას

Great Data აფასებს მონაცემთა ორიგინალურ ფორმატში დამუშავების შესაძლებლობას კითხვის სამყაროში სქემების ავტომატური წარმოქმნით. მნიშვნელოვანია, რომ შეძლოთ ამ მოწყობილობებიდან ინფორმაციის ანალიზი თავად რამდენიმე მონაცემთა მოდელის გამოყენებით. მნიშვნელოვანია, რომ საბოლოო მომხმარებლებმა ასევე შეძლონ მონაცემთა ნებისმიერი ნაკრების ინტერპრეტაცია საკუთარი შეხედულებისამებრ. სინამდვილეში, დეველოპერების უმეტესობას ხშირად ესაჭიროება ტრადიციული მეთოდი მზა სქემით, თუ მონაცემები ფორმატირებულია თანმიმდევრულად და ინფორმაციის მთლიანობისთვის და როგორ მუშაობს, შეიყვანეთ vikoristan-ის სკრიპტი.

მონაცემთა დიდ მოცულობას არ გააჩნია ვიკორიზმის გრძნობა რთული ანალიტიკისთვის.

ინფორმაციის მართვის სისტემის ადმინისტრატორებმა კარგად იციან, რომ აზრი არ აქვს დროის დაკარგვას მონაცემთა შექმნაზე და რომ რთული ანალიტიკური სისტემების განახლება ხდება ახალი ტიპის მონაცემებით. სინამდვილეში, მრავალი მოწინავე ანალიტიკური სისტემა აგროვებს ინფორმაციას მონაცემთა საწყობებიდან. სხვა შემთხვევებში, მონაცემთა ახალი ტიპების წინასწარ მომზადება საჭიროა დიდი მონაცემთა დამუშავების სისტემების ანალიზამდე; აუცილებელია გადაწყვეტილებების მიღება მონაცემთა შესაბამისობის, აგრეგაციის პრინციპებისა და თანმიმდევრულობის აუცილებელი დონის შესახებ - ასეთი მომზადება შეიძლება გაკეთდეს ანალოგიურად.

მონაცემთა ტბები ჩაანაცვლებს მონაცემთა მონასტრებს.

სწორია დამსაქმებლებმა პოზიციური მონაცემების ტბებში ასისტენტები შეიყვანონ, როგორც საცავის შემცვლელი ან როგორც ანალიტიკური ინფრასტრუქტურის კრიტიკულად მნიშვნელოვანი ელემენტები. ფუძემდებლური მონაცემთა ტბის ტექნოლოგიებს აკლია სიმწიფე და ფუნქციონალური და სიმძლავრე. მათ, ვინც პასუხისმგებელია მონაცემთა მენეჯმენტზე, დაელოდეთ სანამ ტბა განვითარების იმავე დონეს მიაღწევს, პატივი ეცით Gartner-ს.

Accenture: სისტემის მიერ გამოქვეყნებული დიდი მონაცემების 92% კმაყოფილია შედეგით

კვების დიდი მონაცემების მთავარ მიღწევებს შორის დასახელდა:

„ახალი შემოსავლის ძიება“ (56%),
"მომხმარებლის ცნობიერების ამაღლება" (51%),
„ახალი პროდუქტები და სერვისები“ (50%)
„ახალი კლიენტების შემოდინება და ძველის ლოიალობის შენარჩუნება“ (47%).

ახალი ტექნოლოგიების დანერგვით ბევრ კომპანიას შეექმნა ტრადიციული პრობლემები. 51%-ისთვის დაბრკოლება იყო უსაფრთხოება, 47%-ისთვის ბიუჯეტი, 41%-ისთვის საჭირო პერსონალის დეფექტი, 35%-ისთვის კი ძირითად სისტემასთან ინტეგრაციის სირთულე. კომპანიის თითქმის ყველა მენეჯერი (დაახლოებით 91%) გეგმავს პერსონალის დეფიციტის პრობლემის მოგვარებას და სპეციალისტების დაქირავებას დიდი მონაცემებისთვის.

ბიზნესები ოპტიმისტურად არიან განწყობილნი მომავალი დიდი მონაცემთა ტექნოლოგიების მიმართ. 89% პატივს სცემს, რომ ისინი ისევე შეცვლიან ბიზნესს, როგორც ინტერნეტი. გამოკითხულთა 79%-მა თქვა, რომ კომპანიები, რომლებიც დიდ მონაცემებთან არ არიან დაკავშირებული, კარგავენ კონკურენტულ უპირატესობას.

იმავდროულად, დუმაში ხალხი საუბრობდა მათზე, ვინც მზად არის პატივი სცეს დიდ ხარკს. გამოკითხულთა 65% აფასებს „დიდი მონაცემების ფაილებს“, 60% აფასებს „ღრმა ანალიტიკას და ანალიზს“ და 50% აფასებს „მონაცემებს ვიზუალიზაციის ხელსაწყოებიდან“.

მადრიდი 14,7 მილიონ ევროს ხარჯავს დიდი მონაცემების მართვაზე

U lipny 2014 რ. ცნობილი გახდა, რომ მადრიდი დიდ მონაცემთა ტექნოლოგიებს იყენებს ქალაქის ინფრასტრუქტურის სამართავად. პროექტის ღირებულება 14,7 მილიონი ევროა, შემოთავაზებული გადაწყვეტის საფუძველი იქნება დიდი მონაცემების ანალიზისა და მართვის ტექნოლოგიები. ჩვენი დახმარებით ჩვენი ადმინისტრაცია მუშაობს ერთმანეთთან, როგორც სერვისის მიმწოდებელი და იხდიან ანაზღაურებას მომსახურების დონის მიხედვით.

საუბარია ადმინისტრაციის კონტრაქტორებზე, რომლებიც მუშაობენ ქუჩებზე, განათებაზე, ირიგაციაზე, გამწვანებაზე, ტერიტორიის წმენდასა და გატანაზე, ასევე ნარჩენების გადამუშავებაზე. პროექტის მსვლელობისას სპეციალური ინსპექტორებისთვის გაიყო Microsoft-ის სერვისების მუშაობის ეფექტურობის 300 ძირითადი ინდიკატორი, რის საფუძველზეც ამჟამად 1,5 ათასია. სხვადასხვა ხელახალი შემოწმება და გადაშენება. გარდა ამისა, ადგილი გააგრძელებს ინოვაციური ტექნოლოგიური პლატფორმის განვითარებას, სახელწოდებით Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

ექსპერტები: Pik Fashion დიდ მონაცემებზე

მონაცემთა მართვის ბაზარზე ყველა გამყიდველი ამჟამად ავითარებს ტექნოლოგიებს დიდი მონაცემთა მართვისთვის. ამ ახალ ტექნოლოგიურ ტენდენციას ასევე აქტიურად განიხილავენ პროფესიონალური ინდუსტრია, როგორც საცალო ვაჭრობა, ასევე Galouze-ის ანალიტიკოსები და ასეთი გადაწყვეტილებების პოტენციური დეველოპერები.

როგორც კომპანია Datashift-ში აცხადებენ, 2013 წლის ბოლოს გაიმართება დისკუსია დიდი ხარკი» გადაიტანეს ყველა შესაძლო ზომა. სოციალურ ქსელებში მრავალი Big Data საიდუმლოების გაანალიზების შემდეგ, Datashift-მა აღმოაჩინა, რომ 2012 წელს ეს ტერმინი თითქმის 2 მილიარდჯერ იქნა გამოყენებული მსოფლიოს 1 მილიონი სხვადასხვა ავტორის მიერ შექმნილ პოსტებში. ეს უდრის 260 პოსტს წელიწადში, ხოლო გამოცანების პიკი გახდა 3070 გამოცანები წელიწადში.

გარტნერი: კოჟენი არის კიდევ ერთი IT დირექტორი, რომელიც მზადაა ინვესტირება მოახდინოს დიდ მონაცემებში

დიდი მონაცემთა ტექნოლოგიების მრავალი ექსპერიმენტის შემდეგ და პირველი დანერგვის შემდეგ 2013 წელს, ასეთი გადაწყვეტილებების მიღება მნიშვნელოვნად გაიზრდება, პროგნოზირებს Gartner. მკვლევარებმა გამოიკვლიეს IT ლიდერები მთელს მსოფლიოში და დაადგინეს, რომ მათგან 42%-ს უკვე ჰქონდა ინვესტიცია დიდი მონაცემთა ტექნოლოგიაში ან აპირებდა მსგავსი ინვესტიციების განხორციელებას უახლოეს მომავალში (მონაცემები 2013 წლის თებერვლისთვის).

კომპანიები ფულს ხარჯავენ გადამამუშავებელ ტექნოლოგიებზე დიდი ხარკიინფორმაციის ლანდშაფტი სწრაფად იცვლება, რაც მოითხოვს ინფორმაციის დამუშავების ახალ მიდგომებს. ბევრმა კომპანიამ უკვე გაიგო, რომ დიდი რაოდენობით მონაცემები კრიტიკულად მნიშვნელოვანია და მათთან მუშაობა მათ საშუალებას აძლევს მიაღწიონ სარგებელს, რომელიც მიუწვდომელია ტრადიციული ინფორმაციისა და დამუშავების მეთოდებით. გარდა ამისა, ამ დიდი მონაცემების მუდმივი შეფასება ZMI-ს შორის იწვევს ინტერესს მოწინავე ტექნოლოგიების მიმართ.

ფრენკ ბაიტენდიკი, Gartner-ის ვიცე პრეზიდენტი, შთაგონებული იყო სტრიმინგ-კომპანიის ზარებით, რადგან კომპანიის საქმიანობა ხაზს უსვამს იმ უხერხულობას, რომელსაც კონკურენტები აწყდებიან Big Data-ის დაუფლებისას.

”ძნელია დაიკვეხნო, ”დიდი მონაცემების” ტექნოლოგიებზე დაფუძნებული იდეების განხორციელების შესაძლებლობები პრაქტიკულად შეუზღუდავია”, - თქვა მან.

Gartner პროგნოზირებს, რომ 2015 წლისთვის Global 1000 კომპანიების 20% მიიღებს სტრატეგიულ ფოკუსს „ინფორმაციულ ინფრასტრუქტურაზე“.

ახალი შესაძლებლობების კვალდაკვალ, რომელსაც მოაქვს ტექნოლოგიები „დიდი მონაცემების“ დამუშავებისთვის, ორგანიზაციები ახლა აწყობენ სხვადასხვა ინფორმაციის შეგროვებისა და შენარჩუნების პროცესს.

ზოგადი და სამთავრობო ორგანიზაციებისთვის, ისევე როგორც სამრეწველო კომპანიებისთვის, ბიზნესის ტრანსფორმაციის ყველაზე დიდი პოტენციალი დევს დაგროვილ მონაცემებში, ეგრეთ წოდებულ ბნელ მონაცემებში, რომლებიც რჩება ინფორმაციას. ელექტრონული ფოსტით, მულტიმედია და სხვა მსგავსი შინაარსი. Gartner-ის თქმით, მონაცემთა მატარებელი დაეხმარება მათ, ვინც ისწავლის სხვადასხვა ტიპის ინფორმაციასთან გამკლავებას.

Cisco-ს კვლევა: დიდი მონაცემები ხელს შეუწყობს IT ბიუჯეტის გაზრდას

კვლევის მსვლელობისას (2013 წლის გაზაფხული), სახელწოდებით Cisco Connected World Technology Report, რომელიც ჩატარდა 18 ქვეყანაში დამოუკიდებელი ანალიტიკური კომპანიის InsightExpress-ის მიერ, 1800 კოლეჯის სტუდენტმა და ამდენივე ახალგაზრდა ფაშისტმა მიიღო განათლება 18-დან 30 საათამდე. ტესტირება ჩატარდა პროექტების განხორციელებამდე IT დეპარტამენტების მზაობის დონის დასადგენად Დიდი მონაცემებიდა უარყოს განცხადებები მასთან დაკავშირებული პრობლემების, ტექნოლოგიური ასპექტების და მსგავსი პროექტების სტრატეგიული ღირებულების შესახებ.

კომპანიების უმეტესობა აგროვებს, აღრიცხავს და აანალიზებს მონაცემებს. როგორც ჩანს, ბევრი კომპანია Big Data-სთან დაკავშირებით აწყდება კომპლექსური ბიზნესისა და ინფორმაციული ტექნოლოგიების პრობლემების მთელ სპექტრს. მაგალითად, 60 ასეულმა რესპონდენტმა განაცხადა, რომ Big Data გადაწყვეტილებებს შეუძლია გააუმჯობესოს გადაწყვეტილების მიღების პროცესები და ხელი შეუწყოს კონკურენტუნარიანობას, მაშინ როცა მხოლოდ 28 ასეულმა რესპონდენტმა თქვა, რომ ისინი უკვე ავითარებენ რეალურ სტრატეგიულ უპირატესობას, რადგან დაგროვდა ї ინფორმაცია.

IT მუშაკების ნახევარზე მეტს სჯერა, რომ Big Data პროექტები ხელს შეუწყობს IT ბიუჯეტის გაზრდას მათ ორგანიზაციებში, რადგან იქნება წინსვლა ტექნოლოგიაში, პერსონალსა და პროფესიულ უნარებში. მეტიც, გამოკითხულთა ნახევარზე მეტს მიაჩნია, რომ მსგავსი პროექტები გაზრდის მათი კომპანიების IT ბიუჯეტებს უკვე 2012 წელს. 57 ასობით იდეა, რომ Big Data გაზრდის მათ ბიუჯეტებს მომდევნო სამი წლის განმავლობაში.

ოთხმოცდაასმა რესპონდენტმა თქვა, რომ ყველა (ან სხვა კომპანიის) დიდი მონაცემთა პროექტი გამოიწვევს ცუდი გათვლების სტაგნაციას. ამრიგად, მოწინავე ტექნოლოგიების გაფართოება შეიძლება აისახოს ფართოდ გავრცელებული Big Data გადაწყვეტილებების სისწრაფეზე და ამ გადაწყვეტილებების ღირებულებაზე ბიზნესისთვის.

კომპანიები აგროვებენ და ამუშავებენ სხვადასხვა ტიპის მონაცემებს, როგორც სტრუქტურირებულ, ისე არასტრუქტურირებულ. ღერძი, რომლის ელემენტებსაც გამოყოფენ კვლევის მონაწილეები (Cisco Connected World Technology Report):

IT მუშაკების თითქმის ნახევარი (48 ასეული კვადრატული მეტრი) პროგნოზირებს ომის ქვეშ მყოფი გაფართოებას მათი საზღვრების გასწვრივ უახლოეს ორ მდინარის გასწვრივ. (ეს განსაკუთრებით დამახასიათებელია ჩინეთისთვის, სადაც ასეთ თვალსაზრისს აღწევს 68 ასი ათასი საკვები პროდუქტი, ჩინეთისთვის კი 60 ასი ათასი). 23 ასეულმა რესპონდენტმა ზომიერი მნიშვნელობის გასამმაგება აღმოაჩინა წინა ორი კლდის გაჭიმვით. მეტიც, 4000-ზე მეტმა რესპონდენტმა გამოაცხადა მზადყოფნა სასაზღვრო მიმოსვლის სწრაფი ზრდისთვის.

27 ასეულმა თანამშრომელმა გაიგო, რომ მათ სჭირდებათ მკაფიო IT პოლიტიკა და ინფორმაციის უსაფრთხოების პრაქტიკა.

21 ასეული მეტრი საჭიროებს გადამცემი სიმძლავრის გაზრდას.

Big Data უხსნის ახალ შესაძლებლობებს IT დეპარტამენტებისთვის, რომ გაზარდონ ღირებულება და ჩამოაყალიბონ მჭიდრო კავშირები ბიზნეს ერთეულებთან, რაც მათ საშუალებას აძლევს გაზარდონ შემოსავალი და გააუმჯობესონ კომპანიის ფინანსური სიძლიერე. Big Data პროექტები გახდა IT შვილობილი კომპანიის სტრატეგიული პარტნიორი.

გამოკითხულთა 73%-ის აზრით, IT თავად გახდება დიდი მონაცემთა სტრატეგიის განხორციელების მთავარი მამოძრავებელი ძალა. ამავე დროს, მნიშვნელოვანია აღინიშნოს, რომ ამ სტრატეგიის განხორციელებამდე სხვა სექტორებიც ჩაერთვებიან. ჩვენს თვალწინ არის შემდეგი დარგების საჭიროება: ფინანსები (დაასახელა 24 ასმა რესპონდენტმა), სამეცნიერო კვლევა (20 ასეული), ოპერატიული (20 ასეული), ინჟინერია (19 ასეული), ასევე IV მარკეტინგი (15 ასეული). ათასი) და გაყიდვები (14 ასეული ათასი).

Gartner: დიდი მონაცემების მართვას მილიონობით ახალი მუშაკი სჭირდება

მსოფლიო IT ხარჯები 2013 წლისთვის 3,7 მილიარდ დოლარს მიაღწევს, რაც 3,8%-ით მეტია 2012 წელს საინფორმაციო ტექნოლოგიებზე დახარჯულზე (პროგნოზი წლის ბოლოს იქნება 3,6 მილიარდი დოლარი). სეგმენტი დიდი ხარკი Gartner-ის თანახმად, (დიდი მონაცემები) მზარდი ტემპით ვითარდება.

2015 წლამდე სფეროში 4,4 მილიონი ადამიანი მუშაობდა საინფორმაციო ტექნოლოგიებიშეიქმნება დიდი მონაცემების სერვისი, სადაც 1,9 მილიონი მუშა იქნება. უფრო მეტიც, როგორც კი შეიქმნება სამი დამატებითი სამუშაო ადგილი IT სექტორის საზღვრებს მიღმა, შეერთებულ შტატებში ხალხს მალე ეყოლება 6 მილიონი ადამიანი საინფორმაციო ეკონომიკის მხარდასაჭერად.

Gartner-ის ექსპერტების აზრით, მთავარი პრობლემა იმაში მდგომარეობს, რომ ქვეყანაში ნიჭიერების ნაკლებობაა: როგორც კერძო, ისე ეროვნული საჯარო ინფორმაციის სისტემას, მაგალითად, შეერთებულ შტატებს არ გააჩნია საკმარისი რაოდენობის კვალიფიციური კადრების მიწოდების შესაძლებლობა. პერსონალის. ასევე, ახალი სამუშაო ადგილების პროგნოზებიდან, სამიდან მხოლოდ ერთი იქნება უზრუნველყოფილი IT პერსონალით.

ანალიტიკოსები თვლიან, რომ მაღალკვალიფიციური IT პერსონალის როლს შეასრულებენ კომპანიები, რომლებიც მათ სასწრაფოდ მოითხოვენ, რადგან ასეთი თანამგზავრები მათთვის გახდება კარიბჭე ახალ საინფორმაციო ეკონომიკაში Maybutnyogo.

2012

პირველი სკეპტიციზმი "დიდი ხარკების" შესახებ

Ovum-ისა და Gartner-ის ანალიტიკოსები აღიარებენ, რომ მოდური თემები 2012 წელს დიდი ხარკიშეიძლება დადგეს დრო, რომ თავი დავანებოთ ილუზიას.

ტერმინი „დიდი მონაცემები“ ჩვეულებრივ ეხება ინფორმაციის სტაბილურად მზარდ ჯგუფს, რომელიც შემოდის ონლაინ სოციალური მედიიდან, სენსორებისა და სხვა მოწყობილობების ჩათვლით, ასევე ინსტრუმენტების მზარდ სპექტრს, რომლებსაც ვიკორისტები იყენებენ მონაცემთა დასამუშავებლად და მნიშვნელოვანი ბიზნესის იდენტიფიცირებისთვის. საქმეები მათ საფუძველზე - ტენდენციები.

”დიდი მონაცემების იდეის მეშვეობით (ან მის გარეშე), მარკეტოლოგები 2012 წელს ამ ტენდენციას დიდი იმედით უყურებდნენ”, - თქვა ტონი ბაიერმა, Ovum-ის ანალიტიკოსმა.

ბაიერმა განაცხადა, რომ DataSift-მა ჩაატარა დიდი მონაცემების საიდუმლოებების რეტროსპექტული ანალიზი

ჩვენ რეგულარულად ვხვდებით მოდურ სიტყვებს და მნიშვნელობას, რომელთა გრძნობა ინტუიციურად გვესმის, მაგრამ არ გვაქვს მკაფიო წარმოდგენა იმის შესახებ, თუ რა არის ეს და როგორ მუშაობს.

ერთ-ერთი მათგანია დიდი მონაცემები, რუსულ ენაზე შეგიძლიათ მიიღოთ პირდაპირი თარგმანი - „დიდი მონაცემები“, მაგრამ უფრო ხშირად ამბობენ და წერენ როგორც: დიდი მონაცემები. ყველას, მელოდიური ფორმით, მოისმინა ეს სიტყვა ინტერნეტში და რთულია, მაგრამ რა მნიშვნელობა აქვს, დახვეწილი ციფრული სამყაროსგან შორს, საოფისე ჰუმანიტარულ მეცნიერებებს ჯერ არ ესმით.

კორისტუვაჩების ყველაზე ფართო წილის ტალახში ამ სიცარიელის შევსების ერთადერთი მცდელობა არის ჩვენი ერთ-ერთი საყვარელი ავტორის ბერნარდ მარის სტატია, როგორც მას უწოდებენ. რა არის დიდი მონაცემები? სუპერ მარტივი ახსნა კანისთვის". დახვეწილი ჟარგონის გარეშე კანისთვის ამ ფენომენის ძირითადი იდეების ახსნა აუცილებელი არ არის აქტივობის ამ სფეროს გასანათებლად.

ფაქტობრივად, დარჩენილი რამდენიმე ჩვენგანი უკვე ცხოვრობს სამყაროში, რომელიც საფუძვლიანად არის გაჟღენთილი დიდი მონაცემებით, მაგრამ ჩვენ კვლავ ვიკარგებით იმის გაგებაში, რაც ჯერ კიდევ იგივეა. ნაწილობრივ მართალია, რომ თავად დიდი მონაცემთა კონცეფცია მუდმივად იცვლება და ხელახლა ინტერპრეტაცია ხდება, რადგან მაღალი ტექნოლოგიების სამყარო და დიდი რაოდენობით ინფორმაციის დამუშავება სწრაფად იცვლება, მათ შორის ყველა ახალი ახალი ვარიანტი. და მოთხოვნა ამ ინფორმაციაზე მუდმივად იზრდება.

მაშ, რას ნიშნავს დიდი მონაცემები - 2017?

ეს ყველაფერი დაიწყო Vibukh-ის მიერ დიდი რაოდენობით მონაცემების ზრდით, რომელსაც ჩვენ ვქმნით ციფრული სერიის დასაწყისიდან. ეს შესაძლებელი გახდა ძირითადად კომპიუტერების მზარდი რაოდენობისა და სირთულის გამო, ინტერნეტის გაფართოებისა და ტექნოლოგიების განვითარების გამო, რაც საშუალებას გვაძლევს მივიღოთ ინფორმაცია რეალური, ფიზიკური სამყაროდან, რომელშიც ჩვენ ყველანი ვცხოვრობთ, და გადავიტანოთ იგი ციფრულ და მონაცემებად. .

2017 წელს ჩვენ ვაგენერირებთ მონაცემებს, როდესაც მივდივართ ინტერნეტში, როდესაც ვიყენებთ GPS-ით აღჭურვილი სმარტფონებით, როდესაც ვუკავშირდებით მეგობრებს სოციალურ ქსელებში, როდესაც ვტკბებით მობილური პროგრამებით ან მუსიკით, როდესაც ვყიდულობთ.

შეიძლება ითქვას, რომ ანონიმურ ციფრულ კვალს ვკარგავთ, რათა არ შეგვეწუხოს, რადგან ჩვენი საქმიანობა მოიცავს ნებისმიერ ციფრულ ტრანზაქციას. ეს შეიძლება მოხდეს სამუდამოდ და სამუდამოდ.

უფრო მეტიც, თავად მანქანების მიერ წარმოქმნილი მონაცემების მოცულობა სწრაფი ტემპით იზრდება. მონაცემები იქმნება და გადაიცემა, როდესაც ჩვენი ინტელექტუალური აქსესუარები ერთმანეთთან ურთიერთობენ. ვირუსული საწარმოები მთელს მსოფლიოში აღჭურვილია მოწყობილობებით, რომლებიც აგროვებენ და გადასცემენ მონაცემებს დღე და ღამე.

უახლოეს მომავალში ჩვენი ქუჩები გაივსება თვითმართვადი მანქანებით, რომლებიც დამოუკიდებლად ადგენენ მარშრუტებს მსოფლიოს რუქების, რეალურ დროში გენერირებული მონაცემების საფუძველზე.

რა შეგვიძლია გავაკეთოთ დიდი მონაცემებით?

სენსორული ინფორმაციის, ფოტოების, ტექსტური შეტყობინებების, აუდიო და ვიდეო მონაცემების უსასრულოდ მზარდი ნაკადი დევს Big Data-ის გულში, რომელიც შეგვიძლია გავაანალიზოთ ისე, რომ შეუძლებელი იყო ამის მრავალი მიზეზის დადგენა.

Big Data-ზე დაფუძნებული პროექტები დაუყოვნებლივ დაიწყო დასახმარებლად:

- მკურნალობა დაავადებები და გადარჩენა კიბოს. დიდი მონაცემების მეცნიერების საფუძველზე მედიცინა აანალიზებს სამედიცინო ჩანაწერების და სურათების დიდ რაოდენობას, რაც ადრეული დიაგნოსტიკის საშუალებას იძლევა და ხელს უწყობს მკურნალობის ახალი მეთოდების შექმნას.

- შიმშილის წინააღმდეგ ბრძოლა. სოფლის სამეფო განიცდის ამჟამინდელ Big Data რევოლუციას, რომელიც საშუალებას იძლევა გამოიყენოს რესურსები ისე, რომ მაქსიმალურად გაზარდოს სარგებელი მინიმალური შეყვანისთვის ეკოსისტემაში და გააუმჯობესოს მანქანების გამოყენება და საკუთრება.

- გამოავლინეთ შორეული პლანეტები. მაგალითად, NASA აანალიზებს უამრავ მონაცემს და გამოდის მომავალი მისიების მოდელს შორეულ სამყაროებში.

- გადაიტანეთ ზემდგომი სიტუაციებიგანსხვავებული ხასიათისა და შესაძლო ზიანის მინიმუმამდე შემცირება. რიცხვითი სენსორებიდან მიღებული მონაცემების გადაცემა შესაძლებელია, როდესაც ხდება თავდასხმა და ადამიანების შესაძლო ქცევა საგანგებო სიტუაციაში, რაც ზრდის გადარჩენის შანსებს.

- მოერიდეთ ბოროტმოქმედსთანამედროვე ტექნოლოგიების გამოყენებისთვის, რომლებიც რესურსების უფრო ეფექტური განაწილებისა და მათი მიმართულების საშუალებას იძლევა, სადაც ყველაზე მეტად საჭიროა.

და უმეტესობა ჩვენგანი: Big Data ეხმარება ყოველდღიური ადამიანების ცხოვრებას როგორც მარტივ, ასევე მარტივში - ეს მოიცავს ონლაინ შოპინგის, მოგზაურობის დაგეგმვას და მეტროპოლიის გონებაში ნავიგაციას.

ავიაბილეთების შესაძენად საუკეთესო დროის პოვნა და რომელი ფილმის ან სერიის საყურებლად არჩევა, Big Data რობოტებთან ერთად ბევრად უფრო ადვილი გახდა.

Როგორ მუშაობს?

დიდი მონაცემები მუშაობს პრინციპით: რაც უფრო მეტი იცით რაიმეს შესახებ, მით უფრო ზუსტად შეძლებთ იმის თქმა, თუ რა მოხდება შემდეგ. ახლომდებარე მონაცემებისა და მათ შორის კავშირების გათანაბრება (საუბარია მონაცემთა უზარმაზარ რაოდენობაზე და მათ შორის შესაძლო კავშირების წარმოუდგენლად დიდ რაოდენობაზე) საშუალებას აძლევს ადამიანს ადრე გამოავლინოს შაბლონები. ეს შესაძლებელს ხდის პრობლემის სიღრმეში ჩასვლას და იმის გაგებას, თუ როგორ შეგვიძლია გავუმკლავდეთ ამ ან ნებისმიერ სხვა პროცესს.

ყველაზე ხშირად, დიდი მოცულობის ინფორმაციის დამუშავების პროცესი მოიცავს შეგროვებულ მონაცემებზე დაფუძნებულ მოდელებს და გაშვებულ სიმულაციებს, რომლებიც თანდათან ცვლის საკვანძო კორექტირებას, რომლის დროსაც სისტემა აკონტროლებს, თუ როგორ იწვევს "რეგულირება" შესაძლო შედეგს.

ეს პროცესი მთლიანად ავტომატიზირებულია, მათ შორის მილიონობით სიმულაციის ანალიზი, ყველა შესაძლო ვარიანტის შერჩევა, სანამ ნიმუში (საჭირო წრე) არ მოიძებნება ან სანამ არ იქნება „განმანათლებლობა“, რომელიც დაეხმარება ვირუსს. ეს არეულობაა, რომლის გულისთვისაც ყველაფერი დაიწყო.

ჩვენთვის ნაცნობი ობიექტების გარდა, მონაცემები აღებულია არასტრუქტურირებული ფორმით, ასე რომ, ძნელია მათი მოთავსება ჩვენთვის, ადამიანებისთვის ნაცნობი შუასა და საცობების ცხრილებში. დიდი რაოდენობით მონაცემები გადაეცემა სურათებისა და ვიდეოების სახით: სატელიტური ფოტოებიდან დაწყებული სელფებით, რომლებსაც აქვეყნებთ Instagram-ზე ან Facebook-ზე, ასევე ჩანაწერებში ელექტრონული ფოსტით და მყისიერი მესინჯერით ან სატელეფონო ზარებით.

იმისათვის, რომ პრაქტიკული ადგილი დაუთმოს მონაცემთა ყველა შეუცვლელ და მრავალფეროვან ნაკადს, Big Data ხშირად იყენებს ანალიზის უახლეს ტექნოლოგიებს, რომლებიც მოიცავს ხელოვნურ ინტელექტს და მანქანურ სწავლებას (როდესაც პროგრამა კომპიუტერზე იწყებს პროგრამას).

თავად კომპიუტერები იწყებენ იმის გაგებას, თუ რას წარმოადგენს სხვა ინფორმაცია - მაგალითად, სურათების, სიტყვების ამოცნობა - და მათ შეუძლიათ უფრო სწრაფად იმუშაონ, ვიდრე ადამიანები.

დიდი ძმა?

იმ უპრეცედენტო შესაძლებლობების პროპორციულად, რომელსაც დღევანდელი Big Data გვაძლევს, მასთან დაკავშირებული უპირატესობების რაოდენობა იზრდება.

კონკრეტული მონაცემების ნაკლებობა. Big Data აგროვებს დიდი რაოდენობით ინფორმაციას ჩვენი პირადი ცხოვრების შესახებ. არსებობს უამრავი ინფორმაცია, რომელიც გვინდა შევინახოთ დუნდულოში.

ᲣᲡᲐᲤᲠᲗᲮᲝᲔᲑᲐ. ვფიქრობთ, რომ არაფერია საშინელი იმაში, რომ ჩვენი ყველა პერსონალური მონაცემი გადავიტანოთ მანქანაზე რაიმე კონკრეტული, თვალსაჩინო ნიშნის გამო, მაგრამ შეგვიძლია ვიმედოვნებთ, რომ ჩვენი მონაცემები ინახება უსაფრთხო ადგილას?
ვინ და როგორ შეუძლია ამის გარანტია ჩვენთვის?

ᲓᲘᲡᲙᲠᲘᲛᲘᲜᲐᲪᲘᲐ. თუ ყველაფერი ცნობილია, შესაძლებელია თუ არა ადამიანების დისკრიმინაცია იმის მიხედვით, რაც მათ შესახებ დიდი მონაცემები იცის? ბანკები ამოწმებენ თქვენს საკრედიტო ისტორიას, ხოლო სადაზღვევო კომპანიები ამოწმებენ თქვენი მანქანის დაზღვევის ტარიფებს იმის მიხედვით, თუ რა იციან თქვენს შესახებ. რამდენად შორს შეგიძლიათ წასვლა?

შეიძლება ვივარაუდოთ, რომ რისკების მინიმიზაციის მიზნით, კომპანიები, სამთავრობო უწყებები და კერძო პირები დაიცავენ მათ, რისი გაგებაც შეუძლიათ ჩვენს შესახებ და რაიმე მიზეზით შეზღუდავენ ჩვენს რესურსებზე წვდომას.

ყველა ჩვენი წარმატების მიუხედავად, შეგვიძლია ვაღიაროთ, რომ ყველაფერი ასევე ეხება დიდი მონაცემების უცნობ ნაწილს. აქამდე ხალხი ბოლო რამდენიმე დღის განმავლობაში იფშვნეტდა ამბებზე, სანამ არ დადგება დრო, როცა ავადმყოფობა ბიზნესს არ მიაღწია, რომელსაც სურს დიდი მონაცემების უპირატესობები საკუთარი მიზნებისთვის გამოიყენოს. მაგრამ ეს შეიძლება ემუქრებოდეს კატასტროფულ შედეგებს.

პერედმოვა

„დიდი მონაცემები“ არის მოდური ახალი ტერმინი, რომელიც ჩნდება ყველა პროფესიულ კონფერენციაზე, რომელიც ეძღვნება მონაცემთა ანალიზს, პროგნოზირებულ ანალიტიკას, მონაცემთა მოპოვებას, CRM-ს. ტერმინი გამოიყენება ისეთ სფეროებში, სადაც მონაცემთა აშკარად დიდი მოცულობით მუშაობა რელევანტურია და მუდმივად იზრდება მონაცემთა ნაკადის სისწრაფე ორგანიზაციულ პროცესში: ეკონომიკა, საბანკო საქმე, წარმოება, მარკეტინგი, სატელეკომუნიკაციო ინფორმაცია, ვებ ანალიტიკა, მედიცინა და ა.შ. .

ამასთან, ინფორმაციის სწრაფი დაგროვების გამო, მონაცემთა ანალიზის ტექნოლოგიები სწრაფი ტემპით ვითარდება. იმის გამო, რომ ჯერ კიდევ შესაძლებელი იყო, ვთქვათ, კლიენტების დაყოფა მსგავსი მსგავსების მქონე ჯგუფებად, ახლა უკვე შესაძლებელია მოდელების შექმნა კანის კლიენტისთვის რეალურ დროში, გაანალიზებული, მაგალითად, მისი მოძრაობები Inter-ის გასწვრივ, ძიების მიზნით. კონკრეტული პროდუქტი. შესაძლებელია რეზიდენტის ინტერესების გაანალიზება და შესაბამისი რეკლამის ან კონკრეტული წინადადებების ჩვენება გენერირებული მოდელის მიხედვით. მოდელი ასევე შეიძლება დარეგულირდეს და გადატვირთოს რეალურ დროში, რაც აუცილებლად გამოიწვევს ბევრ რისკს.

მაგალითად, ტელეკომუნიკაციების სექტორში, ტექნოლოგიების განვითარება ფიზიკურ გაფართოებას მოითხოვს ძველი ტელეფონებიმათი მმართველების, და, როგორც ჩანს, იდეა აუცილებლად გახდება რეალობა, აღწერილია სამეცნიერო ფანტასტიკურ ფილმში "განსაკუთრებული აზრი", 2002, სადაც სარეკლამო ინფორმაციაა ნაჩვენები სავაჭრო ცენტრებიიცავდა პროცესში ჩართული კონკრეტული პირების ინტერესებს.

ამავე დროს, არის სიტუაციები, როდესაც ახალი ტექნოლოგიების დაგროვებამ შეიძლება იმედგაცრუება გამოიწვიოს. მაგალითად, როდესაც მონაცემები მწირია ( მწირი მონაცემები), რომელიც იძლევა მნიშვნელოვან ხედვას მოქმედების შესახებ და უხვად ღირებულია, მაგრამ დიდი ხარკი(დიდი მონაცემები), რომელიც აღწერს მთებს, ხშირად არ არის რეალური ინფორმაცია.

მეტა ეს სტატიები - დააზუსტეთ და განიხილეთ Big Data-ის ახალი შესაძლებლობები და აჩვენეთ, თუ როგორ არის ეს ანალიტიკური პლატფორმა სტატისტიკა StatSoft დაგეხმარებათ ეფექტურად გამოიყენოთ დიდი მონაცემები პროცესებისა და ამოცანების ოპტიმიზაციისთვის.

რამდენად დიდია დიდი მონაცემები?

რა თქმა უნდა, ამ საკვებზე შეიძლება ჟღერდეს სწორი წინადადება - "ეს არის დაწოლა..."

ამჟამად განხილული დიდი მონაცემთა კონცეფციები აღწერს მონაცემებს ტერაბაიტების თანმიმდევრობით.

პრაქტიკაში (როგორც ჩვენ ვსაუბრობთ გიგაბაიტებზე ან ტერაბაიტებზე), ასეთი მონაცემების ადვილად შენახვა და შენახვა შესაძლებელია „ტრადიციული“ მონაცემთა ბაზებისა და სტანდარტული მონაცემთა ბაზების (მონაცემთა ბაზის სერვერების) გამოყენებით.

პროგრამული უზრუნველყოფის უსაფრთხოება სტატისტიკა Vikorist-ის მდიდარი ნაკადის ტექნოლოგია ალგორითმებისთვის მონაცემების წვდომისთვის (წაკითხვა), პროგნოზირებადი (და ქულის მინიჭება) მოდელების შესაქმნელად და შესაქმნელად, რათა მონაცემთა ასეთი შერჩევის ადვილად გაანალიზება მოხდეს და არ საჭიროებს სპეციალიზებულ ინსტრუმენტებს.

ზოგიერთი მიმდინარე StatSoft პროექტი აწარმოებს დაახლოებით 9-12 მილიონი მწკრივის ნიმუშებს. გაამრავლეთ ისინი 1000 პარამეტრზე (ცვალებადი), შეგროვებული და ორგანიზებული მონაცემთა საწყობიდან რისკისა და პროგნოზირებადი მოდელების შესაქმნელად. ასეთი ფაილის ზომა მხოლოდ 100 გიგაბაიტია. ეს, რა თქმა უნდა, არ არის მონაცემთა მცირე მასა, მაგრამ მისი ზომა არ აღემატება მონაცემთა ბაზის სტანდარტული ტექნოლოგიის შესაძლებლობებს.

Პროდუქციის ხაზი სტატისტიკასერიის ანალიზისა და ერთეულზე ქულების მოდელებისთვის ( სტატისტიკის საწარმო), გადაწყვეტილებების მიღება რეალურ დროში ( STATISTICA ცოცხალი ანგარიში) და ანალიტიკური ინსტრუმენტები მოდელების შექმნისა და მართვისთვის ( STATISTICA Data Miner, გადაწყვეტილების მიღება) ადვილად მასშტაბირებს მრავალ სერვერზე მრავალბირთვიანი პროცესორებით.

პრაქტიკაში, ეს ნიშნავს, რომ არსებობს საკმარისი მოქნილობა ანალიტიკური მოდელების მუშაობაში (მაგალითად, საკრედიტო რისკის პროგნოზები, შაჰრაისტის ნდობა, ჰოლდინგის სანდოობა და ა.შ.), რაც საშუალებას გვაძლევს მივიღოთ ოპერატიული გადაწყვეტილებები. შესაძლოა ადრე თუ გვიან მიღწევა შესაძლებელია სტანდარტული ხელსაწყოების გამოყენებით. სტატისტიკა.

მონაცემთა დიდი ვალდებულებებიდან დიდ მონაცემებამდე

როგორც წესი, დიდი მონაცემების განხილვა ორიენტირებულია მონაცემთა შეგროვებაზე (და ასეთ კოლექციებზე დაფუძნებულ ანალიზზე), რომელთა მოცულობა ბევრად აღემატება რამდენიმე ტერაბაიტს.

მონაცემთა კოლექცია შეიძლება გაიზარდოს ათას ტერაბაიტამდე, ან პეტაბაიტამდე (1000 ტერაბაიტი = 1 პეტაბაიტი).

პეტაბაიტის მიღმა, მონაცემთა დაგროვება შეიძლება გაიზომოს ექსბაიტებში; მაგალითად, გლობალური წარმოების სექტორმა 2010 წელს შეფასებულია, რომ დაგროვდა სულ 2 ეგბაიტი ახალი ინფორმაცია (Manyika et al., 2011).

არის ქარიშხალი, სადაც მონაცემები გროვდება და კიდევ უფრო ინტენსიურად გროვდება.

მაგალითად, ატომურ ინდუსტრიაში, როგორიცაა ელექტროსადგური, ყოველ წუთში ან ყოველ წამში წარმოიქმნება მონაცემთა უწყვეტი ნაკადი ათიათასობით პარამეტრზე.

გარდა ამისა, სულ უფრო პოპულარული ხდება ეგრეთ წოდებული „ჭკვიანი ქსელის“ ტექნოლოგიები, რომლებიც კომუნალურ სერვისებს საშუალებას აძლევს ელექტროენერგიის შეგროვება დღის ყოველი მომენტიდან.

ასეთი პროგრამებისთვის, რომლებშიც მონაცემები ინახავს ბედს, დაგროვილი მონაცემები კლასიფიცირდება როგორც უკიდურესად დიდი მონაცემები.

ასევე იზრდება დიდი მონაცემთა აპლიკაციების რაოდენობა კომერციულ და სამთავრობო სექტორებში, მონაცემთა შეგროვებით ასობით ტერაბაიტსა და პეტაბაიტს აღწევს.

თანამედროვე ტექნოლოგიები შესაძლებელს ხდის ადამიანებისა და მათი ქცევის „გამოკითხვას“ სხვადასხვა გზით. მაგალითად, თუ ვიყენებთ ინტერნეტს, ჩვენ შეგვიძლია მარტივად გავაკეთოთ შესყიდვები ონლაინ მაღაზიებში ან დიდ მაღაზიებში, როგორიცაა Walmart (ვიკიპედიის გამოყენებით, Walmart-ის მონაცემების შეგროვება 2 პეტაბაიტზე ნაკლებია) ან დალუქული მობილური ტელეფონებიდან გადაადგილებით, ჩვენ ვკარგავთ კვალს. ჩვენი ქმედებები, რა შეიძლება გამოიწვიოს ახალი ინფორმაციის დაგროვებამდე.

კომუნიკაციის სხვადასხვა მეთოდი, მარტივი სატელეფონო ზარებიდან ინფორმაციის შეგროვებამდე სოციალური ქსელების საშუალებით, როგორიცაა Facebook (ვიკიპედიის მიხედვით, ინფორმაციის გაზიარება მოსალოდნელია 30 მილიარდ ერთეულს ბ), ან ვიდეოების გაზიარება ისეთ საიტებზე, როგორიცაა YouTube (Youtube ადასტურებს. რა არის ის, რაც მოიზიდავს კანის 24 წლის ვიდეოს, Wikipedia div), დღეს ქმნის დიდი რაოდენობით ახალ მონაცემებს.

ანალოგიურად, დღესაც სამედიცინო ტექნოლოგიებიდიდი რაოდენობით მონაცემების გენერირება, რომელიც მხარს უჭერს სამედიცინო დახმარებას (სურათები, ვიდეოები, რეალურ დროში მონიტორინგი).

ამრიგად, ამ ვალდებულებების კლასიფიკაცია შეიძლება განხორციელდეს შემდეგნაირად:

მონაცემთა დიდი ნაკრები: 1000 მეგაბაიტიდან (1 გიგაბაიტი) ასობით გიგაბაიტამდე

მონაცემთა დიდი ნაკრები: 1000 გიგაბაიტიდან (1 ტერაბაიტი) ბევრ ტერაბაიტამდე

დიდი მონაცემები: რამდენიმე ტერაბაიტიდან ასობით ტერაბაიტამდე

უკიდურესად დიდი მონაცემები: 1000-დან 10000 ტერაბაიტამდე = 1-დან 10 პეტაბაიტამდე

მენეჯმენტი, დაკავშირებული დიდ მონაცემებთან

არსებობს სამი სახის დავალება, რომლებიც დაკავშირებულია დიდ მონაცემებთან:

1. დაზოგვა და მართვა

არსებობს ასობით ტერაბაიტი მონაცემები, ან პეტაბაიტი არ გაძლევთ საშუალებას ადვილად შეინახოთ და მართოთ ისინი ტრადიციული მეთოდების გამოყენებით ურთიერთობითი მონაცემთა ბაზებიხარკი

2. არასტრუქტურირებული ინფორმაცია

დიდი მონაცემების უმეტესობა არასტრუქტურირებულია. ტობტო. როგორ შეგიძლიათ მოაწყოთ ტექსტი, ვიდეო, სურათები და ა.შ.

3. დიდი მონაცემთა ანალიზი

როგორ გავაანალიზოთ არასტრუქტურირებული ინფორმაცია? როგორ შეგვიძლია შევქმნათ და განვავითაროთ მოწინავე პროგნოზირების მოდელები დიდ მონაცემებზე დაყრდნობით?

დიდი მონაცემების შენახვა და მომსახურება

დიდი მონაცემები ინახება და ორგანიზებულია ცალკეულ ფაილურ სისტემებში.

ზოგადად, ინფორმაცია ინახება ათობით (ზოგჯერ ათასობით) მყარ დისკზე და სტანდარტულ კომპიუტერებზე.

ეს არის „რუკის“ (რუკის) სახელი, სადაც (რომელ კომპიუტერზე და/ან დისკზეა) შენახული ინფორმაციის კონკრეტული ნაწილი.

გამძლეობისა და საიმედოობის უზრუნველსაყოფად, კანის ინფორმაცია უნდა შეინახოს რამდენჯერმე, მაგალითად, სამჯერ.

ასე რომ, მაგალითად, მისაღებია, რომ თქვენ შეაგროვეთ ინდივიდუალური ტრანზაქციები სხვადასხვა მაღაზიებიდან. Დეტალური ინფორმაციათითოეული ტრანზაქცია ინახება სხვადასხვა სერვერებზე და მყარ დისკზე და ინდექსირებულია „რუკა“ და ასევე ინახება ინფორმაცია შესაბამისი ბიზნესის შესახებ.

სტანდარტული აღჭურვილობის დასახმარებლად და დახურულია პროგრამული მახასიათებლებიმთლიანი განაწილებული ფაილური სისტემის დასამუშავებლად (მაგალითად, ჰადოპ), ჯერ კიდევ ადვილია სანდო მონაცემთა შენახვის დანერგვა პეტაბაიტის მასშტაბით.

არასტრუქტურირებული ინფორმაცია

ფაილური სისტემის დანაყოფში შეგროვებული ინფორმაციის უმეტესობა შედგება არასტრუქტურირებული მონაცემებისგან, როგორიცაა ტექსტი, სურათები, ფოტოები და ვიდეო.

მას აქვს თავისი უპირატესობები და ნაკლოვანებები.

უპირატესობა მდგომარეობს იმაში, რომ დიდი მონაცემების შენახვის შესაძლებლობა საშუალებას გაძლევთ შეინახოთ ყველა მონაცემი ისე, რომ არ ინერვიულოთ იმაზე, თუ რამდენი მონაცემი არის შესაბამისი შემდგომი ანალიზისა და გადაწყვეტილების მისაღებად.

არც თუ ისე ბევრია, ვისაც ვარჯიშისთვის ასეთი მორგება აქვს ძირითადი ინფორმაციასაჭიროა მონაცემთა ამ დიდი ორგანოების შემდგომი დამუშავება.

მიუხედავად იმისა, რომ ზოგიერთი ოპერაცია შეიძლება იყოს მარტივი (მაგალითად, მარტივი გაწმენდა და ა.შ.), სხვები საჭიროებენ უფრო რთულ ალგორითმებს, რომლებიც შეიძლება სპეციალურად იყოს შემუშავებული ფაილური სისტემის განყოფილებებზე ეფექტური მუშაობისთვის.

ერთხელ ერთმა ტოპ-მენეჯერმა განუცხადა StatSoft-ს, რომ მან „დახარჯა მთელი სტანდარტი IT-ზე და დაზოგა მონაცემები მანამ, სანამ პენიების თაღლითობასაც კი დაიწყებდა“, არც კი უფიქრია იმაზე, თუ როგორ უკეთესად გამოიყენოს მონაცემები ძირითადი აქტივობის შესამცირებლად.

ასევე, რადგან მონაცემთა ვალდებულებები შეიძლება გაიზარდოს გეომეტრიული პროგრესიით, ინფორმაციის მოპოვებისა და ამ ინფორმაციის საფუძველზე მოქმედების უნარი ასიმპტომურად მიაღწევს საზღვრებს.

მნიშვნელოვანია, რომ მეთოდებმა და პროცედურებმა მოდელების გენერირებისთვის, განახლებისთვის, ისევე როგორც პროცესის ავტომატიზაციისთვის, გადაწყვიტოს მონაცემთა შენახვის სისტემების გამოყოფა, რათა უზრუნველყოს ასეთი სისტემების სასარგებლო და სასარგებლო ბიზნესისთვის.

დიდი მონაცემთა ანალიზი

ეს მართლაც დიდი პრობლემაა, რომელიც დაკავშირებულია არასტრუქტურირებული დიდი მონაცემების ანალიზთან: როგორ გავაანალიზოთ ისინი აზრობრივი გზით. ამ ტექნოლოგიის შესახებ გაცილებით ნაკლები დაიწერა და ნაკლები მონაცემთა დაზოგვისა და დიდი მონაცემთა მართვის ტექნოლოგიების შესახებ.

კვება დაბალია, როგორც ხედავთ.

რუკა-შემცირება

ასობით ტერაბაიტის ან პეტაბაიტის მონაცემების გაანალიზებისას შეუძლებელია მონაცემების ამოღება ანალიზისთვის სხვა ადგილას (მაგალითად, STATISTICA Enterprise Analysis სერვერი).

არხებით მონაცემების იმავე სერვერზე ან სერვერზე გადაცემის პროცესი (პარალელური დამუშავებისთვის) დიდ დროს მოითხოვს და დიდ ტრაფიკს მოითხოვს.

პრაქტიკაში, ანალიტიკური გამოთვლები ფიზიკურად ტარდება მონაცემების შენახვის ადგილთან ახლოს.

Map-Reduce ალგორითმი არის მოდელი გაყოფის გამოთვლებისთვის. მისი პრინციპი აქტუალურია: არსებობს შეყვანის მონაცემების დაყოფა სამუშაო კვანძებად (ინდივიდუალურ კვანძებად) განაწილებული ფაილური სისტემის გადასამუშავებლად (map-croc) და, შემდეგ, რამდენიმე (გაერთიანება) მონაცემების უკვე გადატანილი დამუშავებისთვის (reduc- კროკი). ).

ამ გზით, მაგალითად, ჯამის ჯამის გამოსათვლელად, ალგორითმი ერთდროულად გამოთვლის შუალედურ ჯამებს განაწილებული ფაილური სისტემის თითოეულ კვანძში და შემდეგ შეაჯამებს შუალედურ მნიშვნელობებს.

ინტერნეტში არის დიდი რაოდენობით ინფორმაცია იმის შესახებ, თუ როგორ შეგიძლიათ გადაიხადოთ სხვადასხვა საფასური რუქის შემცირების მოდელისთვის, მათ შორის პროგნოზირებადი ანალიტიკისთვის.

მარტივი სტატისტიკა, ბიზნეს დაზვერვა (BI)

მარტივი პასუხების შესაქმნელად, BI იყენებს უამრავ პროდუქტს დახურული კოდით, რომელიც საშუალებას გაძლევთ გამოთვალოთ თანხები, საშუალოები, პროპორციები და ა.შ. რუქის შემცირება მეტი დახმარებისთვის.

ამრიგად, ძალიან ადვილია ზუსტი მონაცემების და სხვა მარტივი სტატისტიკის ამოღება შედეგების შედგენისთვის.

პროგნოზი, მოდელირების გარეშე, დაკარგული სტატისტიკა

ერთი შეხედვით, შეიძლება იფიქროთ, რომ შენახვის ფაილურ სისტემაში არის პროგნოზირებადი მოდელები, მაგრამ ეს ასე არ არის. მოდით შევხედოთ მონაცემთა ანალიზის მოწინავე ეტაპებს.

მონაცემთა მომზადება. ცოტა ხნის წინ, StatSoft-მა ჩაატარა დიდი და წარმატებული პროექტების სერია ძალიან დიდი მონაცემთა ნაკრების გამოყენებით, რომელიც აღწერს ელექტროსადგურის მუშაობის პროცესის ვრცელ მტკიცებულებებს. ანალიზის შედეგებმა აჩვენა ელექტროსადგურის ექსპლუატაციის გაზრდილი ეფექტურობა და ნარჩენების წარმოქმნის შემცირება (ელექტროენერგეტიკის კვლევის ინსტიტუტი, 2009 წ.).

მნიშვნელოვანია, რომ, მიუხედავად იმისა, რომ მონაცემთა ნაკრები შეიძლება იყოს დიდიც კი, მათში შემავალი ინფორმაცია შეიძლება იყოს მნიშვნელოვნად მცირე ზომის.

მაგალითად, როდესაც მონაცემები აგროვებს წნევას ან დაზიანებას, ბევრი პარამეტრი (გაზების და ღუმელების ტემპერატურა, ნაკადები, დემპერის პოზიციები და ა.შ.) სტაბილური ხდება ხანგრძლივი დროის განმავლობაში. წინააღმდეგ შემთხვევაში, მონაცემები ყოველ წამში ჩაიწერება და მნიშვნელოვანია იგივე ინფორმაციის გამეორება.

ამდენად, აუცილებელია მონაცემთა „ინტელექტუალური“ აგრეგაცია, რომელიც გამოიყენება მონაცემთა მოდელირებისა და ოპტიმიზაციისთვის, რათა მივიღოთ ზედმეტი ინფორმაცია დინამიური ცვლილებების შესახებ, რომლებიც გავლენას ახდენენ ელექტროსადგურის მუშაობის ეფექტურობაზე.ეს არის ვიდეოების რაოდენობა.

ტექსტების კლასიფიკაცია წინა მორთვახარკი ჩვენ კიდევ ერთხელ ვაჩვენებთ, თუ როგორ შეიძლება დიდი მონაცემთა ნაკრები შეიცავდეს ნაკლებად მნიშვნელოვან ინფორმაციას.

მაგალითად, StatSoft-მა მიიღო მონაწილეობა ტვიტერებიდან ტექსტის მოპოვებასთან დაკავშირებულ პროექტებში, რომლებიც აჩვენებს, რამდენად კმაყოფილი არიან მგზავრები ავიაკომპანიებით და მათი მომსახურებით.

მიუხედავად იმისა, რომ დღეს უამრავი მსგავსი გამოხმაურება მოჰყვა, მათში გამოხატული განწყობები მარტივი და ერთფეროვანი ჩანდა. ინფორმაციის უმეტესობა არის გინება და მოკლე ინფორმაცია ერთი წინადადებით „დაწყევლილი მტკიცებულებების“ შესახებ. გარდა ამისა, ამ განწყობის რაოდენობა და „სიძლიერე“ ხშირად უფრო სტაბილურია კონკრეტულ სიტუაციებში (მაგალითად, ბარგის ფლანგვა, ნაგავი საკვები, გამოტოვებული ფრენები).

ამ გზით, რეალური ტვიტების დაქვეითება სწრაფ (რეიტინგულ) განწყობამდე, ტექსტის მაინინგის ვიკორისტული მეთოდები (მაგალითად, დანერგილი STATISTICA ტექსტის მაინერი), შეამცირეთ მონაცემების გაცილებით მცირე რაოდენობამდე, რომელიც შემდეგ მარტივად შეიძლება გაერთიანდეს სხვა სტრუქტურირებულ მონაცემებთან (ბილეთების რეალური გაყიდვები ან ინფორმაცია მგზავრების შესახებ, რომლებიც ხშირად დაფრინავენ). ანალიზი საშუალებას გაძლევთ დაყოთ კლიენტები ჯგუფებად და დაადგინოთ მათი დამახასიათებელი ჩვევები.

არ არსებობს ინსტრუმენტები მონაცემთა ასეთი აგრეგაციის შესასრულებლად (მაგალითად, ნაგულისხმევი პარამეტრები) ფაილური სისტემის განყოფილებებში, რაც საშუალებას იძლევა მონაცემთა ანალიტიკა მარტივად განხორციელდეს.

პობუდოვას მოდელები

გამოწვევა ხშირად არის მონაცემთა ზუსტი მოდელების სწრაფად შექმნა, რომლებიც ინახება ფაილურ სისტემაში.

საჭიროა მონაცემთა მოპოვების/პროგნოზირებადი ანალიტიკის სხვადასხვა ალგორითმებისთვის Map-reduce-ის დანერგვა, რომლებიც შესაფერისია მონაცემთა ფართომასშტაბიანი პარალელური დამუშავებისთვის ფაილური სისტემის განყოფილებებში (რომელიც შეიძლება მხარდაჭერილი იყოს დამატებითი პლატფორმით. სტატისტიკა StatSoft).

თუმცა, იმის გამო, რომ თქვენ შეაგროვეთ დიდი რაოდენობით მონაცემები, გჯერათ, რომ ჩანთის მოდელი უფრო ზუსტია?

სინამდვილეში, ყველაზე ძლიერი მოდელები იქნება მონაცემთა მცირე სეგმენტებისთვის ფაილური სისტემის განყოფილებებში.

როგორც Forrester-ის ბოლო მოხსენებაში ნათქვამია: „ორს პლუს ორი უდრის 3.9-ს და ეს კარგია“ (Hopkins & Evelson, 2011).

სტატისტიკური და მათემატიკური სიზუსტე მდგომარეობს იმაში, რომ სწორ ფორმირებაზე დაფუძნებული ხაზოვანი რეგრესიის მოდელი, რომელიც მოიცავს, მაგალითად, 10 პროგნოზს. მსოფლიო არჩევნები 100 000 სიფრთხილით, ის ისეთივე ზუსტი იქნება, როგორც 100 მილიონი სიფრთხილის ზომებით გამომუშავებული მოდელი.

დიდი მონაცემები არის ფართო ტერმინი არატრადიციული სტრატეგიებისა და ტექნოლოგიებისთვის, რომლებიც საჭიროა მონაცემთა დიდი ნაკრებიდან ინფორმაციის შეგროვების, ორგანიზებისა და დამუშავებისთვის. მიუხედავად იმისა, რომ მონაცემებთან მუშაობის პრობლემა, რომელიც აღემატება გამოთვლით სირთულეს და ერთი კომპიუტერის დაზოგვის შესაძლებლობას, ახალი არ არის, მისი ღირებულების მასშტაბის დარჩენილი ბედი მნიშვნელოვნად გაფართოვდა.

ამ სტატიაში თქვენ იხილავთ ძირითად ცნებებს, რომლებთანაც შეგიძლიათ შეხვდეთ დიდი მონაცემების შემდეგ. ასევე აქ შეგვიძლია ვიხილოთ ის პროცესები და ტექნოლოგიები, რომლებიც ამ დროისთვის ვითარდება ამ ქვეყანაში.

რა არის ეს დიდი ხარკი?

მნიშვნელოვანია „დიდი მონაცემების“ ზუსტი მნიშვნელობის ფორმულირება, რადგან პროექტები, მოვაჭრეები, პრაქტიკოსები და ბიზნეს პროფესიონალები მას ძალიან განსხვავებულად განსაზღვრავენ. მათი პატივისცემის გამო, დიდი ხარკი შეიძლება გამოიხატოს შემდეგნაირად:

მონაცემთა დიდი ნაკრები.
გამოთვლითი სტრატეგიებისა და ტექნოლოგიების კატეგორია, რომლებიც გამოიყენება მონაცემთა დიდი ნაკრების დასამუშავებლად.

ამ კონტექსტში, „დიდი მონაცემთა ნაკრები“ ნიშნავს მონაცემთა ნაკრების, რომელიც საკმარისად დიდია დამუშავებისთვის ან შესანახად ტრადიციული ხელსაწყოების გამოყენებით ან ერთ კომპიუტერზე. ეს ნიშნავს, რომ მონაცემთა დიდი ნაკრების ძირითადი მასშტაბი მუდმივად იცვლება და შეიძლება მნიშვნელოვნად შეიცვალოს საათიდან საათამდე.

დიდი ხარკის სისტემები

დიდ მონაცემებთან მუშაობის ძირითადი სარგებელი იგივეა, რაც მონაცემთა სხვა კომპლექტებთან. თუმცა, მასიური მასშტაბი, დამუშავების სითხე და მონაცემების მახასიათებლები, რომლებიც გამძაფრებულია პროცესის კანის ეტაპზე, სერიოზულ ახალ პრობლემებს უქმნის მარაგების განვითარებას. ყველაზე დიდი მონაცემთა სისტემების მეთოდი არის სხვადასხვა მონაცემების დიდ მონაცემებთან კავშირების გაგება, რაც შეუძლებელი იქნება სხვა პირველადი მეთოდების დახმარებით.

2001 წელს გარტნერის დუგ ლენიმ წარმოადგინა „დიდი მონაცემების სამი წინააღმდეგ“ იმ მახასიათებლების აღსაწერად, რომლებიც განასხვავებენ დიდი მონაცემების დამუშავებას სხვა ტიპის მონაცემების დამუშავებისგან:

მოცულობა (მოცემული აკვიატებები).
სიჩქარე (მონაცემების დაგროვებისა და დამუშავების სიჩქარე).
მრავალფეროვნება (შეგროვებული მონაცემების ტიპების მრავალფეროვნება).

ობსიაგის ხარკი

ვინიატკოვის მიერ შედგენილი ინფორმაციის მასშტაბი ხელს უწყობს მონაცემთა დიდი სისტემის მნიშვნელობას. ეს მონაცემთა ნაკრები შეიძლება იყოს უფრო დიდი, ვიდრე ტრადიციული ნაკრები, რაც მოითხოვს მეტ ზრუნვას კანის დამუშავებისა და კონსერვაციის ეტაპზე.

როდესაც ფრაგმენტები შეიძლება აღემატებოდეს ერთი კომპიუტერის შესაძლებლობებს, ხშირად არის პრობლემა კომპიუტერების ჯგუფებიდან რესურსების გაერთიანების, გაზიარებისა და კოორდინაციის პრობლემა. კლასტერული კონტროლი და ალგორითმები, რომლებიც არღვევენ მოცემულ დიდ ნაწილებს, უფრო მნიშვნელოვანი ხდება ჩვენს გონებაში.

დაგროვებისა და ნარჩენების ლიკვიდობა

კიდევ ერთი მახასიათებელი, რომელიც ძირეულად განსხვავდება სხვა მონაცემთა სისტემების დიდი მონაცემებისგან, არის სითხის სითხე, რომლითაც სისტემა გადადის ინფორმაციას. მონაცემები ხშირად მოდის სისტემიდან დიდი რაოდენობით ნაწილებით და შეიძლება დამუშავდეს რაც შეიძლება მალე, სისტემის საწარმოო ქარხნის განახლების მიზნით.

ეს აქცენტი კეთდება მიტევიზე ზარის ზარიბევრი ფახის პრაქტიკოსის წახალისებამ მიიღო პარტიაზე ორიენტირებული მიდგომა და პრიორიტეტი მიანიჭოს რეალურ დროში ნაკადის სისტემას. მონაცემები მუდმივად ემატება, გროვდება და ანალიზდება ახალი ინფორმაციის მიწოდების შესანარჩუნებლად და ღირებული მონაცემების ადრეულ ეტაპზე, როდესაც ის ყველაზე აქტუალურია. ვის სჭირდება საიმედო სისტემები მაღალი ხელმისაწვდომობის კომპონენტებით, რათა დაიცვას მონაცემთა კონვეიერის ჩავარდნები.

შეგროვებული მონაცემების ტიპების მრავალფეროვნება

დიდ მონაცემებს არ გააჩნია უნიკალური პრობლემები, რომლებიც დაკავშირებულია საბადოების ფართო სპექტრთან და მის წყალქვეშა კონტეინერთან.

მონაცემები შეიძლება მოდიოდეს შიდა სისტემებიდან, როგორიცაა აპლიკაციების ჟურნალები და სერვერები, სოციალური მედიის არხებიდან და სხვა გარე API-ებიდან, ფიზიკური მოწყობილობების სენსორებიდან და სხვა მოწყობილობებიდან. დიდი მონაცემთა სისტემების მეთოდი არის პოტენციურად ღირებული მონაცემების დამუშავება დამოუკიდებლად, ყველა ინფორმაციის ერთ სისტემაში გაერთიანების გზით.

ცხვირის ფორმატები და ტიპები ასევე შეიძლება მნიშვნელოვნად განსხვავდებოდეს. მედია ფაილები (სურათები, ვიდეო და აუდიო) კომბინირებულია ტექსტურ ფაილებთან, სტრუქტურირებულ ჟურნალებთან და ა.შ. მონაცემთა დამუშავების ტრადიციული სისტემები შექმნილია მონაცემების დასამუშავებლად კონვეიერში, რომელიც უკვე მონიშნული, ფორმატირებული და ორგანიზებულია, ან დიდი სისტემები იწვევენ მათ მიიღეთ და შეინახეთ ხარკი მათი შენახვის გამოყენებით შაბათ-კვირის ბანაკი. იდეალურ შემთხვევაში, დაუმუშავებელი მონაცემების ნებისმიერი ტრანსფორმაცია ან ცვლილება წარმოიქმნება მეხსიერების მიერ დამუშავების დროს.

სხვა მახასიათებლები

წლების განმავლობაში, ლიდერებმა და ორგანიზაციებმა ხელი შეუწყეს „სამი წინააღმდეგ“-ის გაფართოებას, სურდათ, რომ ამ ინოვაციებმა აღწერონ პრობლემები და არა დიდი მონაცემების მახასიათებლები.

სიზუსტე: მონაცემთა ცვალებადობამ და დამუშავების სირთულემ შეიძლება გამოიწვიოს პრობლემები მონაცემთა ხარისხის (და, შესაბამისად, შედეგად მიღებული ანალიზის ხარისხის) შეფასებისას.
ცვალებადობა: მონაცემთა ცვლილებები იწვევს მონაცემთა ფართო ცვლილებებს. დაბალი სიკაშკაშის მონაცემების იდენტიფიცირებას, დამუშავებას ან ფილტრაციას შეიძლება დასჭირდეს დამატებითი რესურსები, რომლებსაც შეუძლიათ მონაცემთა სიკაშკაშის გაზრდა.
ღირებულება: დიდი მონაცემების დასასრული არის ღირებულება. სხვა სისტემები და პროცესები კიდევ უფრო რთულია, რაც ართულებს მონაცემთა გამოთვლას და ფაქტობრივი მნიშვნელობების წარმოქმნას.

დიდი ხარკის ცხოვრების ციკლი

მაშ, როგორ ვაგროვებთ მართლაც დიდ ხარკებს? არსებობს მრავალი განსხვავებული მიდგომა განხორციელებისთვის, ასევე სტრატეგიები და პროგრამული უზრუნველყოფის მხარდაჭერილი გადაწყვეტილებები.

მონაცემთა სისტემაში შეყვანა
მწყემსისგან მონაცემების შენახვა
გაანგარიშება და მონაცემთა ანალიზი
შედეგების ვიზუალიზაცია

პირველ რიგში, მოდით შევხედოთ სამუშაო პროცესების ამ კატეგორიებს, ვისაუბროთ კლასტერულ გამოთვლებზე, მნიშვნელოვან სტრატეგიაზე, რომელსაც აქვს მრავალი გზა დიდი მონაცემების დასამუშავებლად. გამოთვლითი კლასტერის რეგულირება არის ტექნოლოგიის საფუძველი, რომელიც გამოიყენება სიცოცხლის ციკლის კანის სტადიაზე.

ჩარიცხვის კლასტერები

დიდი მონაცემების ბუნების გამო, კომპიუტერები არ არის შესაფერისი მონაცემების დასამუშავებლად. რისთვისაც კლასტერები უფრო შესაფერისია, რადგან მათ შეუძლიათ გაუმკლავდნენ დიდი მონაცემების დაზოგვას და გამოთვლით საჭიროებებს.

დიდი მონაცემების დაჯგუფების პროგრამული უზრუნველყოფა გამოიყენებს მრავალი მცირე აპარატის რესურსებს, რითაც უზრუნველყოფს უამრავ უპირატესობას:

რესურსების გაზიარება: მონაცემთა დიდი ნაკრების დამუშავება მოითხოვს პროცესორისა და მეხსიერების უამრავ რესურსს, ასევე მონაცემთა შესანახად არსებულ დიდ ადგილს.
მაღალი ხელმისაწვდომობა: კლასტერებს შეუძლიათ უზრუნველყონ ხილვადობისა და ხელმისაწვდომობის სხვადასხვა დონეები ტექნიკის ან პროგრამული უზრუნველყოფის გაუმართაობის გარეშე, რაც გავლენას მოახდენს მონაცემთა წვდომასა და დამუშავებაზე. ეს განსაკუთრებით მნიშვნელოვანია რეალურ დროში ანალიტიკისთვის.
მასშტაბურობა: კლასტერები ხელს უწყობენ ჰორიზონტალურ სკალირებას (კლასტერში ახალი მანქანების დამატება).

კლასტერში მუშაობისთვის არის აუცილებელი ფუნქციები კლასტერში წევრობის მართვისთვის, რესურსების ქვედანაყოფის კოორდინაციისთვის და მიმდებარე კვანძებთან მუშაობის დაგეგმვისთვის. კლასტერებში წევრობა და რესურსების განაწილება შესაძლებელია დამატებითი პროგრამების საშუალებით, როგორიცაა Hadoop YARN (კიდევ ერთი რესურსის მომლაპარაკებელი) ან Apache Mesos.

საერთო გამოთვლითი კლასტერი ხშირად მოქმედებს როგორც მონაცემთა ურთიერთდამუშავების საფუძველი უსაფრთხოების პროგრამული უზრუნველყოფა. გამოთვლითი კლასტერში მანქანები ასევე დაკავშირებულია განაწილებული დაზოგვის სისტემის კონტროლებთან.

ხარკის მოპოვება

ხარკის მიღება არის სისტემაში მიუღებელი ხარკის დამატების პროცესი. ამ ოპერაციის სირთულე დიდწილად დამოკიდებულია მონაცემთა ფორმატზე და რამდენად ვარგისია მონაცემები დამუშავებისთვის.

სისტემას შეიძლება დაემატოს დიდი რაოდენობით მონაცემები დამატებითი სპეციალური ხელსაწყოების გამოყენებით. ტექნოლოგიებს, როგორიცაა Apache Sqoop, შეუძლიათ მიიღონ ნედლეული მონაცემები რელაციური მონაცემთა ბაზებიდან და მიაწოდონ ისინი დიდ მონაცემთა სისტემაში. თქვენ ასევე შეგიძლიათ გამოიყენოთ Apache Flume და Apache Chukwa - პროექტები, რომლებიც შექმნილია აპლიკაციების ჟურნალებისა და სერვერების აგრეგაციისა და იმპორტისთვის. ბროკერები, როგორიცაა Apache Kafka, შეიძლება გამოყენებულ იქნას როგორც ინტერფეისი სხვადასხვა მონაცემთა გენერატორებსა და დიდი მონაცემთა სისტემას შორის. გობლინის მსგავს ჩარჩოებს შეუძლიათ დააკავშირონ და გააუმჯობესონ ყველა ხელსაწყოს შესრულება კონვეიერის ბოლოს.

მონაცემების მიღებისთანავე უნდა ჩატარდეს ანალიზი, დახარისხება და მარკირება. ამ პროცესს ზოგჯერ უწოდებენ ETL (ამონაწერი, ტრანსფორმაცია, დატვირთვა), რაც ნიშნავს ტრანსფორმაციას, ტრანსფორმაციას და ტრანსფორმაციას. მიუხედავად იმისა, რომ ეს ტერმინი დაკავშირებულია მონაცემთა შენახვის ძველ პროცესებთან, ის ასევე დაკავშირებულია დიდი მონაცემთა სისტემებთან. ტიპიური ოპერაციები მოიცავს შეყვანის მონაცემების შეცვლას ფორმატირებისთვის, კატეგორიზაციისა და მარკირებისთვის, მონაცემების გაფილტვრასა და შესაბამისობის შემოწმებაზე.

იდეალურ შემთხვევაში, ნაპოვნი მონაცემები გაივლის მინიმალურ ფორმატირებას.

ხარკის შენარჩუნება

მონაცემების მიღების შემდეგ გადადით იმ კომპონენტებზე, რომლებიც შეიცავს სტრუქტურას.

დარწმუნდით, რომ შეძენილი მონაცემები ინახება ფაილური სისტემის სხვადასხვა განყოფილებაში. გადაწყვეტილებები, როგორიცაა HDFS Apache Hadoop-ში, საშუალებას გაძლევთ ჩაწეროთ დიდი რაოდენობით მონაცემები კლასტერში არსებულ რამდენიმე კვანძზე. ეს სისტემა უზრუნველყოფს გამოთვლით რესურსებს მონაცემებზე წვდომას და შეუძლია მონაცემების იმპორტი კლასტერის RAM-ში მეხსიერების ოპერაციებისა და კომპონენტების გაუმართაობის აღმოსაჩენად. HDFS-ის ნაცვლად, შეგიძლიათ გამოიყენოთ სხვა ფაილური სისტემის დისტრიბუციები, მათ შორის Ceph და GlusterFS.

მონაცემთა იმპორტი ასევე შეიძლება სხვა სისტემებში უფრო სტრუქტურირებული წვდომისთვის. დანაწილებული მონაცემთა ბაზები, განსაკუთრებით NoSQL მონაცემთა ბაზები, კარგად შეეფერება ამ როლს, რადგან ფრაგმენტებს შეუძლიათ ჰეტეროგენული მონაცემების დამუშავება. სულის გარეშე ძილი განსხვავებული ტიპებიმონაცემთა ბაზების განყოფილებები, აირჩიეთ შენახვა იმის მიხედვით, თუ როგორ გსურთ მონაცემთა ორგანიზება და გაგზავნა.

გაანგარიშება და მონაცემთა ანალიზი

მას შემდეგ, რაც მხოლოდ მონაცემები იქნება ხელმისაწვდომი, სისტემას შეუძლია დაბეჭდოს ფორმა. გაანგარიშების სისტემა, ალბათ, სისტემის უდიდესი ნაწილია და აქ შესაძლო მიდგომები შეიძლება დიფერენცირებული იყოს ინფორმაციის ტიპის მიხედვით. მონაცემები ხშირად მუშავდება განმეორებით, ან ერთი ხელსაწყოთი ან ინსტრუმენტების სერიით სხვადასხვა ტიპის მონაცემების დასამუშავებლად.

სერიული დამუშავება არის ერთ-ერთი გაანგარიშების მეთოდი დიდი მონაცემთა ნაკრებისთვის. ეს პროცესი მოიცავს მონაცემების მცირე ნაწილებად დაყოფას, კანის ნაწილის სხვა მანქანაზე დამუშავების დაგეგმვას, შუალედური შედეგების საფუძველზე მონაცემების გადაკეთებას და შემდეგ ნარჩენი შედეგის გამოთვლას და შეგროვებას. ეს სტრატეგია დაფუძნებულია MapReduce-ზე Apache Hadoop-ში. ჯგუფური დამუშავება ყველაზე სასარგებლოა მონაცემთა ძალიან დიდ ნაკრებებთან მუშაობისას, რომლებიც საჭიროებენ ვრცელ გაანგარიშებას.

სხვა სამუშაოები საჭიროებს დამუშავებას რეალურ დროში. ამ შემთხვევაში ინფორმაცია უსაფრთხოდ უნდა დამუშავდეს და მომზადდეს და სისტემას შეუძლია დაუყოვნებლად უპასუხოს ახალი ინფორმაციის საჭიროებას. რეალურ დროში დამუშავების განხორციელების ერთ-ერთი გზა არის მონაცემთა უწყვეტი ნაკადის დამუშავება, რომელიც შედგება რამდენიმე ელემენტისგან. რეალურ დროში პროცესორების კიდევ ერთი უნიკალური მახასიათებელია მონაცემთა გამოთვლა კლასტერულ მეხსიერებაში, რაც გამორიცხავს დისკზე ჩაწერის აუცილებლობას.

Apache Storm, Apache Flink და Apache Spark აჩვენებენ რეალურ დროში დამუშავების განხორციელების სხვადასხვა გზებს. ეს მოწინავე ტექნოლოგიები საშუალებას გაძლევთ აირჩიოთ საუკეთესო მიდგომა კანის კონკრეტული პრობლემის მიმართ. რეალურ დროში დამუშავება საუკეთესოდ შეეფერება მონაცემთა მცირე ფრაგმენტების ანალიზს, რომლებიც იცვლება ან სწრაფად მიეწოდება სისტემას.

ყველა პროგრამა არის ჩარჩო. თუმცა, არსებობს მრავალი სხვა გზა დიდი მონაცემთა სისტემიდან მონაცემების გამოსათვლელად და ანალიზისთვის. ეს ხელსაწყოები ხშირად უკავშირდებიან ცოდნის ჩარჩოებს და უზრუნველყოფენ დამატებით ინტერფეისებს ქვედა დონეებთან ურთიერთობისთვის. მაგალითად, Apache Hive უზრუნველყოფს მონაცემთა საწყობის ინტერფეისს Hadoop-ისთვის, Apache Pig უზრუნველყოფს შეკითხვის ინტერფეისს, ხოლო SQL მონაცემებთან ურთიერთქმედება უზრუნველყოფილია Apache Drill, Apache Impala, Apache Spark SQL და Presto. მე ვისწავლე Apache SystemML, Apache Mahout და MLlib გამოყენება Apache Spark-დან. პირდაპირი ანალიტიკური პროგრამირებისთვის, რომელიც ფართოდ არის მხარდაჭერილი მონაცემთა ეკოსისტემით, გამოიყენეთ R და Python.

შედეგების ვიზუალიზაცია

ხშირად, ტენდენციებისა და მონაცემების ცვლილებების ამოცნობა სულ უფრო მნიშვნელოვანია. მონაცემთა ვიზუალიზაცია არის ერთ-ერთი ყველაზე ძლიერი გზა ტენდენციების იდენტიფიცირებისთვის და მონაცემთა დიდი რაოდენობის ორგანიზებისთვის.

რეალურ დროში დამუშავება გამოიყენება სერვერის პროგრამის მეტრიკის ვიზუალიზაციისთვის. მონაცემები ხშირად იცვლება და მაჩვენებლებს შორის დიდი განსხვავება მიუთითებს ქვეყანაში სისტემებისა და ორგანიზაციების მნიშვნელოვან შემოდინებაზე. პროექტებს, როგორიცაა Prometheus, შეუძლიათ ეფექტურად დაამუშაონ მონაცემთა ნაკადები და დროის სერიები და ამ ინფორმაციის ვიზუალიზაცია.

მონაცემთა ვიზუალიზაციის ერთ-ერთი პოპულარული გზაა Elastic stack, ადრე ცნობილი როგორც ELK stack. Logstash გამოიყენება მონაცემთა შეგროვებისთვის, Elasticsearch მონაცემთა ინდექსირებისთვის და Kibana ვიზუალიზაციისთვის. Elastic stack-ს შეუძლია დიდი რაოდენობით მონაცემების დამუშავება, გამოთვლის შედეგების ვიზუალიზაცია და ნედლეული მეტრიკის ურთიერთქმედება. მსგავსი დასტა შეიძლება შეიქმნას Apache Solr-ის გამოყენებით Kibana-ს ჩანგლის ინდექსისთვის, სახელწოდებით Banana ვიზუალიზაციისთვის. ამ დასტას ჰქვია Silk.

მონაცემთა გალერეაში ინტერაქტიული მუშაობის ვიზუალიზაციის კიდევ ერთი ტექნოლოგია არის დოკუმენტები. ასეთი პროექტები საშუალებას იძლევა ინტერაქტიული კვლევა და მონაცემთა ვიზუალიზაცია ფორმატში, რომელიც შესაფერისია მონაცემთა ყოვლისმომცველი მოპოვებისა და შევსებისთვის. ამ ინტერფეისის პოპულარული აპლიკაციებია Jupyter Notebook და Apache Zeppelin.

დიდი ხარკების ლექსიკონი

დიდი მონაცემები არის ფართო ტერმინი მონაცემთა ნაკრებისთვის, რომელიც შეიძლება სწორად იყოს შეჯამებული ორიგინალური კომპიუტერებიდა ინსტრუმენტები მათი სერვისით, სითხისა და მრავალფეროვნებით. ეს ტერმინი ასევე დამოკიდებულია ასეთ მონაცემებთან მუშაობის ტექნოლოგიასა და სტრატეგიაზე.
ჯგუფური დამუშავება არის გამოთვლითი სტრატეგია, რომელიც მოიცავს მონაცემთა დამუშავებას დიდი ნაკრებიდან. იცოდეთ, რომ ეს მეთოდი იდეალურია არატერმინალურ მონაცემებთან მუშაობისთვის.
კლასტერული გამოთვლა არის რამდენიმე მანქანის რესურსების გაერთიანების პრაქტიკა და მათი სხვადასხვა შესაძლებლობების მართვა ამოცანის დასრულებამდე. ამ შემთხვევაში აუცილებელია კლასტერის შექმნა, რომელიც აყალიბებს კავშირებს მიმდებარე კვანძებს შორის.
მონაცემთა ტბა არის ერთი შეხედვით ობოლი ბანაკიდან შეგროვებული მონაცემების დიდი დაგროვება. ეს ტერმინი ხშირად გამოიყენება არასტრუქტურირებული დიდი მონაცემების აღსანიშნავად, რომლებიც ხშირად იცვლება.
მონაცემთა შეგროვება არის ფართო ტერმინი მონაცემთა დიდ ნაკრებებში შაბლონების ძიების სხვადასხვა პრაქტიკისთვის. ეს არის მონაცემთა მასის ორგანიზების მცდელობა უფრო ინტელექტუალურ და შეკრულ ინფორმაციაში.
მონაცემთა საწყობი არის დიდი, კარგად მოწესრიგებული საწყობი ანალიზისა და ინფორმაციისთვის. გარდა ამისა, მონაცემთა ტბა შედგება ფორმატირებული და კარგად მოწესრიგებული მონაცემებისგან, რომლებიც ინტეგრირებულია სხვა მოწყობილობებთან. მონაცემთა კოლექციები ხშირად განიხილება, როგორც დიდი მონაცემები, მაგრამ ხშირად, როგორც ძირითადი მონაცემთა დამუშავების სისტემების კომპონენტები.
ETL (ამონაწერი, ტრანსფორმაცია და დატვირთვა) – მონაცემთა ტრანსფორმაცია, ტრანსფორმაცია და ტრანსფორმაცია. ეს არის ვიკორისტანამდე შეუგროვებელი მონაცემების მოპოვებისა და მომზადების პროცესი. მონაცემთა შეგროვებასთან დაკავშირებით, ამ პროცესის მახასიათებლები ასევე ჩნდება მონაცემთა დიდი სისტემების მილსადენებში.
Hadoop - ეს Apache პროექტი ღიაა გამომავალი კოდიდიდი ხარკებისთვის. იგი შედგება განაწილებული ფაილური სისტემისგან, რომელსაც ეწოდება HDFS და კლასტერებისა და რესურსების დამგეგმავისგან, სახელწოდებით YARN. სურათების დამუშავების შესაძლებლობები უზრუნველყოფილია MapReduce გაანგარიშების ძრავით. MapReduce-თან ერთად, შეგიძლიათ სხვა გამოთვლითი და ანალიტიკური სისტემების გაშვება მიმდინარე Hadoop-ში.
მეხსიერების ჩამოთვლა არის სტრატეგია, რომელიც გადასცემს სამუშაო მონაცემთა ნაკრების მოძრაობას კლასტერულ მეხსიერებაში. შუალედური გამოთვლები არ იწერება დისკზე, სამაგიეროდ, ისინი ინახება მეხსიერებაში. ეს სისტემებს აძლევს დიდ უპირატესობას სიჩქარით, რაც უდრის I/O-სთან დაკავშირებულ სისტემებს.
მანქანათმცოდნეობა არის სისტემების დიზაინის კვლევა და პრაქტიკა, რომელიც შეიძლება დაიწყოს, დარეგულირდეს და გაუმჯობესდეს მათზე გადაცემული მონაცემების საფუძველზე. ეს გამოწვეულია პროგნოზირებადი და სტატისტიკური ალგორითმების განხორციელებით.
რუქის შემცირება (არ უნდა აგვერიოს MapReduce-სა და Hadoop-ში) არის გამოთვლითი კლასტერის დაგეგმვის მეთოდი. პროცესი მოიცავს კვანძებს შორის დაყოფას და შუალედური შედეგების გამოკლებას, გადარევას და კანის ნაკრებისთვის ერთი მნიშვნელობის შემდგომ აღდგენას.
NoSQL არის ფართო ტერმინი, რომელიც ნიშნავს მონაცემთა ბაზებს, რომლებიც იყოფა ტრადიციულ რელაციურ მოდელად. NoSQL მონაცემთა ბაზები კარგად შეეფერება დიდ მონაცემებს მათი მოქნილობისა და დანაწევრებული არქიტექტურის გამო.
ნაკადის დამუშავება არის სისტემის მიერ გადატანილი მონაცემების სხვადასხვა ელემენტების გაანგარიშების პრაქტიკა. ეს საშუალებას გაძლევთ გააანალიზოთ მონაცემები რეალურ დროში და შესაფერისია ტერმინალური ოპერაციების დასამუშავებლად სხვადასხვა მაღალსიჩქარიანი მეტრიკებიდან.

ტეგები: ,

პარალელურად გერმანი გრეფის (Oschadbank-ის ხელმძღვანელი) ტერმინი „დიდი მონაცემები“ შემხვდა. ამის თქმით, ისინი დაუყოვნებლივ აქტიურად მუშაობენ პრობლემებზე, რაც მათ დაეხმარება დააჩქარონ მუშაობის საათი თითოეულ კლიენტთან.

კლიენტის ონლაინ მაღაზიაში უცებ შემხვდა ეს ცნებები, რომლებზეც მუშაობდნენ და ასორტიმენტი რამდენიმე ათასიდან ათი ათას პროდუქტამდე გაზარდეს.

მესამედ, თუ მიხვდებით, რომ Yandex-ს დასჭირდება დიდი მონაცემების ანალიტიკოსი. შემდეგ გადავწყვიტე ჩავუღრმავდე ამ თემას და მაშინვე დავწერო სტატია, რომ აგიხსნათ რა არის ეს ტერმინი, რომელიც ტრიალებს TOP მენეჯერებისა და ინტერნეტსივრცის გონებაში.

Როგორია?

ყოველ შემთხვევაში, მე დავიწყებ ჩემს სტატიას იმის ახსნით, თუ რა არის ეს ტერმინი. სხვათა შორის, არ გადანაშაულებ.

თუმცა გვთხოვეს, ხალხს კი არ ვაჩვენოთ, რამდენად ჭკვიანი ვარ, არამედ იმიტომ, რომ თემა მართლაც რთულია და ფრთხილად ახსნას მოითხოვს.

მაგალითად, შეგიძლიათ წაიკითხოთ დიდი მონაცემები ვიკიპედიაზე, არაფერი გაიგოთ და შემდეგ დაუბრუნდეთ ამ სტატიას ბიზნესისთვის შესაბამისი მნიშვნელობის გასაგებად. მოდით, დავასრულოთ აღწერა და შემდეგ ბიზნეს აპლიკაციებზე.

დიდი მონაცემები დიდ რამეებს ნიშნავს. საოცარია, არა? სინამდვილეში, ინგლისურად ეს ითარგმნება როგორც "დიდი ხარკი". ალი განკუთვნილია, შეიძლება ითქვას, დუმებისთვის.

დიდი მონაცემთა ტექნოლოგია- ეს არის დიდი რაოდენობის მონაცემების დამუშავების მიდგომა/მეთოდი ახალი ინფორმაციის მისაღებად, რომელიც მნიშვნელოვანია დამუშავებისთვის ყველაზე ძირითადი გზებით.

მონაცემები შეიძლება იყოს როგორც აგრეგირებული (სტრუქტურირებული) ასევე დაშლილი (არასტრუქტურული).

თავად ტერმინი vinik ცოტა ხნის წინ გამოჩნდა. 2008 წელს, სამეცნიერო ჟურნალში, ეს მიდგომა გადაიტანეს საჭიროებისამებრ დიდი რაოდენობით ინფორმაციასთან მუშაობისთვის, რომელიც იზრდება გეომეტრიულ პროგრესში.

მაგალითად, ინტერნეტში ინფორმაციის რაოდენობა, რომელიც საჭიროებს შენახვას და, რა თქმა უნდა, დამუშავებას, იზრდება 40%-ით. კიდევ ერთხელ: +40% ახალი ინფორმაცია გამოჩნდება ინტერნეტში რაც შეიძლება მალე.

მას შემდეგ, რაც გაყოფილი დოკუმენტები ნათელი გახდება და მათი დამუშავების მეთოდები გასაგები იქნება (ელექტრონულ ფორმატში გადატანა, ერთ საქაღალდეში ჩასმა, დანომრილი), შემდეგ როგორ ვიმუშაოთ ინფორმაციასთან, რომელიც წარმოდგენილია სხვა „მედიაში“ და სხვა ტომებში:

ინტერნეტ დოკუმენტები;
ბლოგები და სოციალური ქსელები;
აუდიო/ვიდეო მოწყობილობა;
Vimirival მოწყობილობები.

Є მახასიათებლები, რომლებიც საშუალებას გაძლევთ შეიყვანოთ ინფორმაცია და მონაცემები დიდ მონაცემებში. თუმცა, ყველა მონაცემი არ შეიძლება გამოყენებულ იქნას ანალიტიკისთვის. ეს მახასიათებლები კვლავ შეიცავს დიდი მონაცემების ძირითად კონცეფციას. მთელი სუნი ჯდება სამ ვ.

Ჩვენს შესახებ(ინგლისური ტომი). მონაცემები განისაზღვრება ფიზიკური დოკუმენტის ზომით, რაც ხელს უწყობს ანალიზს;
შვიდკისტოსტი(ინგლისური ვერსია: Velocity). მონაცემები არ დგას საკუთარ განვითარებაზე, არამედ თანდათან იზრდება, რის გამოც შედეგის მისაღებად იგივე დამუშავებაა საჭირო;
მრავალფეროვნება(ინგლისური ჯიში). მონაცემები შეიძლება იყოს იგივე ფორმატის. ისინი შეიძლება დაიყოს, სტრუქტურირებული ან სტრუქტურირებული იყოს ნაწილებად.

თუმცა, დროდადრო VVV დაამატეთ მეოთხე V (სინამდვილე - მონაცემების საიმედოობა/სარწმუნოობა) და დაამატეთ მეხუთე V (ზოგიერთ ვარიანტში ეს არის სიცოცხლისუნარიანობა, ზოგში - მნიშვნელობა).

აქ ვსაუბრობ 7V-ზე, რომელიც ახასიათებს დღეს მიმდინარე მონაცემებს. ალე, ჩემი აზრით, სერიიდან არ არის (სადაც პერიოდულად ემატება P, თუმცა გასაგებად 4 ცალიც საკმარისია).

ჩვენ უკვე 29000-ზე მეტი ვართ.
ᲩᲐᲠᲗᲕᲐ

ვის სჭირდება?

უფრო ლოგიკურია, როგორ შეიძლება ინფორმაციის გაანალიზება (რადგან მონაცემები ასობით და ათასობით ტერაბაიტია)?

ეს ასე არ არის. ღერძი არის ინფორმაცია. რა მოიგონეს დღეს? რა მდგომარეობაა დიდ მონაცემებთან დაკავშირებით მარკეტინგისა და ბიზნესის სფეროში?

პირველადი მონაცემთა ბაზები ვერ ინახავს და ამუშავებს (მე არ ვსაუბრობ ანალიტიკაზე, არამედ უბრალოდ შენახვას და დამუშავებას) უზარმაზარი ინფორმაციის.
დიდი პაემანი გაჩაღდა. წარმატებით ინახავს და ინახავს ინფორმაციას დიდი სიფრთხილით;
აყალიბებს ვიდეოს, რომელიც მოდის სხვადასხვა წყაროდან (ვიდეო, სურათი, აუდიო და ტექსტური დოკუმენტები), ერთ, საღად მოაზროვნე და ნაზ გარეგნობაში;
ანალიტიკის ფორმირება და ზუსტი პროგნოზების შექმნა სტრუქტურირებული და შეგროვებული ინფორმაციის საფუძველზე.

Გართულებულია. მარტივად რომ ვთქვათ, თუ თქვენ ხართ მარკეტერი, რომელსაც ესმის, რომ თუ თქვენ შთანთქავთ უამრავ ინფორმაციას (თქვენს შესახებ, თქვენი კომპანიის, თქვენი კონკურენტების, თქვენი ჰობის შესახებ), შეგიძლიათ მიიღოთ ღირსეული შედეგები:

თქვენი კომპანიისა და თქვენი ბიზნესის გაგების მიღმა რიცხვების თვალსაზრისით;
შეამოწმეთ თქვენი კონკურენტები. შემდეგ კი, ჩემი შავით, ნება მომეცით წინ ვისწრაფო მათზე მნიშვნელობის თაროსკენ;
შეიტყვეთ ახალი ინფორმაცია თქვენი კლიენტების შესახებ.

და მიუხედავად იმისა, რომ დიდი მონაცემთა ტექნოლოგია იძლევა მყისიერ შედეგებს, ყველაფერი ქრება. ისინი ცდილობენ დააკავშირონ ეს თავიანთი კომპანიის მარჯვნივ, რათა თავიდან აიცილონ გაყიდვების ზრდა და ხარჯების ცვლილება. და კონკრეტულად, მაშინ:

გაზრდილი გაყიდვები ქვეყნებს შორის და დამატებითი გაყიდვები მომხმარებელთა ცოდნის გაზრდისთვის;
პოპულარული პროდუქტების ძიება და ხალხის ყიდვის მიზეზები (და კარგი მიზეზით);
პროდუქტისა და სერვისის გაუმჯობესება;
გაუმჯობესებული სერვისის დონე;
გაზრდილი ლოიალობა და მომხმარებელთა ფოკუსირება;
შაჰრაიზმის წინსვლა (უფრო აქტუალური საბანკო სექტორისთვის);
ზაივიჩ ვიტრატის შემცირება.

ყველაზე ვრცელი მაგალითი, რომელიც ყველა მოწყობილობას ეხება, არის, პირველ რიგში, კომპანია Apple, რომელიც აგროვებს მონაცემებს თავისი მომხმარებლების შესახებ (ტელეფონი, საიუბილეო ბარათი, კომპიუტერი).

ეკოსისტემის არსებობის წყალობით, თავად კორპორაციამ იცის თავისი მომგებიანების შესახებ და იყენებს მას მოგების მოსაპარად.

თქვენ შეგიძლიათ წაიკითხოთ ეს და სხვა სტატიები ამ გვერდზე, ამის გარდა ნებისმიერ სხვა სტატიაში.

ასეთი კონდახი

სხვა პროექტზე მოგიყვებით. უფრო ზუსტად იმ ადამიანების შესახებ, რომლებიც უახლოეს მომავალში იმუშავებენ დიდი მონაცემების გადაწყვეტილებებზე.

ეს არის ელონ მასკი და მისი კომპანია Tesla. თქვენი მთავარი მიზანია მანქანების ავტონომია გახადოთ, რომ დაჯდეთ მანქანის უკან, ისარგებლოთ ავტოპილოტით მოსკოვიდან ვლადივოსტოკამდე და... დაიძინოთ, რომ საერთოდ არ დაგჭირდეთ მანქანის მართვა და ყველაფერი თავად ააწყოთ. .

ფანტაზიას ჰგავს? არა! უბრალოდ, ილონმა გუგლზე ბევრად ჭკვიანურად მოიქცა, როგორ მართოს მანქანები ათობით თანამგზავრის დახმარებით. ავიდეთ სხვა მარშრუტზე:

ყველა მანქანა, რომელიც იყიდება, აღჭურვილია კომპიუტერით, რომელიც აგროვებს ყველა ინფორმაციას.
ყველაფერი ნიშნავს, რომ ყველაფერი დაიწვა. მართვის, მართვის სტილის, მიმდებარე გზების, სხვა მანქანების ვარდნის შესახებ. ასეთი მონაცემების შენახვა შეადგენს 20-30 გბ წელიწადში;
გარდა ამისა, ეს ინფორმაცია თანამგზავრული კომუნიკაციის საშუალებით გადაეცემა ცენტრალურ კომპიუტერს, რომელიც ამუშავებს ამ მონაცემებს;
შეგროვებული დიდი მონაცემების საფუძველზე დანია კომპიუტერი, იქნება უმართავი მანქანის მოდელი

სინამდვილეში, მიუხედავად იმისა, რომ Google ბევრად უკეთესად მუშაობს და მისი მანქანები საათებს კარგავენ ავარიებში, მასკი ბევრად უკეთესად მუშაობს დიდ მონაცემებთან მუშაობისას და სატესტო მოდელებიც კი აჩვენებენ უარეს შედეგებს.

ალე... ეს ყველაფერი ეკონომიკაშია. რას ვგულისხმობთ მოგებაზე და მოგებაზე? ბევრი რამ, რისი დადგენაც შეგიძლიათ, საერთოდ არ არის დაკავშირებული მოგებასთან და ფულთან.

Google-ის სტატისტიკა, რომელიც დაფუძნებულია დიდ მონაცემებზე, აჩვენებს მნიშვნელოვან ზრდას.

სანამ ექიმები გამოაცხადებენ დაავადების ეპიდემიის დაწყებას ნებისმიერ რეგიონში, სადაც ადამიანების რაოდენობა იზრდება ხმის ნაკბენებივინმეს ავადმყოფობის აღნიშვნის შესახებ.

ამგვარად, მონაცემთა სწორ ინტერპრეტაციას და მათ ანალიზს შეუძლია პროგნოზების ჩამოყალიბება და ეპიდემიის (და, ცხადია, მისი განადგურების) დასაწყისის უფრო ფართოდ გადმოცემა, ოფიციალური ორგანოებისა და მათი საქმიანობის რიგებიდან ქვემოთ.

Zastosuvannya რუსეთის მახლობლად

თუმცა, რუსეთი, როგორც ყოველთვის, ცოტათი გალმილია. ამრიგად, რუსეთში დიდი მონაცემების მნიშვნელობა არაუმეტეს 5 წლის იყო (მე ვსაუბრობ პირველად კომპანიებზე).

და არ გაგიკვირდეთ მათ, ვინც მსოფლიოში ერთ-ერთი ყველაზე სწრაფად მზარდი ბაზარია (ნარკოტიკები და მოერიდეთ ნერვიულ მოწევას), ხოლო დიდი მონაცემების შეგროვებისა და ანალიზისთვის პროგრამული უზრუნველყოფის ბაზარი იზრდება 32%-ით.

რუსეთში დიდი მონაცემების ბაზრის დასახასიათებლად, შემიძლია ერთი ძველი ხუმრობა მოვიფიქრო. დიდი პაემანი ce yak სექსი 18 როკამდე. მხოლოდ ამის შესახებ შეგვიძლია ვთქვათ, რომ ამდენი ლაპარაკი და ცოტა რეალური ქმედებაა და ყველასთვის სამარცხვინოა იმის ცოდნა, რომ ისინი თავად არ აკეთებენ ამას. და მართალი გითხრათ, იმდენი სიმდიდრეა, მაგრამ რეალური ქმედებები ცოტაა.

თუმცა, ბოლო კომპანია Gartner-მა უკვე 2015 წელს გამოაცხადა, რომ დღეს აღარ არის მზარდი ტენდენცია (როგორიცაა, მაგალითად, ცალი ინტელექტი), არამედ დამოუკიდებელი ინსტრუმენტები ანალიზისა და მოწინავე ტექნოლოგიების განვითარებისთვის.

ყველაზე აქტიური სფეროები, სადაც დიდი მონაცემებია რუსეთში, არის ბანკები/დაზღვევა (ტყუილად არ გამოვაქვეყნე სტატია Oschadbank-ის ხელმძღვანელთან), ტელეკომუნიკაციების სექტორი, საცალო ვაჭრობა, უსაფრთხოება და სამთავრობო სექტორი.

ახლა მოდით ვისაუბროთ უფრო დეტალურად ეკონომიკის რამდენიმე სექტორზე, როგორიცაა დიდი მონაცემთა ალგორითმები.

1. ბანკები

მოდით დავასრულოთ ბანკები და ინფორმაცია, რომელსაც ისინი აგროვებენ ჩვენსა და ჩვენს საქმეებზე. მაგალითად, მე ავიღე ტოპ 5 რუსული ბანკი, რომლებიც აქტიურად ინვესტირებას ახდენენ დიდ მონაცემებში:

ოშადბანკი;
გაზპრომბანკი;
ვითიბი 24;
ალფა ბანკი;
ტინკოფის ბანკი.

განსაკუთრებით მისასალმებელია ალფა ბანკის რუს ლიდერებს შორის. მინიმუმ, მისასალმებელია ვაღიაროთ, რომ ბანკს, ნებისმიერი სახის ოფიციალურ პარტნიორს, ესმის, რომ საჭიროა ახალი მარკეტინგული ინსტრუმენტების დანერგვა თავის კომპანიაში.

Ale ვრცელდება vikoristannya და dalgo vprovadzhenya დიდი მონაცემები, მინდა გაჩვენოთ ქილაზე, რომელიც დავიმსახურე არასტანდარტული იერით და ჩემი უფროსის დეტალებით.

მე ვსაუბრობ Tinkoff Bank-ზე. მათი მთავარი ამოცანა იყო დიდი კლიენტების ბაზის მეშვეობით რეალურ დროში დიდი რაოდენობით მონაცემების ანალიზის სისტემის შემუშავება.

შედეგები: შიდა პროცესების საათი აჩქარებს მინიმუმ 10-ჯერ, ხოლო აქტიურისთვის - 100-ზე მეტჯერ.

ისე, ცოტა ექსტრავაგანტულობა. იცით, რატომ დავიწყე საუბარი ოლეგ თინკოვის არასტანდარტულ ტრიალებსა და ცვლილებებზე? უბრალოდ, ჩემი აზრით, ისინი თავად დამეხმარნენ, გადამექცია შუაგზის ბიზნესმენიდან, როგორიც არის ათასობით რუსეთში, ერთ-ერთ ყველაზე ცნობილ და ყველაზე პატივცემულ მეწარმედ. შეხედეთ დადასტურებას და ამ მოულოდნელ ვიდეოს:

2. ურღვევობა

არა-რუხომოსტთან ერთად ყველაფერი გაცილებით რთულია. და ეს არის იგივე მაგალითი, რომელიც მინდა მოგიყვანოთ თქვენი ცხოვრების გასაგებად გადაუდებელი ბიზნესის კონტექსტში. იურიდიული დეტალები:

დიდი ვალდებულება ტექსტური დოკუმენტაციისადმი;
ღია ძერელა (პირადი თანამგზავრები, რომლებიც გადასცემენ მონაცემებს დედამიწის ცვლილებების შესახებ);
უკონტროლო ინფორმაციის დიდი ტვირთი ინტერნეტში;
მუდმივი ცვლილებები ძერელახში და მონაცემებში.

და ამის საფუძველზე აუცილებელია მიწის ნაკვეთის ღირებულების მომზადება და შეფასება, მაგალითად, ურალის სოფლის მახლობლად. ეს არის პროფესიონალის სეზონი.

რუსეთის შემფასებელთა ასოციაციამ და ROSECO-მ, ორივემ, შეიმუშავა საკუთარი დიდი მონაცემების ანალიზი პროგრამული უზრუნველყოფის დახმარებით, არაუმეტეს 30 საათის არაეფექტური მუშაობის ფასად. დაარეგულირეთ პერიოდი 30 წუთის განმავლობაში. ღირებულება კოლოსალურია.

ხელსაწყოები და შემოქმედება

რა თქმა უნდა, უბრალო მყარ დისკებზე დიდი რაოდენობით ინფორმაციის შენახვა და დამუშავება შეუძლებელია.

და უსაფრთხოების პროგრამა, რომელიც აყალიბებს და აანალიზებს მონაცემებს, წარმოშობს ინტელექტუალურ ავტორიტეტს და საფუძვლიან საავტორო განვითარებას. თუმცა, ეს ის ინსტრუმენტებია, რის საფუძველზეც იქმნება მთელი ეს სილამაზე:

Hadoop & MapReduce;
NoSQL მონაცემთა ბაზა;
ინსტრუმენტები მონაცემთა აღმოჩენის კლასისთვის.

მართალი გითხრათ, გარკვევით ვერ აგიხსნით, რით განსხვავდება ერთმანეთისგან სუნი, რადგან ხალხი კარგად იცნობს ამ გამოსვლებს ფიზიკა-მათემატიკის ინსტიტუტებში.

აი რაზე ვლაპარაკობდი და ვერ ავხსნი? გახსოვთ, როგორ შედიან მძარცველები მუდმივად ნებისმიერ ბანკში და აგროვებენ დარტებთან დაკავშირებულ ყველა სახის ჰუკერის დიდ რაოდენობას? იგივე და კარგი პაემნებისთვის. მაგალითად, ღერძის მოდელი ასეთია ნარაზიბაზრის ერთ-ერთი ლიდერი.

დიდი თარიღის ინსტრუმენტი

მაქსიმალური კონფიგურაციის ფასი შეადგენს 27 მილიონ რუბლს თაროზე. ეს აშკარად ძვირადღირებული ვერსიაა. მინდა სცადოთ თქვენი ბიზნესისთვის დიდი მონაცემების შექმნა.

მოკლედ სმუტის შესახებ

შეგიძლიათ მკითხოთ, რა გელით უახლოეს მომავალში, მცირე თუ საშუალო ბიზნესს, რობოტთან ერთად?

ამ ეტაპზე ერთი ადამიანის ციტატით შეგახსენებთ: „უახლოეს მომავალში კლიენტები კომპანიებს მოსთხოვენ, უკეთ გაიგონ მათი ქცევა და მათი რეკლამები საუკეთესოდ მოერგება მათ“.

მოდით, სიმართლეს ჩვენს თვალებში შევხედოთ. მცირე ბიზნესში დიდი მონაცემების გასავრცელებლად, თქვენ გჭირდებათ არაუმეტეს დიდი ბიუჯეტი პროგრამული უზრუნველყოფის შემუშავებისა და დანერგვისთვის და ბუღალტერების მენეჯმენტისთვის, როგორიცაა დიდი მონაცემების ანალიტიკოსები და სისტემის ადმინისტრატორები.

და ამიტომ ვსაუბრობ მათზე, რისი გადასამუშავებლადაც შეიძლება გქონდეთ ასეთი ხარკი.

ᲙᲐᲠᲒᲘ. მცირე ბიზნესისთვის თემა შეიძლება არ იყოს სტაგნაცია. ეს არ ნიშნავს იმას, რომ თქვენ უნდა დაივიწყოთ ყველაფერი, რაც წაიკითხეთ. უბრალოდ შეიყვანეთ თქვენი მონაცემები და მონაცემთა ანალიტიკის შედეგები როგორც უცხოური, ისე რუსული კომპანიებისგან.

მაგალითად, Target-ის სხვადასხვა ანალიტიკამ, დიდი მონაცემების ანალიტიკის გამოყენებით, დაადგინა, რომ ორსული ქალები ორსულობის მომდევნო ტრიმესტრამდე (ორსულობის 1-ლიდან მე-12 პერიოდამდე) აქტიურად ყიდულობენ უგემოვნო პროდუქტებს.

ჩვენ მოგცემთ სურნელს, რომ დაამატოთ კუპონები და ფასდაკლებები უგემოვნო კატებზე ტერმინით dii.

რაც შეეხება ამ მართლაც პატარა კაფეს, მაგალითად? დიახ, ძალიან მარტივი. Vikorist ლოიალობის პროგრამა. და ერთ საათში და დაგროვილი ინფორმაციით, თქვენ შეძლებთ არა მხოლოდ მიაწოდოთ თქვენს კლიენტებს ის პროდუქტები, რომლებიც შეესაბამება მათ საჭიროებებს, არამედ გენერირებათ ყველაზე გაუყიდველი და მაღალი მარჟის პროდუქტები დათვის მხოლოდ რამდენიმე დაწკაპუნებით.

უკან გაიხედე. ნაკლებად სავარაუდოა, რომ მცირე ბიზნესის შედეგების მართვა ადვილი იქნება, მაგრამ სხვა კომპანიების შედეგების მიღება სავალდებულოა.

კატეგორიები

პოპულარული