მონაცემთა ანალიზის ზომის შემცირების მეთოდები. შემცირებული ზომა · Loginom Wiki. სამეცნიერო ნაშრომის ტექსტი თემაზე „სტატისტიკური მონაცემების ზომის შემცირების მეთოდები“

  • სტატისტიკაში, მანქანაზე დაფუძნებული ინფორმაციის თეორიაში, განზომილების შემცირება გულისხმობს მონაცემთა ტრანსფორმაციას, რაც იწვევს ცვლილებების რაოდენობის ცვლილებას იმ გზებით, რომლებიც ამცირებენ ძირითად ცვლილებებს. ტრანსფორმაცია შეიძლება დაიყოს ნიშნის შერჩევასა და ნიშნის დანახვაზე.

პოიაზანი მესმის

საიდუმლოებები ლიტერატურაში

- შეყვანის მონაცემების მნიშვნელოვანი და ხელახალი დამუშავება, - სტიმულატორის მასალების ხელით და ავტომატური განლაგება (ინტერესის თვალსაჩინო სფეროები), - ალგორითმი თავდამსხმელის საპასუხო მატრიცის გამოსათვლელად, - მონაცემთა გაფართოებული ცხრილის შექმნა შეყვანის ცვლილებების მნიშვნელობებით, რომლებიც აუცილებელია. შემდგომი ანალიზი ალიზუ, – მეთოდი ზომის შემცირებასივრცის ნიშანი (ძირითადი კომპონენტის მეთოდი), – კომპონენტის მოსაზრებების ვიზუალიზაცია ინტერპრეტირებული კომპონენტების შერჩევისთვის, – ალგორითმი გადაწყვეტილების ხის დასაწყებად, – ხის გადაცემული სიმძლავრის შეფასების ალგორითმი, – გადაწყვეტილების ხის ვიზუალიზაცია.

პოიაზანის გაგება (გაგრძელება)

მატრიცის მსგავსების მონაცემების ვიკორისტური სპექტრის სპექტრული დაჯგუფების ტექნიკა (სველი მნიშვნელობები) განზომილების შემცირების განზომილების შემცირების დაჯგუფებამდე უფრო დაბალი განზომილებების სივრცეებში. მსგავსების მატრიცა მოწოდებულია შეყვანის სახით და შედგება მონაცემების წყვილის კანის მსგავსების შეფასებებისგან.

სპექტრული მეთოდები არის ტექნიკის კლასი, რომელიც გამოიყენება გამოყენებით მათემატიკაში სხვადასხვა დიფერენციალური განტოლებების რიცხვითი გადაწყვეტისთვის, რომელიც შეიძლება დაბრუნდეს შვიდკეს ტრანსფორმაციამდე Four-ით. იდეა მდგომარეობს იმაში, რომ ჩამოვთვალოთ დიფერენციალური განტოლებები, როგორც გარკვეული „ძირითადი ფუნქციების“ ჯამი (მაგალითად, ფურიეს სერია არის სინუსოიდების ჯამი), შემდეგ კი ჯამიდან შეარჩიოთ კოეფიციენტები დიფერენციალური განტოლების მაქსიმალურად დასაკმაყოფილებლად.

მათემატიკური ანალიზი (კლასიკური მათემატიკური ანალიზი) არის მათემატიკის ფილიალების ერთობლიობა, რომელიც შეესაბამება ისტორიულ განშტოებას სახელწოდებით "უსასრულოდ მცირეს ანალიზს", დიფერენციალური და ინტეგრალური გამოთვლების ჩათვლით.

დიფერენციალური ევოლუცია (ინგლ. დიფერენციალური ევოლუცია) არის მათემატიკური ოპტიმიზაციის ფართო სპექტრის მეთოდი, რომელიც მიეკუთვნება სტოქასტური ოპტიმიზაციის ალგორითმების კლასს (რომლებიც მუშაობენ შემთხვევითი რიცხვების სერიაზე) და ვიკორის ოპერაციებში. გენეტიკური ალგორითმების მოქმედებები ან ჩანაცვლება. მათგან არ საჭიროებს შეცვლილ კოდთან მუშაობას.

დისკრეტული ელემენტის მეთოდი (DEM, ინგლისური დისკრეტული ელემენტის მეთოდიდან) არის რიცხვითი მეთოდების ოჯახი, რომელიც გამოიყენება დიდი რაოდენობით ნაწილაკების, როგორიცაა მოლეკულები, მარცვლები, ხრეში, კენჭები და სხვა მარცვლოვანი ნივთიერებების დაშლა. მეთოდი გამოიყენებოდა კუნდალის სტაზაციის დასაწყისიდან 1971 წელს კლდის ქანების მექანიკის გასაუმჯობესებლად.

მეტა კვლევა:

მონაცემთა განზომილების შეცვლის მეთოდების ეფექტურობის შეფასება მათი სტაბილურობისა და პრაქტიკული ამოცნობის (იდენტიფიკაციის) ოპტიმიზაციის მიზნით.

საგამოძიებო განყოფილება:

1. ლიტერატურის მიმოხილვა მონაცემთა ზომის შეცვლის სხვა მეთოდების შესახებ.

2. კვლევის (ექსპერიმენტების) ჩატარება მონაცემთა განზომილების შეცვლის ალგორითმების ეფექტურობის გასათანაბრებლად, რაც პრაქტიკაში მართალია კლასიფიკაციის ამოცანებში.

გამოძიების მეთოდები (პროგრამული მახასიათებლები):

C++ პროგრამირების ენა, OpenCV ბიბლიოთეკა

მნიშვნელოვანია და ზოგჯერ შრომატევადი, მაღალი განზომილების მქონე ადამიანის მონაცემების გაგება. ამასთან დაკავშირებით, საკმაოდ ლოგიკური გახდა ფართომასშტაბიანი შერჩევიდან მცირე ზომის მონაცემებზე გადასვლა, რათა „აღფრთოვანებული იყოს მათით“, შეაფასოს და გააანალიზოს ისინი, მათ შორის ამოცნობის ამოცანის მისაღწევად. სიზუსტის გარდა, განზომილების ცვლილება საშუალებას იძლევა შემცირდეს სტატისტიკური ანალიზისთვის მნიშვნელოვანი ფაქტორები (ინფორმაცია), ინფორმაციის შეგროვების დროს, გაზარდოს ქვედანაყოფების პარამეტრების და მახასიათებლების შეფასებების დისპერსიული დისპერსიული ნაწილაკები.

ზომის შეცვლა არის გამომავალი მონაცემების დიდი განზომილების გარდაქმნის პროცესი უფრო მცირე ზომის ახალში, რომელიც ინახავს ძირითად ინფორმაციას. იდეალურ შემთხვევაში, ტრანსფორმირებული ფენომენის განზომილება ასახავს მონაცემთა შიდა განზომილებას. მონაცემთა შიდა განზომილება არის ცვლილებების მინიმალური რაოდენობა, რომელიც აუცილებელია მონაცემთა ყველა შესაძლო ძალაუფლების დასადგენად. ანალიტიკური მოდელი, რომელიც გენერირებულია მონაცემთა მოკლე ნაკრების საფუძველზე, შეიძლება იყოს უფრო მარტივი დამუშავებისა და განხორციელებისთვის, ხოლო ქვედა მოდელი გენერირებულია გამომავალ კომპლექტზე.

ზომების შემცირების მეთოდის არჩევის შესახებ გადაწყვეტილებები ეფუძნება ცოდნას ანალიზის სპეციფიკისა და მიღებული შედეგების შესახებ, ასევე დროისა და გამოთვლითი რესურსების გაზიარებაზე. ლიტერატურის მიმოხილვებზე დაყრდნობით, განზომილების შემცირების ყველაზე ხშირად გამოყენებული მეთოდები მოიცავს ძირითადი კომპონენტის ანალიზს (PCA), დამოუკიდებელი კომპონენტის ანალიზს (ICA) და სინგულარული მნიშვნელობის დაშლას (SVD).

ძირითადი კომპონენტის ანალიზი (PCA) - მონაცემთა ზომის შეცვლის უმარტივესი გზა. გადამუშავებული ნიშანი ფართოდ იქნება გამოყენებული, როდესაც მოცემული კლასიფიკაციის მონაცემების ზომა იცვლება. პროგნოზირებული მონაცემების დაფუძნების მეთოდი უფრო მცირე ზომის ახალ კოორდინატულ სისტემაზე, რომელიც განისაზღვრება მატრიცის სიმძლავრის ვექტორებით და სიმძლავრის რიცხვებით. მათემატიკის პერსპექტივიდან, ხელმძღვანელი კომპონენტების მეთოდი არის ორთოგონალური წრფივი ტრანსფორმაცია.

მეთოდის მთავარი იდეაა მონაცემთა კოვარიანტული მატრიცის მნიშვნელობების და ვექტორების გამოთვლა დისპერსიის მინიმიზაციის გზით. კოვარიანტული მატრიცა გამოითვლება ერთმანეთის დაახლოებით ასი პროცენტით განაწილების მნიშვნელობის მიხედვით. ორი ფაზის სიდიდეების (განზომილებების) კოვარიანტობა – მათი წრფივი პოზიციის სამყარო:

de – X ცვლადის მნიშვნელობის მათემატიკური გამოთვლა, – Y ცვლადის მნიშვნელობის მათემატიკური გამოთვლა. ასევე შეგვიძლია დავწეროთ ფორმულა (1) სახით:

სად არის X-ის შუა, სად არის Y-ის შუა, N არის მონაცემთა ზომა.

ვექტორებისა და რიცხვების გამოთვლის შემდეგ მათი მნიშვნელობები დალაგებულია კლებადობით. ამრიგად, კომპონენტები მცირდება მნიშვნელობის კლების მიხედვით. სიმძლავრის ვექტორი ყველაზე მაღალი სიმძლავრის რიცხვით არის მონაცემთა ნაკრების წამყვანი კომპონენტი. ძირითადი კომპონენტები ჩნდება რამდენიმე რიგში მათი ვექტორებიდან დახარისხებული წონის მნიშვნელობებზე. უმცირესი განზომილების ოპტიმალური სივრცის საპოვნელად გამოიყენება ფორმულა (3), რათა განისაზღვროს მინიმალური სხვაობა გამომავალ მონაცემებს შორის და გამოკლდეს შემდეგი კრიტერიუმი:

სადაც P არის ახალი სივრცის ზომა, N არის გამომავალი ნიმუშის ზომა, არის სიმძლავრის ნომერი, არის ზღვრული მნიშვნელობა. პროცესის დროს, ალგორითმი იღებს მატრიცას MP მონაცემებით, წრფივად გარდაქმნის მას MN-ით, რის შემდეგაც PCA პოულობს M-ის წრფივ წარმოდგენას, რაც ამცირებს შეფასების ფუნქციას:

de – ევკლიდური მანძილი წერტილებს შორის და , – ევკლიდური მანძილი წერტილებს შორის და , , . შეფასების ფუნქციის მინიმალური მნიშვნელობა შეიძლება გამოითვალოს გრამ მატრიცის სპექტრული დაშლის გამოსახვით და მატრიცის სიმძლავრის ვექტორების გამრავლებით სხვადასხვა სიმძლავრის რიცხვების ფესვზე.

დამოუკიდებელი კომპონენტების ანალიზი ( ICA ) , PCA-ს ადმინისტრირება - დაამატეთ ახალი, წინააღმდეგ შემთხვევაში მეთოდი სწრაფად იძენს პოპულარობას. იგი ემყარება მონაცემების ხაზოვანი ტრანსფორმაციის იდეას ახალ კომპონენტებად, რომლებიც რაც შეიძლება სტატისტიკურად დამოუკიდებელია და არა აუცილებლად ორთოგონალური ერთმანეთის მიმართ. ამ რობოტის თვალყურის დევნებისთვის შეირჩა FastICa ალგორითმი, როგორც ეს სტატისტიკაშია აღწერილი. ამ მეთოდის ძირითადი ამოცანებია ცენტრირება (მონაცემების შუა არჩევა) და „გაყოფა“ (ვექტორის x y ვექტორის წრფივი ტრანსფორმაცია არაკორელირებული კოორდინატებით, რომელი ერთეულების დისპერსია).

FastICA-ში დამოუკიდებლობის კრიტერიუმი არის არაგაუზიანი, რაც ითვლება გადაჭარბების დამატებით კოეფიციენტად:

გაუსის ტალღების ფორმებისთვის, ეს მნიშვნელობა ნულის ტოლია, ამიტომ FastICA აძლიერებს მის მნიშვნელობებს. ვინაიდან მონაცემები „სიცოცხლისუნარიანია“, „სიცოცხლისუნარიანი“ მონაცემების კოვარაციის მატრიცა არის ერთი მატრიცა.

მსგავსი ხელახალი შექმნა კიდევ უფრო შესაძლებელია. კოვარიანტული მატრიცის ვიკორისტული სპექტრული დაშლის პოპულარული მეთოდი , De არის სიმძლავრის ვექტორების ორთოგონალური მატრიცა და არის სიმძლავრის რიცხვების დიაგონალური მატრიცა. თქვენ ხედავთ, რომ "მოცილება" შესაძლებელია ერთი შეხედვით:

სადაც მატრიცა გამოითვლება კომპონენტის მოქმედებით:

Ექსპერიმენტი

პროფილირების მეთოდების ექსპერიმენტული თვალთვალის მიზნით, თანმიმდევრობები ჩამოყალიბდა CASIA GAIT მონაცემთა ბაზიდან. ბაზა შეიცავს ორობითი სურათების თანმიმდევრობებს, რომლებიც შეესაბამება ვიდეოს მიმდევრობის მიმდებარე კადრებს, რაც უკვე აჩვენებს ხილულ ობიექტებს, რომლებიც იშლება.

დიდი რაოდენობით ვიდეო სექციონებიდან, შემთხვევით აიღეს 15 კლასი, რომლებშიც კუთხეები 90 გრადუსია, ადამიანები გამოსახულია არაზამთრის ტანსაცმელში და ჩანთების გარეშე. კანის კლასს ჰქონდა 6 ​​თანმიმდევრობა. კანის მიმდევრობის საერთო სიგრძე 60 კადრზე ნაკლები გახდა. კლასები დაყოფილი იყო საწყის და სატესტო ნიმუშებად 3 კანის თანმიმდევრობის მიხედვით.

ნიშნები იქნა ამოღებული PCA და ICA მეთოდების შედეგად კლასიფიკატორის შესაქმნელად, რომელიც იყო დამხმარე ვექტორული მანქანები (SVM).

მეთოდის ეფექტურობის შესაფასებლად შეფასდა კლასიფიკაციის სიზუსტე, რომელიც განისაზღვრება, როგორც სწორად კლასიფიცირებული ობიექტების პროპორცია. ექსპერიმენტის საათზე ასევე ჩაიწერა დაწყების და ტესტირების რეჟიმში გატარებული საათი.

სურათი 1. ა) ძირითადი კომპონენტის ანალიზი (PCA) ბ) დამოუკიდებელი კომპონენტის მეთოდი (ICA)

სურათი 1(a, b) გვიჩვენებს გამომავალი განზომილების მონაცემების კლასიფიკაციის სიზუსტეს ტრანსფორმაციის შემდეგ. ჩანს, რომ PCA კლასიფიკაციის სიზუსტე კომპონენტების გაზრდილი რაოდენობით იცვლება უმნიშვნელოდ, ხოლო ICA ცვლადებისთვის, სიზუსტე, დაწყებული მცირე მნიშვნელობიდან, იწყებს ვარდნას.

ნახაზი 2. კლასიფიკაციის ხანგრძლივობა კომპონენტების რაოდენობის მიხედვით ა) PCA , ბ) ICA

სურათი 2(a,b) გვიჩვენებს კლასიფიკაციის მნიშვნელობას PCA და ICA კომპონენტების რაოდენობის მიხედვით. ორივე ტიპის ზომის ზრდას თან ახლდა ჭრის დროის წრფივი ზრდა. გრაფიკები აჩვენებს, რომ SVM კლასიფიკატორი უკეთესად მუშაობდა განზომილების შემცირების შემდეგ ძირითადი კომპონენტის მეთოდის (PCA) გამოყენებით.

მოცემული კლასიფიკაციისთვის მაღალი შედეგების მისაღწევად გამოყენებული იქნა ძირითადი კომპონენტის ანალიზის (PCA), დამოუკიდებელი კომპონენტის ანალიზის (ICA) მეთოდები. ამ მონაცემებით და დასაკეცი სტრუქტურით ეს მეთოდები ყოველთვის არ მოგცემთ საშუალებას მიაღწიოთ სასურველ შედეგს. აქედან გამომდინარე, უფრო და უფრო მეტი ყურადღება ეთმობა ადგილობრივ არაწრფივ მეთოდებს, რომლებიც ქმნიან მონაცემთა პროექციას მრავალფეროვნების ცხრილში, რაც იძლევა მონაცემთა სტრუქტურის შენახვას.

ჩვენ ამჟამად ვგეგმავთ გავაფართოვოთ როგორც ალგორითმების ჩამონათვალი, რომლებიც შეიძლება გამოყენებულ იქნას ნიშნების აღწერილობის ფორმულირებისთვის, ასევე კლასიფიკაციის მეთოდების ჩამონათვალის, რომელთა ტესტირებაც შესაძლებელია. კიდევ ერთი მნიშვნელოვანი პირდაპირი შემდგომი ნაბიჯი არის დამუშავების დროის შემცირება.

მითითებების სია:

  1. Jolliffe, I.T., ძირითადი კომპონენტის ანალიზი, Springer, 2002 წ.
  2. Hyvärinen and Erkki Oja, დამოუკიდებელი კომპონენტის ანალიზი: ალგორითმები და აპლიკაციები, ნერვული ქსელები, 13, 2000 წ.
  3. Josiński, H. Feature Extraction და HMM-ზე დაფუძნებული კლასიფიკაცია სიარულის ვიდეო თანმიმდევრობისთვის ადამიანის იდენტიფიკაციის მიზნით/ Springer, 2013 - ტომი 481.

ნაწილი 13. ტყვიის კომპონენტების მეთოდი

13.1. განზომილების შემცირების პრობლემის არსი და სხვადასხვა მეთოდები და მათი საუკეთესო შედეგები

წინა და პრაქტიკული სტატისტიკური სამუშაო უნდა გაუმკლავდეს სიტუაციებს, როდესაც მრავალი ობიექტის კანზე (ქვეყნები, ადგილები, ბიზნესი, ოჯახები, პაციენტები ტექნიკურ და გარემოსდაცვით სისტემებში) რეგისტრირებულია მრავალი ნიშანიც კი - ასამდე ან მეტი. . სიფრთხილის აშკარა სიმრავლის წინააღმდეგ

სტატისტიკური ანალიზის წარდგენის შემდეგ გაიაზრეთ და გაგზავნეთ მონაცემთა ბაზაში, რათა საჭირო მომენტში მათი უნარი გამოსწორდეს.

კანის მოვლის მნიშვნელოვანი სტატისტიკა (13.1) სხვადასხვა დამატებითი ინდიკატორების Z ვექტორის სახით კომპონენტების მნიშვნელოვნად მცირე რაოდენობით, უპირველეს ყოვლისა, განპირობებულია შემდეგი მიზეზებით:

გამომავალი მონაცემების (13.1) ონლაინ პრეზენტაციის (ვიზუალიზაციის) საჭიროება, რაც ეხება მათ დიზაინებს სპეციალურად შერჩეული სამგანზომილებიანი სივრცისთვის, ფართობისა და რიცხვითი ხაზისთვის (ამ ტიპის ამოცანები ეძღვნება IV განყოფილებას);

ფოკუსირება კვლევის მოდელების ლაკონიზმზე, რაც გამოწვეულია სტატისტიკური დასკვნების დიზაინისა და ინტერპრეტაციის გამარტივებით;

შენახული სტატისტიკური ინფორმაციის ვალდებულებების დაუყოვნებლივ შემცირების აუცილებლობა (მისი ინფორმაციის შინაარსში შესამჩნევი დანაკარგების გარეშე), რაც მოითხოვს სპეციალურ მონაცემთა ბაზაში (13.1) ტიპის მასივების შენახვის ჩანაწერს.

ამ შემთხვევაში, ახალი (დამატებითი) ნიშნები შეიძლება შეირჩეს გამომავალი ნიშნებიდან ან, გარკვეული წესის მიხედვით, შეიძლება მიენიჭოს გამომავალი სიმბოლოების მთლიანობას, მაგალითად, როგორც მათი ხაზოვანი კომბინაციები. ახალი სისტემის ფორმირებისას ნიშანი მაინც ავლენს სხვადასხვა უპირატესობებს, როგორიცაა ყველაზე დიდი საინფორმაციო შინაარსი (მომღერლის გაგებით), ურთიერთარაკორელაცია, მინიმალური კონფლიქტი გამომავალი მონაცემების უპიროვნების გეომეტრიულ სტრუქტურასთან და ა.შ. ამ vmog-ის ფორმალური დაზუსტების ვარიანტი (ქვემოთ დაყოფა, ისევე როგორც IV სექცია) წინ უსწრებს განზომილების შემცირების სხვა ალგორითმს. და, სულ მცირე, გონების მნიშვნელოვანი ცვლილებების სამი ძირითადი ტიპი, რომლებიც წარმოადგენენ გაანალიზებული სისტემის გამომავალი ინდიკატორების (ქცევები, ოპერაციული ეფექტურობა) დიდი რაოდენობით გადასვლის შესაძლებლობას უფრო ინფორმაციულ ცვლილებებზე. ეს, უპირველეს ყოვლისა, არის ინფორმაციის დუბლირება, რომელიც მოწოდებულია უაღრესად ურთიერთდამოკიდებული ნიშნებით; სხვა სიტყვებით რომ ვთქვათ, ნიშნის არაინფორმატიულობა, რომელიც მცირედ იცვლება ერთი ობიექტიდან მეორეზე გადასვლისას (ნიშნის „ცვალებადობა“ მცირეა); მესამე, აგრეგაციის შესაძლებლობა, როგორც მარტივი, ასევე „მნიშვნელოვანი“ განხილვისას, გარკვეული ნიშნების მიღმა.

ფორმალურად, ნიშანთა ახალ კომპლექტზე გადასვლის (ინფორმაციული შინაარსის მინიმალური დაკარგვით) ამოცანა შეიძლება აღწერილი იყოს მომავალი თანმიმდევრობით. დაე იყოს - გამომავალი ცვლადების r-ვირტუალური ვექტორული ფუნქციის მოქმედება და გაუშვით - საინფორმაციო შინაარსის სამყარო - მსოფლიო სისტემა - გამომავალი მასივში აქვს ნიშანი თავად გამომავალი ნიშნების წინ; და გარე ინფორმაციის შინაარსის კრიტერიუმი, მიზანი ინფორმაციის „გავლენის“ მაქსიმალური გაზრდა, რომელიც მდებარეობს ამ მასივში სხვა (გარე) ინდიკატორებთან შედარებით.

ასეთ კომპლექტზე მინიჭებულ მნიშვნელობას აქვს ნიშანი Z, რომელიც გვხვდება გამომავალი ეკრანების დასაშვები გარდაქმნების F კლასში.

განცხადების მნიშვნელობის (რაც გულისხმობს ინფორმაციის შინაარსის კონკრეტულ არჩევანს) და დასაშვებ ტრანსფორმაციების კლასის დაზუსტების კიდევ ერთი ვარიანტია განზომილების შემცირების კონკრეტულ მეთოდზე დაყვანა: ძირითადი კომპონენტების მეთოდზე, ფაქტორული ანალიზი, უკიდურესი დაჯგუფება. პარამეტრები და ა.შ.

აგიხსნათ ფასი კონდახებზე.

13.1.1. ძირითადი კომპონენტის მეთოდი (დივ. § 13.2-§ 13.6).

პირველივე სათავე კომპონენტები მიიღებენ შემდგომ დაკვირვებას, ვინაიდან დასაშვები გარდაქმნების კლასი F ნიშნავს გამომავალი ინდიკატორების ყველა ხაზოვან ორთოგონალურ ნორმალურ კომბინაციას.

(აქ) - მათემატიკური ანალიზი და როგორც ინფორმაციული შინაარსის სამყარო - ვირუსის მაჩვენებლების მსოფლიო სისტემა

(აქ D, როგორც ადრე, არის კონკრეტული დაცემის მნიშვნელობის დისპერსიის გამოთვლის ოპერაციის ნიშანი).

13.1.2. ფაქტორული ანალიზი (თავი 14).

როგორც ჩანს (დივ. § 14.1), ფაქტორული ანალიზის მოდელი ხსნის გამომავალი ინდიკატორებს შორის კავშირების სტრუქტურას ისე, რომ მათი კანის ქცევა სტატისტიკურად საიდუმლო ჩინოვნიკების ერთსა და იმავე ჯგუფშია.

de – ოკულტური ფაქტორის „ზეგავლენა“ გამომავალ ეკრანზე – ზალიშკოვის „სპეციფიკური“ კომპონენტი და – წყვილში არაკორელირებული.

როგორც ჩანს, F განსაზღვრავს, თუ როგორ იყოფა ყველა წრფივი კომბინაციის კლასი გამოცანების ამოხსნიდან ინფორმაციის შინაარსის სამყაროში - ინდიკატორების მსოფლიო სისტემა, მნიშვნელობის შერჩევა და ოპტიმიზაციის პრობლემის გადაჭრა (13.2) თავს არიდებს ფარულ ვექტორს. ფაქტორები ფაქტორული ანალიზის მოდელში. აქ არის გამომავალი ინდიკატორების კორელაციური მატრიცა; ინდიკატორების კორელაციური მატრიცა არის A მატრიცის ევკლიდური ნორმა.

13.1.3. ნიშნების უკიდურესი დაჯგუფების მეთოდი (დივ. 14.2.1).

ეს მეთოდი გულისხმობს გამომავალი ინდიკატორების მთლიანობის ისეთ დაშლას მოცემული რაოდენობის ჯგუფებზე, ისე, რომ ნიშნები, რომლებიც მიეკუთვნება ერთ ჯგუფს, იქნება მჭიდრო კორელაცია, ხოლო ნიშნები, რომლებიც მიეკუთვნებიან სხვადასხვა ჯგუფს, სუსტად. ამავდროულად, არსებობს ტენდენცია, რომ შეიცვალოს უაღრესად ურთიერთდაკავშირებული გამომავალი ინდიკატორების კანის ჯგუფი ერთი დამატებითი „ექვივალენტური“ ინდიკატორით, რომელიც, ბუნებრივია, პასუხისმგებელია მისი ჯგუფის ნიშნებთან მჭიდრო კორელაციაზე. F გამომავალი ინდიკატორების დასაშვები გარდაქმნების კლასად იდენტიფიცირებული, ყველა ნორმალიზებული წრფივი კომბინაცია მოძებნილია მაქსიმიზაციის (S და ) ფუნქციების გადასაჭრელად.

დე - ცვლადებს შორის კორელაციის კოეფიციენტი.

13.1.4. ბაგატომირნეს სკალა (თავი 16).

რიგ სიტუაციებში და, რაც მთავარია, სიტუაციებში, როდესაც გამომავალი სტატისტიკური მონაცემები გროვდება სპეციალური ტესტების, კითხვარების, ექსპერტთა შეფასებების, შესაძლო ვარიაციების გამოყენებით, როდესაც პირველადი სიფრთხილის ელემენტია ობიექტის მდგომარეობა, რომელიც იწერება ვექტორის სახით. და ორი ობიექტის (ან სიმბოლოს) წყვილი სიახლოვის (მანძილის) მახასიათებელი იყოფა რიცხვებად

ამ შემთხვევაში, მკვლევარი არის გამომავალი სტატისტიკური მონაცემების მასივი ზომის მატრიცით (რომელიც უყურებს ობიექტების წყვილი სიახლოვის მახასიათებლებს) ან (რომელიც უყურებს ნიშნების წყვილი სიახლოვის მახასიათებლებს) ფორმით.

სადაც მნიშვნელობები ინტერპრეტირებულია ან როგორც დაყოფა ობიექტებს შორის (ნიშნებს) და როგორც რიგებს, რომლებიც განსაზღვრავენ ამ განყოფილებების წესრიგს. მდიდრულად ამქვეყნიური მასშტაბის მიზანი მდგომარეობს იმაში, რომ ჩვენი ობიექტები (ნიშნები) „ჩართულია“ ასეთ ამქვეყნიურ სივრცეში, ასე რომ ჩვენ ვირჩევთ კოორდინატთა ღერძებს ისე, რომ შედეგად მიღებული გეომეტრიული კონფიგურაცია გაანალიზებული წერტილი-ობიექტების მთლიანობაში ( ან წერტილოვანი ნიშნები), დახმარების ამოცანები (13.1) ან (13.5), როგორც ჩანს, ურთიერთდაწყვილების განვითარების შუა „შექმნის ეტაპის“ სენსორული კრიტერიუმი ყველაზე ნაკლებად ეფექტურია.

მდიდარი მასშტაბის სკალირების ერთ-ერთი ყველაზე მნიშვნელოვანი სქემა განისაზღვრება კრიტერიუმით

სადაც - დადექით გარე სივრცეში არსებულ ობიექტებს შორის, - დადექით ამ ობიექტებს შორის უფრო მცირე განზომილებების იმავე სივრცეში - თავისუფალი პარამეტრები, კონკრეტული მნიშვნელობების არჩევანი ხორციელდება მკვლევარის შეხედულებისამებრ.

მნიშვნელოვანია Z ნიშნის საძიებო სიმრავლის საინფორმაციო შინაარსის სამყაროსთვის, მაგალითად, როგორც მნიშვნელობა, შეფუთული ცნობილ მნიშვნელობამდე, გამომავალი წერტილების ნაკრების გეომეტრიული სტრუქტურის შექმნის ეტაპი, დაყვანილი საბოლოო პარამეტრამდე. (13.2), მნიშვნელოვანია

13.1.5. ყველაზე ინფორმაციული ინდიკატორების შერჩევა დისკრიმინაციული ანალიზის მოდელებიდან (ნაწილი § 1.4; 2.5).

მიეცით მეტი ფუნქციონირება სატელეფონო სისტემის ავტომატური ინფორმაციის შინაარსს. მოდით შევხედოთ კრიტერიუმების გამოყენებას გარე საინფორმაციო შინაარსისთვის. გასაგებად რომ ვთქვათ, ჩვენ შეგვიძლია შევაფასოთ ინდიკატორების სისტემის ინფორმატიულობა დისკრიმინაციული ანალიზის სქემაში ამ ინდიკატორების მიღმა არსებული ობიექტების კლასიფიკაციის სისწორის თვალსაზრისით. დასაშვები ტრანსფორმაციების ამ კლასში F მნიშვნელოვანია, რომლის ნახვა მხოლოდ გამომავალი დისპლეების კომპლექტის წარმომადგენლებს შეუძლიათ.

მოდით გავაფართოვოთ დასკვნა გამომავალი კომპლექტიდან ყველაზე ინფორმაციული ინდიკატორების გამოსავლენად და დავადასტუროთ, რომ მოცემული ზომის ინდიკატორების ვექტორი უფრო ინფორმატიულია და ამ ერთგვაროვანი დაყოფის კანონებში უფრო მეტი ძალაა, რომელიც განისაზღვრება სხვადასხვა კლასებში განხილული ამოცანისთვის. კლასიფიკაციის. მას შემდეგ რაც შემოვიყვანთ წყვილ-წყვილ კანონებს, რომლებიც აღწერს ნიშნის ვექტორის სიძლიერის განაწილებას კლასებში რიცხვებით, მაშინ ჩვენ შეგვიძლია დავაფორმოთ მითითებები გონებიდან ყველაზე ინფორმაციული ინდიკატორების შერჩევის უფრო ზოგადი პრინციპის გამოყენებით.

ყველაზე დიდი შეთანხმება მიიღწევა ბუნებრიობათა განაწილების კანონებს შორის - ინფორმაციის ტიპის (კულბაკის მოდელი, მაჰალანობისის მოდელი), ასევე ვარიაციის (მოხსენება ამ დაყოფის შესახებ).

13.1.6. ყველაზე ინფორმაციული ცვლილებების შერჩევა რეგრესიის მოდელებში (დაყოფა).

როდესაც არის რეგრესიული ტიპის შემთხვევები, ერთ-ერთი ცენტრალური არის კვების მტკიცებულება თანაბრად მცირე რაოდენობის ცვალებადობის შესახებ (აპრიორული კომპლექტისთვის, რომელიც ყველაზე ზუსტი გავლენას ახდენს შედეგად მიღებული ნიშნის ქცევაზე).

ამრიგად, როგორც პირველ აბზაცში, კლასი F შედგება ცვლადი შერჩევის სხვადასხვა სიმრავლისაგან სხვადასხვა ფაქტორ-არგუმენტებიდან და, შესაძლოა, ასეთი სიმრავლის გარე ინფორმაციის შინაარსის კრიტერიუმზე დაყრდნობით. iv. ეს ტიპი განისაზღვრება დამატებითი მრავალჯერადი განსაზღვრის კოეფიციენტით - ინდიკატორსა და ცვლადების სიმრავლეს შორის კავშირის სიხისტის ხარისხის მახასიათებლები.ამ შემთხვევაში ცვლადების ნაკრების ფიქსირებული ზომისთვის მაქსიმუმი აშკარად იქნება. გათვალისწინებული w ინფორმაციული (ინდიკატორის ქცევის აღწერის სიზუსტის თვალსაზრისით), რაც მნიშვნელოვანია ინფორმაციული შინაარსის სამყაროში ამ ეტაპზე დაქირავება მაქსიმუმს აღწევს.

კანის ბევრ სტატისტიკურ ანალიზში, ობიექტი აღწერილია ვექტორით, რომლის განზომილება საკმარისია (ან იგივეა ყველა ობიექტისთვის). პროტესტ ადამიანებს შეუძლიათ ადვილად აითვისონ როგორც რიცხვითი მონაცემები, ასევე წერტილები თვითმფრინავზე. ტრივიალურ სივრცეში დაგროვილი ქულების ანალიზი უკვე გაცილებით რთულია. შეუძლებელია დიდი ზომების მონაცემების სრულად გააზრება. აქედან გამომდინარე, სრულიად ბუნებრივია ფართომასშტაბიანი შერჩევიდან მცირე ზომის მონაცემებზე გადასვლა, რათა „მათი აღფრთოვანება შეძლოს“.

გარდა აქცენტისა, არსებობს ზომის შემცირების სხვა მოტივებიც. ის თანამდებობის პირები, რომლებიც სავარაუდოდ დაწოლავენ, არ აფასებენ სტატისტიკურ ანალიზს. პირველ რიგში, მათ შესახებ ინფორმაციის შეგროვება ხარჯავს რესურსებს. სხვაგვარად, როგორც შეგვიძლია დავასკვნათ, მათი ჩართვა ანალიზში ამცირებს სტატისტიკური პროცედურების ძალას (მოკლედ, პარამეტრის შეფასებებისა და განყოფილებების მახასიათებლების უფრო დიდი დისპერსიას). ამიტომ აუცილებელია ასეთი ფაქტორების თავიდან აცილება.

მოდი ვიმსჯელოთ, ზომების შემცირების გათვალისწინებით, რეგრესიის ანალიზის გამოყენება გაყიდვების პროგნოზირებისთვის, განხილული 3.2.3 ნაწილში. პირველი, რომლის აპლიკაციამ შეძლო დამოუკიდებელი ცვლადების რაოდენობის შემცირება 17-დან 12-მდე. წინააღმდეგ შემთხვევაში, შესაძლებელი გახდა ახალი ფაქტორის აგება - 12 გამოცნობილი ფაქტორების წრფივი ფუნქცია, რაც უფრო მოკლეა ვიდრე ყველა სხვა ხაზი. ეს ფაქტორების კომბინაცია პროგნოზირებს გაყიდვებს. მოცულობა. მაშასადამე, შეიძლება ითქვას, რომ შედეგად, მიწოდების ზომა შეიცვალა 18-დან 2-მდე. Zokrem-მა დაკარგა ერთი დამოუკიდებელი ფაქტორი (შეტანილი ქვეთავში 3.2.3 წრფივი კომბინაცია) და ერთი შემორჩენილი - ავალდებულებდა გაყიდვას.

უამრავ მონაცემთა გაანალიზებისას, დარწმუნდით, რომ შეხედეთ არა მხოლოდ ერთს, არამედ უპიროვნო ბრძანებას, მჭიდროდ, განსხვავებულად შერჩეულ დამოუკიდებელ და ძველ ცვლილებებს. ამიტომ, მოდით შევხედოთ ზომის შემცირებას მიმდინარე ფორმულაში. სამყაროს მდიდარი არჩევანია. აუცილებელია მისი გავლა უმცირესი განზომილების ვექტორების სიმრავლემდე, მაქსიმალურად შევინარჩუნოთ გამომავალი მონაცემების სტრუქტურა, თუ ეს შესაძლებელია, არ დაკარგოთ ინფორმაცია, რომელიც შეიცავს მონაცემებს. დიზაინი მითითებულია კანის საზღვრებზე, განზომილების შემცირების სპეციფიკური მეთოდის გამოყენებით.

ძირითადი კომპონენტის მეთოდიეს არის განზომილების შემცირების ერთ-ერთი ყველაზე ხშირად გამოყენებული მეთოდი. მთავარი იდეა მდგომარეობს თანმიმდევრულად იდენტიფიცირებულ მიმართულებებში, რომლებშიც მონაცემებს შეიძლება ჰქონდეს ყველაზე დიდი დისპერსია. მოდით, არჩევანი შედგებოდეს ვექტორებისგან, მაგრამ გამოყოფილი ვექტორისგან X = (x(1), x(2), … , x()). მოდით შევხედოთ ხაზოვან კომბინაციებს

(λ(1), λ(2), …, λ( )) = λ(1) x(1) + λ(2) x(2) + … + λ( )x(),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( ) = 1.

აქ ვექტორი λ = (λ(1), λ(2), …, λ( )) დაწექი ერთ სფეროზე -მშვიდი სივრცე.

ძირითადი კომპონენტების მეთოდში პირდაპირ უნდა ვიცოდეთ მაქსიმალური განაწილება, მაშინ. ასევე λ, რომლის დროსაც დაცემის მნიშვნელობის დისპერსია აღწევს მაქსიმუმს (λ) = (λ(1), λ(2), …, λ( )). მაშინ ვექტორი λ ნიშნავს პირველ სათავე კომპონენტს და მნიშვნელობას (λ) არის დაცემის ვექტორის პროექცია Xყველა პირველი ხელმძღვანელი კომპონენტისთვის.

შემდეგ, წრფივი ალგებრის ტერმინების გამოყენებით, ჩვენ ვუყურებთ ჰიპერპლანტას - მშვიდი სივრცე პერპენდიკულარულად პირველი თავის კომპონენტზე და გადაანაწილეთ შერჩევის ყველა ელემენტი ამ ჰიპერპლანეზე. ჰიპერთვითმფრინავის განზომილება არის 1 მინშა, გასასვლელი სივრცის ქვედა განზომილება.

გაანალიზებული ჰიპერპლანტისთვის პროცედურა მეორდება. არავინ იცის ყველაზე დიდი საქმე, ეს არის ის. მეგობრის თავის კომპონენტი. შემდეგ ჩანს ჰიპერთვითმფრინავი, პირველი ორი ძირითადი კომპონენტის პერპენდიკულარული. მისი განზომილება 2-ით ნაკლებია, ქვედა განზომილება არის გასასვლელი სივრცის ზომა. შემდეგი - იწყება გამეორება.

ხაზოვანი ალგებრის თვალსაზრისით საუბარია პობუდოვის ახალ საფუძველზე -მშვიდობიანი სივრცე, რომლის ძირითადი შემადგენელი ნაწილებია.

დისპერსია, რომელიც მიუთითებს ახალი თავის კომპონენტის კანზე, წინა მხარეს ნაკლები, ნაკლები. ისინი იწყებენ ჭკუას, თუ არ იღებენ საკმარის დავალებებს. რა არის შერჩეული ძირითადი კომპონენტები, რაც იმას ნიშნავს - მშვიდ სივრცეში გასვლის საშუალება მიეცა - მშვიდობიანი, მაშინ. ზომის სიმცირე -ადრე , პრაქტიკულად გამომავალი მონაცემების სტრუქტურის შეცვლის გარეშე .

მონაცემთა ვიზუალური ანალიზისთვის ხშირად გამოიყენება გამომავალი ვექტორების პროგნოზები პირველი ორი ძირითადი კომპონენტის ფართობზე. როდესაც მონაცემების სტრუქტურა აშკარად ჩანს, აშკარად ჩანს ობიექტებისა და ვექტორების კომპაქტური კლასტერები.

ხელმძღვანელი კომპონენტის მეთოდი ერთ-ერთი მეთოდია ფაქტორული ანალიზი. ფაქტორების ანალიზის სხვადასხვა ალგორითმები გაერთიანებულია იმით, რომ ისინი ყველა საჭიროებენ ახალ ბაზაზე გადასვლას გამოსავალზე. -მშვიდი სივრცე. „ფაქტორების გავლენის“ კონცეფცია მნიშვნელოვანია, რადგან იგი გამოიყენება ახალი საფუძვლიდან სიმღერის ვექტორის ფორმირებაში გამომავალი ფაქტორის (ცვლის ფაქტორის) როლის აღსაწერად.

ახალი იდეა ხელმძღვანელის კომპონენტების მეთოდის წინააღმდეგ არის ის, რომ ფუნდამენტურად მნიშვნელოვანია მოხელეთა ჯგუფების განვითარება. ფაქტორები გაერთიანდებიან ერთ ჯგუფში, რაც მსგავს ნაკადს მოახდენს ახალი ბაზის ელემენტებზე. შემდეგ, კანის ჯგუფიდან, რეკომენდებულია ერთი წარმომადგენლის ამოღება. ზოგჯერ, წარმომადგენლის არჩევის ნაცვლად, ყალიბდება ახალი ფაქტორი, რომელიც ცენტრალურია ჯგუფისთვის, რომელიც ჩანს. მოხელეთა და ჯგუფების წარმომადგენლების სისტემაზე გადასვლისას მოსალოდნელია ზომის შემცირება. სხვა ოფიციალური პირები უარს ამბობენ.

აღწერილი პროცედურა შეიძლება განვითარდეს არა მხოლოდ ფაქტორული ანალიზის დახმარებით. საუბარია ნიშნების კლასტერულ ანალიზზე (ჩინოვნიკები, გამოჩენილი პირები). ჯგუფის ნიშნის გადასაჭრელად შეგიძლიათ გამოიყენოთ კასეტური ანალიზის სხვადასხვა ალგორითმები. საკმარისია შეიყვანოთ მანძილი (სიახლოვე, მობილურობის მაჩვენებელი) ნიშნებს შორის. Წავედით Xі - ორი ნიშანი. Vіdmіnnіst (X, ) შეგიძლიათ გამოთვალოთ მათ შორის დამატებითი ნიმუშის კორელაციის კოეფიციენტების გამოყენებით:

1 (X,Y) = 1 – r n(X,Y), 2 (X,Y) = 1 - ρ (X,Y),

დე r n(X, ) – ნიმუში წრფივი პირსონის კორელაციის კოეფიციენტი, ρ (X, ) - სპირმენის რანგის კორელაციის ნიმუშის კოეფიციენტი.

მდიდარი მსოფლიო მასშტაბით. მეორე მხარეს (სიახლოვის სამყარო, მნიშვნელობის ჩვენება) (X, ) ნიშნებს შორის Xі მდიდარი მასშტაბის სკალირების მეთოდების დიდი კლასის საფუძვლები. ამ კლასის მეთოდების მთავარი იდეაა კანის ობიექტის აღწერა, როგორც გეომეტრიული სივრცის წერტილი (გამოთვალეთ ზომები 1, 2 ან 3), რომელთა კოორდინატები ემსახურება არსებობის (ლატენტური) ფაქტორების მნიშვნელობას, რომლებიც ერთად შეუძლია ადეკვატურად აღწეროს ობიექტი. ამ შემთხვევაში, ობიექტებს შორის ხაზები იცვლება ხაზებით წერტილებს შორის - მათი წარმომადგენლები. ასე რომ, მონაცემები ობიექტების მსგავსების შესახებ - წერტილებს შორის მანძილები, მონაცემები უპირატესობის შესახებ - წერტილების ურთიერთბრუნვა.

პრაქტიკაში, არსებობს სხვადასხვა მასშტაბის მასშტაბის სხვადასხვა მოდელის რაოდენობა. ყველა მათგანის წინაშე დგას ფაქტორული სივრცის ნამდვილი ზომის შეფასების პრობლემა. მოდით შევხედოთ ამ პრობლემას ობიექტების მსგავსების შესახებ მონაცემების დამუშავების კონტექსტში მეტრიკული სკალირების გამოყენებით.

Გაუშვი ობიექტები შესახებ(1), შესახებ(2), …, (), კანის წყვილი საგნებისთვის შესახებ(მე), () მითითებულია მათი მსგავსების სამყარო (მე, ). ჩვენ ამას ვაფასებთ პირველ რიგში (მე, ) = (, მე). ნომრის გადახტომა (მე, ) არ აქვს მნიშვნელობა რობოტული ალგორითმის აღწერისთვის. სუნი შეიძლება აღმოიფხვრას ან პირდაპირი ჩაქრობით, ან სხვადასხვა ექსპერტების გამოყენებით, ან აღწერითი მახასიათებლების მთლიანობის გამოთვლით, ან სხვაგვარად.

ევკლიდეს სივრცეში ჩანს ობიექტები შეიძლება წარმოდგენილი იყოს კონფიგურაციით წერტილი, და როგორც წარმომადგენლობითი წერტილების სიახლოვის სამყარო, ჩნდება ევკლიდური ხაზი (მე, ) სხვადასხვა წერტილებს შორის. მსგავსების ხარისხი ობიექტების სიმრავლესა და წერტილთა სიმრავლეს შორის, რომელიც წარმოადგენს მათ, მითითებულია მსგავსების მატრიცის შექმნის გზით || (მე, )|| და ადექი || (მე, )||. მეტრული მსგავსების ფუნქციონალი ასე გამოიყურება:

გეომეტრიული კონფიგურაცია უნდა შეირჩეს ისე, რომ S ფუნქციონალობამ მიაღწიოს ყველაზე დაბალ მნიშვნელობას.

პატივისცემა.არამეტრულ შკალაში, მიდგომების სიახლოვის, სიახლოვისა და გარეგნობის ნაცვლად, სიახლოვე მოწესრიგებულია სიახლოვესთან მიდგომების არარსებობით და სხვა გარეგნობის არარსებობით. ფუნქციონირების შემცვლელი გამოყენებულია Spearman-ისა და Kenndal-ის რანგის კორელაციის კოეფიციენტების ანალოგები. სხვა სიტყვებით რომ ვთქვათ, არამეტრული მასშტაბი გამოდის იმ დაშვებიდან, რომ სამყარო ახლოსაა რიგით სკალასთან.

შეიძლება ევკლიდეს სივრცეს ჰქონდეს ზომები . მოდით შევხედოთ ჭრილის შუა კვადრატის მინიმუმს

,

მინიმუმ, მიიღეთ ყველა შესაძლო კონფიგურაცია მიუთითეთ -მშვიდობიან ევკლიდეს სივრცამდე შეიძლება აჩვენოს, რომ მინიმალური ანალიზის მიღწევა შესაძლებელია ნებისმიერი კონფიგურაციით. ცხადია, რომ ზრდასთან ერთად α m-ის მნიშვნელობა იცვლება მონოტონურად (უფრო ზუსტად, არ იზრდება). შეგიძლია აჩვენო რა > - 1 მოგება უდრის 0-ს (როგორც (მე, ) – მეტრიკა). ლოკალური ინტერპრეტაციის შესაძლებლობების გასაზრდელად, მნიშვნელოვანია, რომ ვიმოქმედოთ ალბათ ყველაზე მცირე განზომილებების სივრცეში. თუმცა, განზომილება უნდა შეირჩეს ისე, რომ წერტილები წარმოადგენდეს ობიექტებს დიდი დაბნეულობის გარეშე. პრობლემა არის კვება: როგორ ოპტიმალურად ავირჩიოთ ზომა, მაშინ. ბუნებრივი რიცხვი ?

მონაცემების დეტერმინისტულ ანალიზს შორის კვების, სიმღერის კვალი არ არის. ამიტომ აუცილებელია α m-ის ქცევის შესწავლა ამ და სხვა საერთაშორისო მოდელებიდან. სადაც სამყარო ახლოსაა (მე, ) არის ცვლადი მნიშვნელობები, რომელთა დაყოფა დევს „ნამდვილ განზომილებაში“ 0 (და, შესაძლოა, ნებისმიერი პარამეტრიდან გამომდინარე), მაშინ შეგიძლიათ დააყენოთ საკუთარი შეფასებები კლასიკური მათემატიკურ-სტატისტიკური სტილით 0, მოძებნეთ შესაძლო შეფასებები და ა.შ.

აუცილებლად იქნება უფრო ინოვაციური მოდელები. მისაღებია, რომ ობიექტები განზომილებების ევკლიდეს სივრცეში ლაქებია , დე დაასრულე ველოსიპედი. ვისაც "სწორი ზომა" უძველესია 0 ნიშნავს, რომ ყველა წერტილი დევს განზომილების ჰიპერსიბრტყეზე 0 . მნიშვნელოვნებისთვის მიღებულია, რომ დათვალიერებული წერტილების მთლიანობა არის არჩევანი წრიული ნორმალური განაწილებიდან σ 2 (0) დისპერსიით. ეს ნიშნავს, რომ ობიექტი შესახებ(1), შესახებ(2), …, (є ერთობლივად დამოუკიდებელი და დაცემის ვექტორები, რომელთაგან თითოეული იქნება ζ(1) მსგავსი. (1) + ζ(2) (2) + … + ζ( 0)( 0), დე (1), (2), … , ( 0) – ქვესივრცის განზომილების ორთონორმალური საფუძველი 0 , რომელშიც დევს წერტილები, რომლებიც განიხილება, და ζ(1), ζ(2), … , ζ( 0) - დამოუკიდებელი ერთგანზომილებიანი ნორმალური მნიშვნელობების აგრეგატში მათემატიკური გამოთვლებით) და დისპერსიით σ 2 (0).

მოდით შევხედოთ ინტიმური სამყაროს აღბეჭდვის ორ მოდელს (მე, ). პირველი მათგანი (მე, ) ვრცელდება ევკლიდეს მანძილიდან დამაკავშირებელ წერტილებს შორის კარებისკენ მიმართული წერტილების გავლით. Წავედით (1),(2), … , () - წერტილებს დახედა. თოდი

(მე, ) = ((მე) + ε( მე), () + ε( )), მე, = 1, 2, … , ,

დე - ევკლიდეს მანძილი წერტილებს შორის -მსოფლიო სივრცე, ვექტორები ε(1), ε(2), … , ε( ) წარმოადგენს შერჩევას წრიული ნორმალური ქვეგანყოფილებიდან -მშვიდობიანი სივრცე ნულოვანი მათემატიკური გამოთვლებით და კოვარიანტული მატრიცით σ 2 (1) მე, დე მე- პირადობის მატრიცა. სხვა სიტყვებით რომ ვთქვათ, ε( მე) = η(1) (1) + η(2) (2) + … + η( )(), დე (1), (2), …, () – ორთონორმალური საფუძველი y -მშვიდი სივრცე და (η( მე, ), მე= 1, 2, ..., n, = 1, 2, …, k) - დამოუკიდებელი ერთგანზომილებიანი ცვლადის მნიშვნელობების მთლიანობა ნულოვანი მათემატიკური გამოთვლებით და დისპერსიით σ 2 (1).

სხვა მოდელს აქვს გადაფარვა უშუალოდ თავად ამწეებზე:

(მე, ჯ) = ((მე), ()) + ε( მე, ჯ), მე, ჯ = 1, 2, … , , მე,

დე (ე( მე, ), მე, = 1, 2, … , ) - დამოუკიდებელი ნორმალური ცვლადი მნიშვნელობების აგრეგატში მათემატიკური გამოთვლებით) და დისპერსიით σ 2 (1).

რობოტი აჩვენებს, რომ მოდელების ორივე ფორმულირებისთვის, ნარევის საშუალო კვადრატის მინიმუმი α m at → ∞ მშვენივრად ემთხვევა

() = 1 () + σ 2 (1)( ), = 1, 2, …, ,

ამ გზით, ფუნქცია () არის წრფივი ინტერვალებზე და , ხოლო პირველ ინტერვალზე ის სულ უფრო და უფრო მცირდება მეორეზე. ვარსკვლავი ანათებს სტატისტიკის გამო

ჭეშმარიტი განზომილების შესაძლო შეფასებით 0 .

ასევე, ძალიან ყოვლისმომცველი თეორიიდან მოდის რეკომენდაცია - როგორ შევაფასოთ ფაქტორული სივრცის ზომა ვიკორიზებისთვის *. მნიშვნელოვანია, რომ ასეთი რეკომენდაცია ევრისტიკულად ჩამოაყალიბა მდიდარი მსოფლიო მასშტაბის ერთ-ერთმა ფუძემდებელმა ჯ. კრუსკალმა. ეს მომდინარეობს სკალირებისა და გაანგარიშების ექსპერიმენტების ფართო სპექტრის პრაქტიკული მტკიცებულებიდან. საერთაშორისო თეორიამ საშუალება მოგვცა დაგვეფუძნებინა ეს ევრისტიკული რეკომენდაცია.

წინა

მე-5 თავის მასალის შესწავლის შედეგად მეცნიერი დამნაშავეა:

თავადაზნაურობა

  • ძირითადი ცნებები და ზომების შემცირება:
  • ნიშანთა სივრცის გარდაქმნის პრობლემების გადაჭრის მიდგომა;

დაასველეთ იგი

  • სტანდარტიზებულ ორთოგონალურ ნიშნებზე გადასვლის ძირითადი კომპონენტების ვიკორისტოვატი მეთოდი;
  • შეაფასოს მონაცემების საინფორმაციო შინაარსის ცვლილებები ნიშანთა სივრცის ზომის შემცირების გამო;
  • შეასრულოს ობიექტების თვალთვალის ოპტიმალური მდიდარი მასშტაბების შექმნა;

ვოლოდია

  • სტატისტიკური ანალიზის ყველაზე გამოყენებული ამოცანების ზომის შემცირების მეთოდები;
  • ტრანსფორმირებული ნიშნის სივრცეში ცვლილებების ინტერპრეტაციის უნარები.

ძირითადი ცნებები და ზომის შემცირება

ერთი შეხედვით, რაც მეტი ინფორმაცია იქნება გამოძიების ობიექტებზე, რაც უფრო სრულყოფილი იქნება მათთვის დამახასიათებელი ნიშანი, მით უკეთესი იქნება მოდელის შესაქმნელად. თუმცა, ინფორმაციის გადატვირთვამ შეიძლება გამოიწვიოს მონაცემთა ანალიზის ეფექტურობის შემცირება. აქედან წარმოიშვა ტერმინი "სიდიდის წყევლა" (განზომილების კურსი), რომელიც ახასიათებს რობოტების პრობლემებს დიდი მოცულობის მონაცემებით. ამ და სხვა ფორმების ზომის შემცირების აუცილებლობა დაკავშირებულია სხვადასხვა სტატისტიკური პრობლემების წარმოშობასთან.

არაინფორმაციული ნიშნები იწვევს დამატებით ხმაურს და გავლენას ახდენს მოდელის პარამეტრების შეფასების სიზუსტეზე. გარდა ამისა, სიმბოლოების დიდი რაოდენობის მქონე მონაცემთა ნაკრებებს შეუძლიათ გადაფარონ ცვლადების ჯგუფები, რომლებიც დაკავშირებულია. ნიშნების ასეთი ჯგუფების არსებობა ნიშნავს ინფორმაციის დუბლირებას, რომელსაც შეუძლია მხარი დაუჭიროს მოდელის სპეციფიკაციას და მისი პარამეტრების შეფასებას. რაც უფრო დიდია მონაცემების ზომა, მით უფრო დიდია გაანგარიშების სირთულე ამ ალგორითმული დამუშავების გამოყენებით.

ნიშნების სივრცის განზომილების შემცირების ორი მიმართულება შეიძლება დაინახოს შემდეგი ცვლილებების პრინციპზე დაყრდნობით: ნიშნის შერჩევა აშკარა გამომავალი კომპლექტიდან და ახალი ნიშნების ფორმირება საწყისი მონაცემების გარდაქმნით. იდეალურ შემთხვევაში, მონაცემთა შემცირებული პრეზენტაცია განპირობებულია მონაცემთა ზომით, რაც მიუთითებს მონაცემთა შიდა სიმძლავრის ზომაზე. (შიდა განზომილება).

ყველაზე ინფორმაციული ნიშანი, რომელიც ახასიათებს დაკვირვებულ ფენომენს, არის პრობლემის განზომილების აშკარა პირდაპირი შემცირება, რაც არ საჭიროებს გამომავალი ცვლილებების ტრანსფორმაციას. ეს საშუალებას გაძლევთ შექმნათ უფრო კომპაქტური მოდელი და აღმოფხვრათ დაბალი ინფორმაციულ ნიშნებთან დაკავშირებული ხარჯები. ინფორმაციული სიმბოლოების შერჩევა ეფუძნება ყველა გამომავალი ცვლადის უმცირესი ქვეჯგუფის ძიებას. „საუკეთესო“ ცნების კრიტერიუმი შეიძლება იყოს ან მოდელირების ინტენსივობის აღმოჩენა ნიშანთა სივრცის მოცემული განზომილებისთვის, ან მონაცემთა უმცირესი განზომილება, თუ ეს შესაძლებელია, მოცემული განზომილების მოდელი.

უშუალოდ ულამაზესი მოდელის შექმნის უმაღლესი დონე დაკავშირებულია ყველა შესაძლო ნიშნის ძიებასთან, რაც უკიდურესად რთულად ითვლება. ამიტომ, როგორც წესი, ისინი მიდიან ნიშნების პირდაპირ და საპირისპირო შერჩევაში. პირდაპირი შერჩევის პროცედურებში, გამომავალი ნაკრების ცვლილებების თანმიმდევრული დამატება ხორციელდება მოდელის საჭირო ზომის მიღწევამდე. გამომავალი ნიშნის სივრცის შემდგომი შემცირების ალგორითმები (კარიბჭის შერჩევა) თანდათან უნდა ამოიღონ ყველაზე ნაკლებად ინფორმაციული ცვლილებები მოდელის ინფორმაციის შინაარსის მისაღები შემცირებამდე.

გთხოვთ გაითვალისწინოთ, რომ ნიშნის საინფორმაციო შინაარსი მნიშვნელოვანია. შერჩევა პასუხისმგებელია ნიშანთა ნაკრების მაღალი საინფორმაციო შინაარსის უზრუნველსაყოფად და არა საწყობის მთლიანი ინფორმაციის შინაარსის ცვლილებაზე. ამრიგად, ნიშანს შორის კორელაციის მტკიცებულება ამცირებს მათ ფარული ინფორმაციის შინაარსს ფარული ინფორმაციის დუბლირების გამო. ამიტომ, უკვე შერჩეულებში ახალი ნიშნის დამატება უზრუნველყოფს ინფორმაციის შინაარსის ზრდას ამ სამყაროში, რომელშიც შესაძლებელია შესაბამისი ინფორმაციის განთავსება, რაიმე ცვლილებამდე რამდენიმე დღით ადრე. უმარტივესი სიტუაციაა ორთოგონალური სიმბოლოების შერჩევა, რომელშიც შერჩევის ალგორითმი ხორციელდება უკიდურესად მარტივად: ცვლადები რეიტინგულია ინფორმაციის შინაარსისთვის და ვიკორისტი იყენებს ამ რეიტინგში პირველი ნიშნების ისეთ საწყობს, რომელიც უზრუნველყოფს მითითებულ ინფორმაციის შინაარსს. .

ნიშნების შერჩევის მეთოდების კომბინაცია სივრცის ზომის შემცირების მეთოდთან ასოცირდება გამომავალ მონაცემებში აუცილებელი ნიშნების აბსოლუტური არსებობის შესახებ ვარაუდებთან, რაც ხშირად არასწორი აღმოჩნდება. ზომის შემცირების ალტერნატიული მიდგომა გადასცემს მალსახმობების ნიშნის ტრანსფორმაციას ახალი ცვლილებების სიმრავლეში. გამომავალი ნიშნების შერჩევის გარდა, ახალი ნიშნის სივრცის ფორმირება გადასცემს ახალი ცვლილებების შექმნას, რაც გამომავალი ნიშნების ფუნქციებია. იმ ცვლილებებს, რომლებიც ყოველთვის ფრთხილად არ არის, ხშირად თაყვანისმცემლებს უწოდებენ ან ლატენტური.შექმნის პროცესში ცვლილებები შეიძლება დაჯილდოვდეს სხვადასხვა ძალებით, როგორიცაა ორთოგონალურობა. ფაქტობრივად, გამომავალ ნიშნებს აქვთ ურთიერთდამოკიდებულება, ამიტომ მათი სივრცის ორთოგონალურად ტრანსფორმაცია წარმოქმნის ახალ კოორდინატ-ნიშნებს, რომლებსაც აქვთ ობიექტის თვალთვალის შესახებ ინფორმაციის დუბლირების მუდმივი ეფექტი.

ობიექტების ჩვენება ახალ ორთოგონალურ ნიშნის სივრცეში შესაძლებელს ხდის კანის ნიშნის ფერის ნათლად იდენტიფიცირებას ამ ობიექტებს შორის განსხვავების დათვალიერებით. ვინაიდან ახალი ბაზის კოორდინატები მოწესრიგებულია დისპერსიით, რომელიც ახასიათებს მნიშვნელობის გავრცელებას მათზე ფრთხილად ანალიზისთვის, აშკარა ხდება, რომ პრაქტიკული თვალსაზრისით არ არის საჭირო რაიმე ნიშნები მცირე დისპერსიული მნიშვნელობებით, ვინაიდან ამ ნიშნების მიღმა არსებული ობიექტები პრაქტიკულად უხილავია და მათი მოვალეობების შესაბამისად ცვალებადია. ასეთ ვითარებაში შეიძლება ვისაუბროთ გამომავალი ნიშნის სივრცის ე.წ ამ სივრცის მნიშვნელოვანი და რეალური ზომა შესაძლოა შაბათ-კვირას ნაკლები (მ< ).

p align="justify"> ნიშნის სივრცის შემცირებას თან ახლავს მონაცემთა საინფორმაციო შინაარსის შემდგომი შემცირება, წინააღმდეგ შემთხვევაში დასაშვები შემცირების დონე შეიძლება იყოს მნიშვნელობებში მოგვიანებით. ხილული ნიშანი ასახავს გამომავალი ცვლადების ერთობლიობას მცირე ზომის სივრცეში. ნიშნების სივრცის ორ-სამგანზომილებიან სივრცეში შეკუმშვა შეიძლება სასარგებლო იყოს მონაცემების ვიზუალიზაციისთვის. ამრიგად, ახალი ნიშნის სივრცის ფორმირების პროცესი მიზნად ისახავს რეალურად ინფორმაციული ცვლილებების უფრო მცირე კომპლექტს. მათ საფუძველზე შეიძლება შემუშავდეს უფრო მკაფიო მოდელი, რადგან ის დაფუძნებულია ყველაზე ინფორმაციული ნიშნების უფრო მცირე რაოდენობაზე.

გამომავალი vikorista-ზე დაფუძნებული ახალი ცვლილებების ფორმირება გამოიყენება ლატენტური სემანტიკური ანალიზისთვის, მონაცემთა შეკუმშვისთვის, სურათების კლასიფიკაციისა და ამოცნობისთვის, განვითარების პროცესების სითხისა და ეფექტურობის გაზრდისთვის. ეს მონაცემები უნდა შეგროვდეს შემდგომი ანალიზისა და მოდელირებისთვის.

ნიშანთა სივრცის ტრანსფორმაციისა და განზომილების შემცირების ერთ-ერთი მნიშვნელოვანი დამატება არის სინთეზური ლატენტური კატეგორიების გაჩენა, რომელიც დაფუძნებულია შემორჩენილ მნიშვნელობებზე. ეს ფარული ნიშნები შეიძლება ახასიათებდეს დევნილი ყუთის საიდუმლო სიმღერებს, რომლებიც აერთიანებს ობიექტების კერძო ავტორიტეტებს, რომლებიც ფრთხილობენ იმის გამო, თუ რა საშუალებას აძლევს არსებობდეს სხვადასხვა ქვეყნის განუყოფელი ინდიკატორები განახლებული ინფორმაციისგან.

ნიშანთა სივრცის შემცირების მეთოდების არსებითი როლი გამოკვლეულ პრობლემაში არის ინფორმაციის დუბლირება გამომავალ ნიშნებში, რაც იწვევს რეგრესიის მოდელების კოეფიციენტების შეფასებების დისპერსიის „გადიდებას“. გადასვლა ახალ, იდეალურად ორთოგონალურ და ალტერნატიულად ინტერპრეტაციად, ცვალებადი და ეფექტურ გზებზე გამომავალი მონაცემების მულტიკოლინეარობის მოდელირების გათვალისწინებით.

გამომავალი ნიშნის სივრცის ორთოგონალურ ტრანსფორმაციას ხელით კლასიფიკაციის უმაღლესი სპეციფიკაციისთვის, რაც საშუალებას გაძლევთ დააყენოთ შესასვლელი წერტილები სიახლოვეს ან ობიექტების ხილვადობა, როგორიცაა ევკლიდეს ხაზის ან კვადრატის დაყენება. რეგრესიის ანალიზში, რეგრესიის დონე თავის კომპონენტებზე საშუალებას გვაძლევს გადავჭრათ მულტიკოლინალურობის პრობლემა.