მონაცემთა ანალიზი და ურთიერთდაკავშირების მოდელირება R. R-ანალიზში, ან კრიტერიუმების მისაღები მიდგომები ლაბორატორიული სამუშაო r მონაცემთა ანალიზი

მონაცემების ანალიზი შუა რ

გამოთვლითი მათემატიკისა და საინფორმაციო ტექნოლოგიების ინსტიტუტი მონაცემთა ანალიზისა და კვლევის ოპერაციების დეპარტამენტი


პირდაპირ
: 01.03.02 "გამოყენებითი მათემატიკა და კომპიუტერული მეცნიერება. სისტემური პროგრამირება" (ბაკალავრიატი, მე-3 კურსი)

დისციპლინა: "მონაცემების ანალიზი შუა R-დან"

საწყისი გეგმა: "Ochne navchannya, 2017."

წლების რაოდენობა: 90 (მათ შორის: ლექცია – 18, ლაბორატორიული გაკვეთილი – 36, დამოუკიდებელი სამუშაო – 36); კონტროლის ფორმა - ზალიკი.

პირდაპირ: 38/03/05 "ბიზნეს ინფორმატიკა" (ბაკალავრიატი, მე-4 კურსი)

დისციპლინა: "Მონაცემთა ანალიზი"

საწყისი გეგმა: ”ძალიან კარგი, 2018 წელი.”

წლების რაოდენობა: 78 (მათ შორის: ლექცია – 18, ლაბორატორიული გაკვეთილი – 36, დამოუკიდებელი სამუშაო – 24); კონტროლის ფორმა - ზალიკი.


საკვანძო სიტყვები
: მონაცემთა მოპოვება, მანქანათმცოდნეობა, რეგრესია, კლასიფიკაცია, კლასტერიზაცია, მხარდაჭერის ვექტორი, SVM, ხელოვნური ნეიტრონი, ნერვული ქსელი, სარეკომენდაციო სისტემა, მონაცემთა ანალიზი, მანქანათმცოდნეობა, მოდელი, შერჩევა, მოდიფიკაცია, შერჩევა, ხელახალი შერჩევა, ტრენინგი მასწავლებელთან, ტრენინგი წამკითხველის გარეშე, პაკეტი R, ენის პროგრამირება R, სტატისტიკა, რანდომიზებული მნიშვნელობა, r.v., გაყოფის კანონი, ნორმალური გაყოფა, შერჩევა, სტატისტიკა, მაქსიმალური ალბათობის მეთოდი, Chi-კვადრატის გაყოფა, სტუდენტის დაყოფა, ფიშერის დაყოფა, ჰიპოთეზა, მიმღების არეალის ჰიპოთეზები , მნიშვნელობის დონე, პირველი და მეორე სახის შედარება, ნიმუშების გათანაბრება, კრიტერიუმები ერთი და იგივე წლისთვის, მნიშვნელობის ცხრილი, კორელაცია, რეგრესია, წრფივი რეგრესია, არაწრფივი რეგრესია, ფაქტორი, პროგნოზირებადი, ერთვარიანტული რეგრესია, მრავალჯერადი რეგრესია, კლასიფიკაცია, რეგრესია . მიდგომა, გულუბრყვილო ბეისი, დამხმარე ვექტორული მანქანა, გამყოფი ჰიპერპლანი, გადაწყვეტილების ხე, ნერვული ქსელი, ნეირონი, აქტივაციის ფუნქცია, სარეკომენდაციო სისტემა, კლასტერირება, ფუნქციონალური დაძაბულობა.

იმათ: 1. განვითარების შუალედი R: ისტორიის შეჯამება. პაკეტის ინსტალაცია და გაშვება. 2. პროგრამირებადი R. first kroki-ზე. 3. ყოველდღიური განრიგი R. 4. მონაცემების შეყვანა ფაილებთან R. 4.1. მუშაობა ერთგანზომილებიან მონაცემთა ნაკრებებთან. 4.2. მატრიცებთან და მონაცემთა ცხრილებთან მუშაობა. 5. რ-ის სტატისტიკური ჰიპოთეზების შემოწმება 5.1. საკმარისი სიდიდის ალბათობის განაწილების კანონის შესახებ ჰიპოთეზის ხელახალი გადამოწმება (პირსონის Chi-square ტესტი). 5.2. ნიშნების მკაფიო დაჯგუფებისგან დამოუკიდებლობის შესახებ ჰიპოთეზის შემოწმება (პირსონის Chi-square ტესტი). 5.3. ნორმალური პოპულაციების მათემატიკური გამოთვლების თანასწორობის შესახებ ჰიპოთეზის გადამოწმება (სტუდენტის t-ტესტი). 5.4. ნორმალური პოპულაციების დისპერსიის თანასწორობის შესახებ ჰიპოთეზის გადამოწმება (ფიშერის კრიტერიუმი). 6. შემთხვევითი ერთფაქტორიანი ხაზოვანი რეგრესიის მოდელის მომზადება. პროგნოზირება. 7. მდიდარი ხაზოვანი რეგრესიის წარმოშობა. 7.1. ცალმხრივი ხაზოვანი რეგრესიის გამოყენება, როგორც მრავალჯერადი რეგრესიის გვერდითი ეფექტი. 7.2. ცვალებადი ქცევის მნიშვნელობის გამოკვლევა, როგორც ფაქტორი რეგრესიის მოდელში. 8. განსაზღვრული კლასიფიკაცია, მიდგომა ზევით. 8.1. ლოგისტიკური რეგრესია. 8.2. ხაზოვანი დისკრიმინაციული ანალიზი. 8.3. ხის გადაწყვეტილება არის „გათიშე და იბატონე“ პრინციპი. 9. ნერვული ქსელები (ნერვული ქსელები) და მათი სტაზირება მანქანათმცოდნეობაში. 10. დამხმარე ვექტორული მანქანები, დამხმარე ვექტორული მანქანები (SVM) მანქანით ისწავლება. 11. სარეკომენდაციო სისტემები („სარეკომენდაციო სისტემა“), მათი მნიშვნელობა, წახალისება, სტასი. 12. მანქანათმცოდნეობის სპეციალური დარგები.


პირველი გამოყენების თარიღი: 2014 წლის 1 გაზაფხული
  • მისაროვი მუკადას დმუხთასიბოვიჩი, ხელმძღვანელი. KFU ოპერაციების მონაცემთა ანალიზისა და კვლევის დეპარტამენტი, ფიზიკა-მათემატიკის მეცნიერებათა დოქტორი, პროფესორი, ელ. [ელფოსტა დაცულია]
  • კაშინა ოლგა ანდრიივნა, დოქტორი, მონაცემთა ანალიზისა და ოპერაციების კვლევის დეპარტამენტის ასოცირებული პროფესორი, ელფოსტა: [ელფოსტა დაცულია]

დოზით ხშირად ვირობნიჩი პროცესები მოითხოვს კონტროლს, რომელიც არ არის დაკავშირებული ვიმირებთან. ამის მრავალი მიზეზი არსებობს, მაგალითად, პარამეტრების მნიშვნელობა, რომლებიც წინასწარ არ შეიძლება შეიცვალოს ან შეიცვალოს, მაგრამ ამავდროულად პარამეტრებს ადვილად განსაზღვრავს მომზადების მოწინავე ეტაპის მქონე ადამიანი.

გაარკვიეთ, რომ ყიდულობთ ორიგინალურ შავ ფეხსაცმელს. თქვენ გადაწყვიტეთ მოდელი, სცადეთ წყვილი - ეს მოგეწონათ. რას გააკეთებთ, რომ გაიზარდოთ თქვენი პატივისცემა შესყიდვის დაწყებამდე?

  • რა თქმა უნდა, თქვენ გინდათ, რომ თქვენი ფეხსაცმელი თანაბრად იყოს შეღებილი;
  • დარწმუნდით, რომ მარჯვენა ფეხსაცმლის ფერი ემთხვევა მარცხენას ფერს;
  • თვალსაჩინო ნაწილზე ყოველდღიური უხეში ნაწნავები იყო;
  • დარწმუნდით, რომ ძირის ნაკერი თანაბარია;

მნიშვნელოვანია ვიცოდეთ, რომ იქნება ფეხსაცმლის ხარისხის კონტროლის ავტომატური მოწყობილობები, რათა შეფასდეს ყველა მითითებული პუნქტი, რაც გამოიწვევს პროდუქციის ფასის მნიშვნელოვან ზრდას. მეორეს მხრივ, რადგან საშუალო მყიდველი აფასებს ფეხსაცმლის ხარისხს „ერთი შეხედვით“, მაშინ სავსებით ლოგიკური იქნებოდა საწარმოში ასეთი კონტროლის იმიტაციის შემოღება და ამან შეიძლება მთლიანად ჩაანაცვლოს ათეული ძვირადღირებული მოწყობილობა, რომელიც დააფასებს სხვა კრიტერიუმების სია. ამ შემთხვევაში კონტროლერს, რომელიც აფასებს ფეხსაცმლის წარმოების ხარისხს, შეუძლია ვიმირივალი სისტემის როლი შეასრულოს.

მაგრამ ჩვენ არ უნდა დავივიწყოთ ასეთი პრაქტიკოსის მომზადება და ტვინის ნაბიჯები, რაშიც ის არის დამნაშავე. ამის გარეშე, ინსპექტორი შეაფასებს პროდუქტის ხარისხს, კონკრეტული გაზომვებისა და მოსაზრებების საფუძველზე. შეაფასეთ რამდენად კარგად ურთიერთქმედებს კონტროლერი ვირტუალიზაციის სისტემის რობოტთან, რაც შესაძლებელს ხდის Gage R&R-ის მიკუთვნებას.

Attribute Gage R&R ან Attribute Agreement Analysis სპეციალურად შემუშავებულია ვიბრაციული სისტემების შესაფასებლად, რომელიც მოიცავს ვიბრაციული ხელსაწყოს გამოყენებას, თუ ოპერატორები თავად განსაზღვრავენ ვირუსების სიცოცხლისუნარიანობას ვიზუალურად ან კონკრეტული კრიტერიუმის მიხედვით (უხეში ქინძის არსებობა ფეხსაცმლის ხილული ნაწილი). რა თქმა უნდა, შეუძლებელია ასეთ სახეობებს რიცხვითი მახასიათებლის მინიჭება. ვირუსებს, რომლებიც გადამოწმებულია, ენიჭება ატრიბუტი: „კარგი“ - „ბინძური“, „კარგი“ - „არ არის მიმაგრებული“ და ა.შ. ამ ტიპის ანალიზი ასევე შეიძლება გამოყენებულ იქნას ხარისხობრივი შეფასებისთვის: "შესანიშნავი" - "კარგი" - "კმაყოფილი" - "არადამაკმაყოფილებელი" ან დეფექტების სიმძიმისა და რაოდენობის შესაფასებლად.

მეტაანალიზი მიზნად ისახავს ოპერატორების მსჯელობების სტანდარტთან სიახლოვის და ოპერატორების (წინა განსჯის ჩათვლით) მსგავსების შეფასებას. ამგვარად, ანალიზის შედეგი მიუთითებს იმაზე, თუ რამდენად ახლოს არის ვირტუალიზაციის სისტემის შედეგები სტანდარტულ კრიტერიუმებთან და რამდენად შეესაბამება ოპერატორები მათი განსჯისთვის. რომ შეგიძლიათ ენდოთ კონტროლერების ხარისხს.

მაგალითები, რომლებისთვისაც შეიძლება გამოყენებულ იქნას Gage R&R ატრიბუტის ანალიზი:

  • კარგი მაგალითი იქნება კონტაქტური ლინზების წარმოების პროცესი. მიუხედავად იმისა, სხეული ოპტიკურია თუ სხვაგვარი, ბევრი აბერაციაა, მაგრამ ყველა მათგანი არ ჩანს ადამიანის თვალით. კანის ლინზა გადის საბოლოო ძვლის კონტროლს: ოპერატორ-კონტროლერი ვიზუალურად აფასებს დეფექტების/შეგუბების არსებობას სპეციალური წნევის საფენის გამოყენებით. Attributed Gage R&R შეიძლება დაექვემდებაროს დაყოვნებას იდენტიფიკაციისთვის, რადგან კარგ ინსპექტორს შეუძლია დაადგინოს ლინზის დეფექტები, რათა შეაფერხოს შემოწმება.
  • კიდევ ერთი აპლიკაცია შეიძლება იყოს ფარმაცევტულ წარმოებაში ტაბლეტების მთლიანობის შემოწმება. მთლიანობის კონტროლს ასევე ახორციელებს ადამიანი, რომელიც ამოწმებს ბლისტერს ერთი საათის განმავლობაში, რომელიც იტევს 2000-მდე ტაბლეტს. ამ შემთხვევაში განსხვავება არის თესლში დეფექტების ან დეფექტური ბაქტერიების გამოვლენა.

ტაბლეტების აპლიკაციაში, ოპერატორს შეუძლია განაჩენი წარმოადგინოს ორობითი ფორმით: "გაიარე" - "არ გაიაროს", მაგრამ გამოთქმის სპეციფიკიდან გამომდინარე, ტიპები შეიძლება იყოს განსხვავებული ფორმით. მაგალითად, 2-მდე ცუდი ტაბლეტი - "შესანიშნავი", 5-მდე - "დამაკმაყოფილებელი", 20-მდე - "არადამაკმაყოფილებელი", 20-ზე მეტი - "კრიტიკული" ან შეფასება 1-დან 5-მდე მასშტაბით.

მოდით შევხედოთ ატრიბუტიული Gage R&R-ის ანალიზს Minitab-ის სტატისტიკურ პაკეტში ტაბლეტების გამომუშავების კონტროლის გამოყენებაში.

ანალიზის დროს შეფასდა სამი ოპერატორი, რომლებიც ამოწმებდნენ დღეში 20 ტაბლეტს. ტაბლეტების თვისებები განისაზღვრა ბზარების და სხვა დეფექტების არსებობის სტანდარტული კრიტერიუმების მიხედვით.

Განხორციელება ატრიბუტების შეთანხმების ანალიზი(მიეკუთვნება Gage R&R), აირჩიეთ სტატისტიკა > ხარისხის ინსტრუმენტები > ატრიბუტების შეთანხმების ანალიზი:

Პატარა 1: კონფიგურაციის ფანჯარა ატრიბუტების შეთანხმების ანალიზი

პროგრამის დიალოგურ ფანჯარაში არის სვეტები, რომლებიც მიუთითებენ ოპერატორებს, გამონათქვამებსა და შერჩევის შედეგებს - ატრიბუტებს, როგორც ნაჩვენებია დიაპაზონში 1. კულისებში ნაჩვენები იყო გამონათქვამების სწორი ატრიბუტები - რომელშიც სვეტი შეიყვანეთ "სტანდარტი". "სვეტი" ველში "ცნობილი სტანდარტული ატრიბუტი", როგორც ნაჩვენებია დიაპაზონში 2.

    ანალიზი შეიძლება ჩატარდეს ნიმუშების ატრიბუტების ცოდნის გარეშე ან ექსპერიმენტის გამეორების გარეშე ორ საგანში. პირველ შემთხვევაში არ დადგინდება, რამდენად ახლოს არიან ოპერატორები სტანდარტთან, ხოლო მეორეში რამდენად ახლოს არიან ოპერატორები სტანდარტებთან.

ანალიზის შედეგების სანახავად დააჭირეთ ღილაკს "OK":


სურათი 2: ანალიზის შედეგები გრაფიკულ ხედში

In In Appraiser დიაგრამა აჩვენებს ასობით ოპერატორს წინა ხაზზე დანიშვნებით. დიაგრამა გამოჩნდება მხოლოდ იმ შემთხვევაში, თუ ოპერატორმა შეაფასა სურათი ორჯერ ან მეტჯერ, რათა მონაცემები ხელმისაწვდომი იყოს შედარებისთვის. ამ სიტუაციაში ოპერატორი A ზღუდავს თავის მსჯელობას 85%-მდე, ხოლო ნდობის ინტერვალი 60-დან 97%-მდეა. რაც უფრო დიდია ოპერატორის მსჯელობის ეფექტურობა, მით ნაკლებია ცვალებადობა შედეგების სიფრთხილით დანერგვისას.

შემფასებელი და სტანდარტული დიაგრამა გვიჩვენებს, თუ რამდენად ახლოსაა ოპერატორის ტიპები სიმბოლოების სწორ ატრიბუტებთან. მათ არ აინტერესებთ ის, რომ ოპერატორი A არის სწორი თავის შემთხვევაში 85% შემთხვევაში, მაგრამ მისი ტიპი მართალია მხოლოდ 70% შემთხვევაში.

ამ განაცხადში მხოლოდ ოპერატორს აქვს საკმარისი კვალიფიკაცია პროდუქტის ხარისხის გასაკონტროლებლად: განსჯის სიმოკლე და სტანდარტთან სიახლოვე ხდება 95%. ამ შემთხვევაში ცვალებადობა შემოიფარგლება 5%-ით.

სესიის ფანჯარაში ანალიზის შედეგები იძლევა რამდენიმე უფრო ნათელ მითითებას იმის შესახებ, თუ როგორ შეექმნათ პრობლემები ოპერატორებს სამუშაოსთან დაკავშირებით:


Პატარა 3: ატრიბუტების შეთანხმების ანალიზის შედეგები

Table In In Appraisers გამომავალი მონაცემები In In Appraisers სქემებიდან და კაპას კოეფიციენტების ცხრილიდან. კაპას კოეფიციენტები მიუთითებს იმაზე, თუ რამდენად ადარებენ ოპერატორები თავიანთ გადაწყვეტილებებს სტატისტიკურად. როდესაც კაპა უდრის 0-ს, ფსონი შეიძლება გაკეთდეს ისე, რომ ოპერატორმა არ გაიმეოროს მისი გამოცნობა და არჩევანი წინასწარმეტყველებს ლატარიას ან მონეტის ქარში გადაგდებას. კაპა 1 ნიშნავს, რომ ოპერატორი 100%-იან წარმატებას აღწევს თავის მსჯელობაში, ცხადია, -1 კოეფიციენტით – ოპერატორი საერთოდ არ ახერხებს და მაშინვე გამოხატავს ახალ ატრიბუტს. ჩვენ ყურადღებას ვაქცევთ თანამშრომლის რეკომენდაციას AIAG vimirival სისტემების ანალიზისთვის, რომელიც საკმარისია ვიმირივალის სისტემის ამოცნობისთვის დამატებითი კოეფიციენტით 0,75. 0.4 ან უფრო დაბალი მნიშვნელობა მიუთითებს vimirival სისტემის არაადეკვატურობაზე.

ალბათობის მნიშვნელობები (P-მნიშვნელობა) შეფასებულია ჰიპოთეზებისთვის:

    H 0: ოპერატორები არ არიან შესაფერისი მათი გადაწყვეტილებებისთვის;
    H α: ოპერატორები ეთანხმებიან თავიანთ მოსაზრებებს.

კაპა და სანდოობის მნიშვნელობები არის მთავარი მიმდებარე სისტემების შეფასებაში ატრიბუტული Gage R&R გამოყენებით. შედეგების დათვალიერებით, შესაძლებელია დასკვნის გაკეთება, რომელიც მოდის 0,48 კაპადან და 0,0158 ნდობის ღირებულებიდან, რომელიც გამოთვლების ოპერატორია თავის გადაწყვეტილებებში, წინააღმდეგ შემთხვევაში, ასეთი ვიბრაციული სისტემა არ არის შესაფერისი კონტროლის კრიტიკულ სფეროებში.


Პატარა 4: ატრიბუტების შეთანხმების ანალიზის შედეგები

თითოეული შემფასებლის წინააღმდეგ სტანდარტის ანალიზის ცხრილის კაპას კოეფიციენტების დათვალიერებისას, შესაძლებელია შედარება ისე, რომ A და B ოპერატორები ცუდად არიან ორიენტირებულნი შეფასების გონებაში, მაგრამ C ოპერატორს შეუძლია უკეთ დააკმაყოფილოს სიცოცხლისუნარიანობის კრიტერიუმები. ვირუსები. შეფასების უთანხმოების ცხრილი აჩვენებს პუნქტებს, რომლებშიც ოპერატორების აზრები შეესაბამება სტანდარტს. მაგალითად, ოპერატორი A, რომელმაც ამოიცნო 3 ბლისტერი დამაგრებული ტაბლეტებით, შემდეგ, სტანდარტის კრიტერიუმების მიხედვით, ადასტურებს მათ მიუწვდომლობას. ასევე, ოპერატორმა A აჩვენა განსხვავებული შედეგები პირველი და სხვა ტესტებისთვის, შემდეგ. ჯერ სიტყვას ზედსართავად არჩევს, შემდეგ ჯერზე კი განსჯის შეცვლას. ოპერატორმა ტრიჩიმ წმინდა სიტყვები ამოისუნთქა და ასევე გადაიფიქრა. ოპერატორმა ზუსიოგომ კიდევ ერთხელ შეცვალა წარმოდგენა გამოსახულების ატრიბუტის შესახებ.

შემფასებელთა შორის ცხრილის შედეგები ასახავს რამდენად იღებენ გადაწყვეტილებებს ოპერატორები. რამდენად ჰგავს ერთმანეთს სუნი, განურჩევლად შესაბამისი ატრიბუტებისა. ოპერატორებს შორის განსხვავება არანაირად არ ნიშნავს, რომ გადაწყვეტილება სწორია.


Პატარა 5: შედეგების ცხრილები შემფასებლებსა და შემფასებლებს შორის სტანდარტის წინააღმდეგ

ცხრილი All Appraisers vs Standard, როგორც ჩანს, გვიჩვენებს, თუ რამდენად ვიწროა ყველა ოპერატორი ერთსა და იმავე ატრიბუტებზე. რაც შეეხება ოპერატორებს, ისინი შეესაბამება სტანდარტს. როგორც ადრე, სტანდარტთან შეთანხმება ნიშნავს ოპერატორებს შორის შეთანხმებას.

კაპას სტატისტიკის ცხრილი აჩვენებს, რომ ორივე შემთხვევაში კაპას კოეფიციენტი 0,75-ზე დაბალია. ოპერატორების ჩვენებები, როგორც ერთი ჯგუფი, სტატისტიკურად უმნიშვნელოა. ოპერატორები კმაყოფილი არიან ცოტა საკვების სტანდარტის ატრიბუტებით, მაგრამ მაინც არასაკმარისი. მაღალი კოეფიციენტი კარგია ზიანის ოპერატორებს შორის სტანდარტისთვის, მაღალი კოეფიციენტი კარგია C ოპერატორის სტანდარტისთვის.

Შემაჯამებელი

  • ზოგადად, ძალიან გაანალიზებული ვიმირუვალი სისტემა ასოცირდება დაბალ სირთულეებთან. ოპერატორი A უშვებს უამრავ შეცდომას და შედეგად, მიუღებელი პროდუქტი აშკარად არის აღიარებული. ამავდროულად, ოპერატორი B აფასებს პროდუქტს კრიტიკულად, რათა აღმოფხვრას ასოცირებული ვირუსები.
  • ოპერატორმა C აჩვენა, რამდენად ახლოსაა განსჯა სტანდარტულთან და მათ თანმიმდევრულობასთან.
  • უპირველეს ყოვლისა, ცხადია, რომ ოპერატორებს სჭირდებათ დამატებითი ტრენინგი და პრაქტიკა.

ამ შემთხვევაში, უფრთხილდით თუნდაც ფართო ნდობის ინტერვალს. რაც უმნიშვნელოვანესს მოაქვს ანალიზის შედეგებს. დიაპაზონის შესაცვლელად, შეგიძლიათ გაიმეოროთ გამოკითხვა სურათების დიდი რაოდენობით.

შედი

პირველ რიგში, მოდით ვისაუბროთ ტერმინოლოგიაზე. საუბარია სფეროზე, რომელსაც თანამედროვე ლიტერატურაში მონაცემთა მოპოვება ჰქვია, რუსულ ლიტერატურაში კი მას ხშირად „მონაცემთა ანალიზს“ უწოდებენ. ტერმინი არ არის სრულიად შორეული, რადგან მათემატიკაში სიტყვა „ანალიზს“ აქვს უფრო ძირითადი, შესაძლოა ნაკლებად მნიშვნელოვანი მნიშვნელობა და შედის მრავალი კლასიკური დარგის სახელებში: მათემატიკური ანალიზი, ფუნქციონალური ანალიზი, მოკლე ანალიზი, არასტანდარტული ანალიზი თ. , მდიდარი კომპლექსური ანალიზი, დისკრეტული ანალიზი, სტოქასტიკური ანალიზი, კვანტური ანალიზი და ა.შ. მეცნიერების ყველა ზემოაღნიშნულ დარგს გააჩნია მათემატიკური აპარატურა, რომელიც ეფუძნება გარკვეულ ფუნდამენტურ შედეგებს და იძლევა ამ სფეროების განვითარების საშუალებას. მონაცემების ანალიზისას სიტუაცია ძალიან რთულია. ეს, უპირველეს ყოვლისა, არის გამოყენებითი მეცნიერება, რომელშიც არ არსებობს მათემატიკური აპარატურა, იმ გაგებით, რომ არ არსებობს ძირითადი ფაქტების საბოლოო ნაკრები, საიდანაც დევს სიმართლე. ბევრი დავალება „ინდივიდუალურია“ და მუდმივად ჩნდება დავალებების ახალი და ახალი კლასები, რადგან აუცილებელია მათემატიკური აპარატის გაფართოება. აქ კიდევ უფრო დიდ როლს თამაშობს ის, რომ მონაცემთა ანალიზი ახალია უშუალოდ მეცნიერებაში.

შემდეგი, ჩვენ უნდა ავხსნათ რა არის „მონაცემთა ანალიზი“. მე ვუწოდე ამ "რეგიონს", მაგრამ რაც შეეხება რეგიონს? ეს არის ის, სადაც საქმეები რთულდება და ცალი არაფერია მეცნიერებისგან. რეფერენტი ანალიტიკოსი, უპირველეს ყოვლისა, გამოიყენება და ორიენტირებულია პრაქტიკაზე. მეორეს მხრივ, მონაცემები შეიძლება გაანალიზდეს ეკონომიკიდან, ბიოლოგიიდან, სოციოლოგიიდან, ფსიქოლოგიიდან და ა.შ. გადაწყვეტილება

ახალი ცოდნა, როგორც უკვე ვთქვი, ხაზს უსვამს ახალი ტექნიკის შედეგებს (არა მხოლოდ თეორიებს, არამედ მეთოდებს), ასე რომ, როგორც ჩანს, მონაცემთა ანალიზიც საიდუმლო და ხელობაა.

გამოყენებით სფეროებში, ყველაზე მნიშვნელოვანი პრაქტიკაა! შეუძლებელია ისეთი ქირურგის პოვნა, რომელსაც ოპერაცია არ გაუკეთებია. ვლასნე, შენ ქირურგი არ ხარ. ასევე, მონაცემთა ანალიტიკოსს შეუძლია გააკეთოს რეალური აპლიკაციის ამოცანების საჭიროების გარეშე. რაც უფრო მეტ ასეთ დავალებას დაასრულებთ დამოუკიდებლად, მით უფრო კვალიფიციური ფაქივები გახდებით.

პირველ რიგში, მონაცემთა ანალიზი პრაქტიკაა, პრაქტიკა პრაქტიკაა. საჭიროა რეალობის გადახედვა სხვადასხვა სფეროდან. მაგალითად, სიგნალებისა და ტექსტების კლასიფიკაცია ორი სრულიად განსხვავებული სფეროა. მათ, ვინც ადვილად ისწავლის ძრავის დიაგნოსტიკის ალგორითმს სენსორის სიგნალებზე დაფუძნებული, შეიძლება ვერ შეძლოს ელექტრონული ფურცლების უმარტივესი სპამის ფილტრის შექმნა. ძალიან მნიშვნელოვანია სხვადასხვა ობიექტებთან მუშაობისას ძირითადი უნარების სწავლა: სიგნალები, ტექსტები, სურათები, გრაფიკები, სიმბოლური აღწერილობები და ა.შ. გარდა ამისა, მე მოგცემთ უფლებას აირჩიოთ საგანძური თქვენი გულისთვის.

წინააღმდეგ შემთხვევაში, მნიშვნელოვანია გონივრულად აირჩიოთ საწყისი კურსები და მენტორები.

პრინციპში, თქვენ თვითონ შეგიძლიათ ისწავლოთ ყველაფერი. Adje mi not maєmo იმ უბნის მარჯვნივ, სადაც єრა არის საიდუმლოებები, რომლებიც პირიდან პირში გადადის? თუმცა, არსებობს უამრავი კომპეტენტური საწყისი კურსი, სამაგისტრო პროგრამები და მონაცემები. გარდა ამისა, მართლაც სასაცილოა, როდესაც ადამიანების თაიგული ერთ მცენარეში პარალელურად დარბის. სიმართლე ის არის, რომ როდესაც ასეთი ამოცანები ხდება, თქვენ უნდა გაუმკლავდეთ კონკრეტულ პროგრამებს. ვთქვათ თქვენი ალგორითმი

ნახა სწორი შედეგების 89%. იკითხეთ: ბევრი, მაგრამ არა საკმარისი? თუ ეს საკმარისი არ არის, მაშინ რა აზრი აქვს: თქვენ არასწორად დაპროგრამეთ ალგორითმი, აირჩიეთ არასწორი პარამეტრები ალგორითმისთვის, ან თავად ალგორითმი დამპალია და არ არის შესაფერისი თქვენი უმაღლესი დავალების შესასრულებლად? თუ რობოტი დუბლირებულია, ადვილია იმის გარკვევა, აქვს თუ არა პროგრამას არასწორი პარამეტრები. და თუ ის დუბლირებულია ფახივცემის მიერ, მაშინ მოსალოდნელია შედეგის კვებითი შეფასება და მოდელის სასიამოვნო.

მესამე, უნდა გვახსოვდეს, რომ მონაცემთა ანალიზის ყველაზე მნიშვნელოვანი ამოცანა დიდ დროს მოითხოვს.

სტატისტიკა

მონაცემთა ანალიზი რ

1. ზმინნი

R, როგორც სხვა ენებში, პროგრამირება ექვემდებარება ცვლილებას. რა არის ამაში ცუდი? ფაქტობრივად, აქ არის დახმარების მისამართები, რომლებიც შეგვიძლია ვიპოვოთნებისმიერი მონაცემი, რომელსაც ვინახავთ მეხსიერებაში.

ცვლილებები შედგება მარცხენა და მარჯვენა ნაწილებისგან, რომლებიც გამოყოფილია დავალების ოპერატორის მიერ. R-ში ოპერატორი ანიჭებს კონსტრუქციას ”<-”, если название переменной находится слева, а значение, которое сохраняется в памяти - справа, и она аналогична “=” в других языках программирования. В отличии от других языков программирования, хранимое значение может находиться слева от оператора присваивания, а имя переменной - справа. В таком случае, как можно догадаться, оператор присваивания примет конструкцию следующего вида: “->”.

მნიშვნელოვანია მონაცემების შენახვა, ცვლილებები შეიძლება იყოს სხვადასხვა ტიპის: მთლიანი, მეტყველება, მწკრივი. Მაგალითად:

my.var1<- 42 my.var2 <- 35.25

ამ შემთხვევაში, my.var1 იქნება მთელი რიცხვის ტიპი, ხოლო my.var2 იქნება მეტყველების ტიპი.

როგორც სხვა პროგრამირების ენებში, თქვენ შეგიძლიათ შეცვალოთ სხვადასხვა არითმეტიკული ოპერაციები.

my.var1 + my.var2 - 12

my.var3<- my.var1^2 + my.var2^2

არითმეტიკული მოქმედებების გარდა, ლოგიკური ოპერაციები შეიძლება დაემატოს ერთად ოპერაციების გასათანაბრებლად.

my.var3 > 200 my.var3 > 3009 my.var1 == my.var2 my.var1 != my.var2 my.var3 >= 200 my.var3<= 200

ლოგიკური ოპერაციის შედეგი იქნება true (TRUE) ან false (FALSE). თქვენ ასევე შეგიძლიათ დააკავშიროთ ლოგიკური ოპერაციები ნებისმიერი მნიშვნელობის ცვლილებასა და სხვა ცვლილებებს შორის.

my.new.var<- my.var1 == my.var2

მიზანიტრენინგი "მონაცემთა ანალიზი და ურთიერთდაკავშირების მოდელირება R პაკეტში" -ისწავლეთ R პროგრამების ძირითადი შესაძლებლობები - უფასო პროგრამირება სტატისტიკური გამოთვლებისთვის და შემდეგ ისწავლეთ როგორ მოაწყოთ და მართოთ მონაცემების შეყვანა, ჩაატაროთ მონაცემების ძირითადი სტატისტიკური ანალიზი, წარმოადგინოთ იგი გრაფიკული ფორმით და ნახავთ, რომ მათ აქვთ განცდა. Navchannya დაზღვეულია მსმენელებისთვის R-ის მუშაობის შესახებ ინფორმაციის გარეშე ან პაკეტის თავდაპირველი ცოდნით.

მსმენელებმა უნდა დაიწყონ პროგრამირება და გაეცნონ სტატისტიკური ანალიზის საფუძვლებს.

პროცესის დასრულების შემდეგ R პროგრამაში ჩანიშნავთ:

  • სწორად ჩამოაყალიბეთ მონაცემთა შერჩევა ანალიზისთვის
  • მონაცემთა და კერუვატის მონაცემების დანერგვის ორგანიზება
  • ვიკონუვატის აღწერილობითი სტატისტიკური ანალიზი
  • ურთიერთკავშირები ქვითრების ცხრილებში
  • გადაამოწმეთ სტატისტიკური ჰიპოთეზები საშუალოს თანასწორობის შესახებ
  • Vikorystuvat გრაფიკული შესაძლებლობები
  • კორელაციის ანალიზის ჩატარება
  • რეგრესიული ანალიზის ჩატარება
  • დისპერსიული ანალიზის ჩატარება

ტრენინგის ხანგრძლივობა: 32 ა. 4 დღე.

ნავიგაციის პროგრამა:

თემა 1. სტატისტიკური მონაცემების ანალიზის ძირითადი ცნებები – 2 აკ.

  • სტატისტიკური კვლევა
  • მონაცემთა შეგროვების მეთოდები
  • სიფრთხილის მნიშვნელობა ექსპერიმენტებში
  • ზოგადი აგრეგატი და შერჩევა
  • ვიმოგი მონაცემების წინ ნიმუშების ჩამოსხმისას
  • წერტილოვანი და ინტერვალური სტატისტიკური შეფასების ცნებები
  • ნიშნები და ცვლილებები
  • ცვლილების მასშტაბები
  • სტატისტიკური მონაცემების პირდაპირი ანალიზი
  • აღწერითი და ანალიტიკური სტატისტიკა
  • სტატისტიკური ანალიზის მეთოდების არჩევანი დამოკიდებულია ვარიაციის მასშტაბებზე
  • სტატისტიკური ჰიპოთეზა
  • იხილეთ სტატისტიკური შეწყალება
  • სტატისტიკური ჰიპოთეზების შემოწმების პრინციპები
  • ჰიპოთეზების ტესტირებისას მნიშვნელობის დონის არჩევა

თემა 2. რობოტიკის შესავალი საშუალო R – 2 აკადემიური საათი.

  • რობოტების მახასიათებლები R
  • პროგრამების ინსტალაცია
  • პროგრამების გაშვება
  • სერედოვიჩე რ
  • ბრძანების სტრიქონის და დიალოგური ფანჯრების ინტერფეისი
  • გუნდების შექმნის წესები
  • სამუშაო დირექტორიას შექმნა
  • პაკეტები
  • გრაფიკული ინტერფეისები
  • R yak კალკულატორი
  • დოვიდკოვას სისტემა

თემა 3. პროგრამირების საფუძვლები რ – 2 აკადემიური საათი.

  • ობიექტების ტიპები რ
  • ვექტორი
  • სიები
  • მატრიცა
  • ოფიციალური პირები
  • მონაცემთა ცხრილები
  • ვირაზი
  • ოპერატორების წვდომა მონაცემებზე
  • ფუნქციები და არგუმენტები
  • მარყუჟები და გონებრივი ოპერატორები
  • მონაცემთა ბაზის მართვა რ
  • ვექტორიზაციის ოპერაცია
  • ნალაგოჯენნია
  • ობიექტზე ორიენტირებული პროგრამირება

თემა 4. მონაცემთა გაცნობა და ორგანიზება R – 2 აკადემიური საათი.

  • მონაცემთა შეგროვების გზები
  • საშუალო მონაცემების შეყვანის გარეშე
  • მონაცემების შეყვანა ცხრილში
  • მონაცემთა იმპორტი MS Excel-დან
  • სხვა სტატისტიკური პაკეტებიდან და მონაცემთა ბაზებიდან მონაცემების იმპორტი
  • ანალიზის შედეგების შენახვა
  • კოლკის მონაცემების ისტორია
  • რიგითი და ნომინალური მონაცემების მონაცემთა ბაზა
  • გამოტოვებული მნიშვნელობების დადგენა
  • გამოსახლებისა და შეწყალების გამოვლენა
  • მონაცემთა ხელახალი შექმნის პრინციპები

თემა 5. გრაფიკული შესაძლებლობები R – 2 ac.

  • გრაფიკული ფუნქციები
  • გრაფიკული მოწყობილობები
  • გრაფიკული პარამეტრები
  • ინტერაქტიული გრაფიკა
  • საწყობის სურათები
  • გასასვლელი მოწყობილობები

თემა 6. აღწერითი სტატისტიკური ანალიზი R – 4 ac.

  • ცენტრალური ტენდენციების სტატისტიკა
  • საშუალო არითმეტიკული
  • მოდალური მნიშვნელობა
  • საშუალო ღირებულება
  • როზეკიდის სტატისტიკა
  • დისპერსია და სტანდარტული მოვლა
  • ვარიაციის კოეფიციენტი
  • ვიდასოტკუ
  • ჰისტოგრამები
  • სკრინკის დიაგრამები
  • Z-პერვერსია
  • ნორმალური კანონი ქვედანაყოფისთვის
  • ასიმეტრია და ჭარბი
  • განყოფილების შემოწმება ნორმალურად
  • გვარის კანონის აქტები
  • ბინომალური გაყოფა
  • პუასონმა მოჭრა
  • მსოფლიოს თანაბარი დაყოფა
  • ექსპონენციალური გაყოფა
  • ლოგნორმული დაყოფა
  • სტანდარტული სახეხი და შუალედი

თემა 7. ანალიზისთვის მონაცემთა ფორმირება შერჩევის მეთოდით – 2 ა.კ.

  • გენერალი და ვიბირკოვას აგრეგატი
  • ნიმუშის მახასიათებლები
  • კვლევის შერჩევის მეთოდის თავისებურებები
  • ნიმუშების კლასიფიკაცია
  • იხილეთ გლობალური შერჩევის მეთოდები
  • ნიმუშების ფორმირების მეთოდები
  • მარტივი vypadkovy vіdbіr
  • სისტემატური სარეზერვო ქცევა
  • კლასტერის შერჩევა
  • ერთსაფეხურიანი კლასტერის შერჩევა
  • კლასტერული შერჩევის მდიდარი ხელმისაწვდომობა
  • ვიბრაციის ტესტების ჩატარების ალგორითმი
  • არჩევნებისთვის აუცილებელი მოვალეობების განსაზღვრა

თემა 8. ნიმუშებში განსხვავებების გამოვლენის სტატისტიკური ტესტები R – 4 აკადემიური საათი.

  • ჰიპოთეზები საშუალოების ნიველირების შესახებ
  • საშუალოების გათანაბრების Z-კრიტერიუმი
  • ნაწილების გათანაბრების Z-კრიტერიუმი
  • ერთიანი t-ტესტი
  • T-ტესტი დამოუკიდებელი ნიმუშებისთვის
  • T- კრიტერიუმი დიდი ხნის ნიმუშებისთვის
  • არაპარამეტრული კრიტერიუმების ცნება
  • უილკოქსონის ხელმოწერილი რანგის ტესტის ერთი ნიმუში
  • Mann-White კრიტერიუმი
  • ხელმოწერის კრიტერიუმი დაკავშირებული შერჩევისთვის
  • ვილკოქსონის ნიშნის ტესტი დაკავშირებული ნიმუშებისთვის
  • კრუსკალ-ვალისის დისპერსიის არაპარამეტრული ანალიზი
  • ფრიდმანის კრიტერიუმი გრძელვადიანი შერჩევისთვის

თემა 9. ცვლადებს შორის ურთიერთკავშირის შეფასება R – 4 აკადემიური საათი.

  • კატეგორიულ ცვლადებს შორის ურთიერთობის ანალიზი
  • გაყიდვების მაგიდები
  • გამოთვლილი სიხშირეები და ჭარბი რაოდენობა ქვითრების ცხრილებში
  • Chi-square ტესტი
  • კრიტერიუმი ახლა
  • სხვადასხვა ცვლადებს შორის ურთიერთკავშირის ტიპების კლასიფიკაცია
  • მოწყობის დიაგრამები
  • შეცვალეთ თქვენი აზრი კორელაციის ანალიზის ჩატარების შესახებ
  • პირსონის კორელაციის კოეფიციენტი
  • რანგის კორელაციის კოეფიციენტები
  • სპირმანის კორელაციის კოეფიციენტი
  • ლინკის მნიშვნელობის შემოწმება
  • კორელაციის კოეფიციენტების ინტერვალური შეფასებები
  • პირადი კორელაციის კოეფიციენტები

თემა 10. შეერთების ფორმის მოდელირება დამატებითი რეგრესიული ანალიზისთვის R-4 ac.

  • რეგრესიული ანალიზის ძირითადი ცნებები
  • წყვილი და მრავალჯერადი ხაზოვანი რეგრესიის მოდელი
  • შეცვალეთ აზრი ხაზოვანი რეგრესიის ანალიზზე
  • რეგრესიის კოეფიციენტების შეფასება
  • რეგრესიის მოდელის მართებულობის შემოწმება
  • თანაბარი რეგრესიის მნიშვნელობა
  • რეგრესიის კოეფიციენტების მნიშვნელობა
  • ცვლადების შერჩევა რეგრესიული ანალიზიდან
  • რეგრესიის სიზუსტის შეფასება
  • რეგრესიის განტოლების სტატისტიკური მდგრადობის შეფასება
  • გრძელვადიანი ცვლილების წერტილოვანი და ინტერვალური შეფასება
  • არაწრფივი რეგრესიის მოდელები
  • კატეგორიული დამოუკიდებელი ცვლილების რეგრესიის მოდელები

თემა 11. ურთიერთქმედების მოდელირება დისპერსიული ანალიზის დახმარებით R-4 აკადემიურ ერთეულში.

  • დისპერსიული ანალიზის მოდელები
  • შეცვალეთ აზრი დისპერსიული ანალიზის შესახებ
  • ჰიპოთეზის გადამოწმება დისპერსიების თანასწორობის შესახებ
  • დისპერსიის ერთფაქტორიანი ანალიზის მოდელი
  • ცალმხრივი დისპერსიული ანალიზის ცხრილი
  • ეტაპის შეფასება ფაქტორთან ერთად
  • A posteriori კრიტერიუმები მამრობითი ტოლია
  • ორი და მეტი ფაქტორის დისპერსიის ანალიზი
  • დისპერსიის ორფაქტორიანი ანალიზის ცხრილი ურთიერთქმედებით
  • ფაქტორების ურთიერთქმედების გრაფიკული ინტერპრეტაცია
  • მრავალფაქტორიანი მოდელის ანალიზი