Unity3d სისტემა და კომპიუტერული ხედვა გამოიყენება pdf. კომპიუტერული ხედვა. რა არის კომპიუტერული ვარსკვლავი? კომპიუტერის "ბაჩიტის" ღირებულება

კომპიუტერული სკანირება და ამოცნობა ასახავს უხილავ ნაწილს (II), რომელიც წლების განმავლობაში ძალიან პოპულარული გახდა. CES 2017-ის გამოფენა ამ დღეებში გაიმართა, სადაც შეგიძლიათ გაოცდეთ ამ სფეროში დარჩენილი მიღწევებით. შპრიცის ღერძი ყველა კონდახიდანვიკორისტანნაია კომპიუტერნოგო ზორუ, კოსნო ბულო ბაჩიტ ნა ვისტავიცი.

კომპიუტერული მეცნიერების 8 აპლიკაცია

ვერონიკა იოლკინა

1. თვითმართვადი მანქანები

კომპიუტერული ხედვის მქონე ყველაზე დიდი სტენდები საავტომობილო ინდუსტრიაშია. რა თქმა უნდა, უპილოტო და თვითმართვადი მანქანების ტექნოლოგიები მუშაობს, ძირითადად კომპიუტერული ხედვის გამო.

NVIDIA-ს პროდუქცია, რომელმაც უკვე მიაღწია დიდ წარმატებას ტექნოლოგიის სფეროში, გამოიყენება ბევრ თვითმართველ მანქანაში. მაგალითად, NVIDIA Drive PX 2 სუპერკომპიუტერი ასევე იქნება საბაზო პლატფორმა უპილოტო მანქანებისთვის, Volvo, Audi, BMW და Mercedes-Benz.

NVIDIA-ს DriveNet ad hoc ტექნოლოგია არის მშობლიური კომპიუტერული სისტემა, რომელიც მუშაობს ნერვული გაზომვების საფუძველზე. ეს მოიცავს ლიდარებს, რადარებს, კამერებს და ულტრაბგერითი სენსორებს შენობის აღიარებასიმკვეთრე, გზის მონიშვნა, ტრანსპორტი და მრავალი სხვა.

3. ინტერფეისი

ტექნოლოგიები კულისებში კომპიუტერის თვალის გასაძლიერებლად ვითარდება არა მხოლოდ სათამაშო ლეპტოპებში, არამედ ძირითად და კორპორატიულ კომპიუტერებში, რათა მათ გამოიყენონ ადამიანები, რომლებსაც არ შეუძლიათ სწრაფად ხმარობენ ხელებს. Tobii Dynavox PCEye Mini არის კალმის კალმის ზომა, რაც მას იდეალურ და ფრთხილ აქსესუარად აქცევს ტაბლეტებისა და ლეპტოპებისთვის. თვალის აჩქარების იგივე ტექნოლოგია გამოიყენება ახალ თამაშებში პირველადი ლეპტოპები Asus და Huawei სმარტფონები.

ტიმი განაგრძობს განვითარებას ერთი საათის განმავლობაში ჟესტების კონტროლი(კომპიუტერული ხედვის ტექნოლოგია, რომელიც საშუალებას გაძლევთ ამოიცნოთ სპეციალური ხელები ხელებით). ახლა თქვენ გამარჯვებული იქნებით მომავალ BMW და Volkswagen მანქანებში.

ახალი HoloActive Touch ინტერფეისი სახლის მომხმარებლებს საშუალებას აძლევს აკონტროლონ ვირტუალური 3D ეკრანები და დააჭირონ ღილაკებს სივრცეში. შეგვიძლია ვთქვათ, რომ ვენა არის საინტერესო პიროვნების სასარგებლო ჰოლოგრაფიული ინტერფეისის მარტივი ვერსია (ვენა იგივენაირად რეაგირებს მცირე ვიბრაციით ელემენტების წნევაზე). ისეთი ტექნოლოგიების წყალობით, როგორიცაა ManoMotion, შესაძლებელი იქნება ჟესტების კონტროლის მარტივად დამატება პრაქტიკულად ნებისმიერ მოწყობილობაზე. უფრო მეტიც, ვირტუალურ 3D ობიექტზე კონტროლის მოსაპოვებლად დამატებითი ჟესტების გამოყენებით, ManoMotion იყენებს ორიგინალურ 2D კამერას, ასე რომ თქვენ არ გჭირდებათ დამატებითი აღჭურვილობა.

eyeSight-ის Singlecue Gen 2 მოწყობილობა უზრუნველყოფს კომპიუტერის მოწინავე მონიტორინგს (ჟესტების ამოცნობა, პიროვნების ანალიზი, მოქმედება) და საშუალებას აძლევს ტელევიზორების, ინტელექტუალური განათების სისტემების და მაცივრების ჟესტებზე დაფუძნებულ მონიტორინგს.

ჰაიო

Crowdfunding პროექტ Hayo-ს შეიძლება ჰქონდეს ყველაზე საინტერესო ახალი ინტერფეისი. ეს ტექნოლოგია საშუალებას გაძლევთ შექმნათ ვირტუალური კონტროლი მთელს სახლში - უბრალოდ ხელის აწევით ან დაწევით, შეგიძლიათ გაზარდოთ ან შეცვალოთ მუსიკის ხმა, ან ჩართოთ სამზარეულოში შუქი ღუმელზე ხელის გადახვევით. ეს ყველაფერი მოდის ცილინდრულ სტრუქტურაზე, რომელიც მოიცავს კომპიუტერის კამერას, კამერას და 3D სენსორებს. ინფრაწითელი ვიპრომინუვანიადა ნანგრევები.

4. კორექტირება

ძვირადღირებული კამერები, რომლებიც აჩვენებენ რა არის თქვენი მაცივრის შუაში, აღარ გამოიყურება ისეთი რევოლუციური. რას იტყვით პროგრამაზე, რომელიც აანალიზებს სურათებს მაცივარში მოთავსებული კამერიდან და გაცნობებთ, როცა საკვები ამოგეწურებათ?

ელეგანტური FridgeCam Smarter მოწყობილობა მიმაგრებულია მაცივრის კედელზე და შეუძლია მიუთითოს, როდის დასრულდება აქსესუარის ვადა, გაცნობოთ რა არის მაცივარში და გირჩიოთ მწვანილის რეცეპტები შერჩეული პროდუქტებიდან. მოწყობილობა იყიდება გაურკვეველ ფასად ხელმისაწვდომ ფასად- მხოლოდ 100 დოლარად.

5. ციფრული ვისკი

კომპიუტერებს შეუძლიათ შეცვალონ ბანერები და რეკლამები მაღაზიებში, მუზეუმებში, სტადიონებსა და საზოგადოებრივ პარკებში.

Panasonic-ის სტენდზე წარმოდგენილი იყო ტრაპეზზე გამოსახულების პროექციის ტექნოლოგიის დემო ვერსია. ადამიანის თვალისთვის უხილავი ინფრაწითელი მარკერებისა და ვიდეო სტაბილიზაციის გამოყენებით, ამ ტექნოლოგიას შეუძლია რეკლამის გადატანა დაკიდებულ ბანერებზე და მიუთითოს დროშებზე, რომლებიც ქარში ფრიალებს. უფრო მეტიც, სურათები ასე გამოიყურება, მათზე რაღაც ძალიან ეფექტურია განთავსებული.

6. სმარტფონები და გაძლიერებული რეალობა

მათ ბევრი ისაუბრეს იმ დატვირთვაზე, რომელიც პირველად ამარაგებდა მასას ელემენტებით (AR). თუმცა, ისევე როგორც სხვა დანამატები, რომელთა გადაღებაც შესაძლებელია AR მატარებელში, ეს თამაში უფრო მეტად ეყრდნობოდა GPS-ს და სამკუთხედს, რათა მფრინავებმა გააცნობიერონ, რომ ობიექტი ზუსტად მათ წინ იყო. სმარტფონებში პრაქტიკულად არ არის აუცილებელი უახლესი კომპიუტერული ტექნოლოგიების გამოყენება.

თუმცა, შემოდგომაზე Lenovo-მ გამოუშვა Phab2 - პირველი სმარტფონი, რომელსაც მხარს უჭერს Google Tango ტექნოლოგია. ეს ტექნოლოგია არის სენსორებისა და პროგრამული უზრუნველყოფის კომბინაცია კომპიუტერული ხედვით, რომელსაც შეუძლია რეალურ დროში ამოიცნოს სურათები, ვიდეო და ჭარბი შუქი დამატებითი კამერის ლინზის უკან.

CES-ზე Asus-მა პირველად წარადგინა ZenPhone AR, სმარტფონი, რომელიც აღჭურვილია Tango-ით და Daydream VR-ით, რომელიც აღჭურვილია Google-ის მიერ. სმარტფონს შეუძლია არა მხოლოდ ხელების დაკავშირება, სიზუსტის ანალიზი და პოზიციის ზუსტად განსაზღვრა, არამედ ვიკორისტვო Qualcomm პროცესორი Snapdragon 821, რომელიც საშუალებას გაძლევთ გააზიაროთ თქვენი მონაცემები თქვენს კომპიუტერთან. ეს ყველაფერი ხელს უწყობს უახლესი გაძლიერებული რეალობის ტექნოლოგიების გამოყენებას სმარტფონის კამერის მეშვეობით სიტუაციის რეალურად გასაანალიზებლად.

მოგვიანებით გამოვა Changhong H2 - პირველი სმარტფონი ახალი მოლეკულური სკანერით. ის აგროვებს შუქს, რომელიც შეირჩევა ობიექტიდან და იყოფა სპექტრად და შემდეგ აანალიზებს მის ქიმიურ საწყობს. ნერვები პროგრამული უზრუნველყოფის უსაფრთხოება, სადაც კომპიუტერული მონაცემები გროვდება, ინფორმაცია შეიძლება გამოყენებულ იქნას სხვადასხვა მიზნებისთვის - როგორიცაა სახის გამომეტყველების რეგისტრაცია და კალორიების შემცირება კანის ზომის დადგენამდე და წლიური ზრდის დონის გაზრდამდე.

15 გაზაფხულზე მოსკოვში გაიმართება კონფერენცია დიდი ხარკით დიდი მონაცემების კონფერენცია. პროგრამა შეიცავს ამ დარგის წამყვანი ექსპერტების ბიზნეს ქეისებს, ტექნიკურ გადაწყვეტილებებს და სამეცნიერო მიღწევებს. ვთხოვთ ყველას, ვინც დაინტერესებულია დიდ მონაცემებთან მუშაობაში და სურს ჩაერთოს რეალურ ბიზნესში. მიჰყევით დიდი მონაცემების კონფერენციას
  • ნიმუშის სურათი
  • კომპიუტერული ხედვის ფარგლები კიდევ უფრო ფართოა: სუპერმარკეტებში შტრიხკოდების წამკითხველებიდან დაწყებული გაფართოებულ რეალობამდე. ამ ლექციაზე თქვენ შეისწავლით თუ როგორ მუშაობს და როგორ მუშაობს კომპიუტერული სისტემა, როგორ გამოიყურება გამოსახულებები რიცხვებში, რა არის ამ სურათზე აშკარად ადვილად დასანახი, რა არის მნიშვნელოვანი და რატომ.

    ლექცია განკუთვნილია საშუალო სკოლის მოსწავლეებისთვის - მალი შადაის სტუდენტებისთვის და მოზარდებს ბევრი რამის სწავლა შეუძლიათ.

    საგნების სწავლისა და ამოცნობის უნარი ადამიანის ბუნებრივი და ბუნებრივი უნარია. თუმცა, კომპიუტერისთვის ეს ჯერ კიდევ ძალიან რთულია. დროა მოგერიდოს კომპიუტერის ხმარების სწავლა, მსურს ვიცოდე, რას ხარჯავენ ადამიანები ყოველდღე, არც კი შეუმჩნევლად.

    როგორც წესი, ადამიანები უმეტესად უყურებენ სუპერმარკეტის სალარო დახლს კომპიუტერის თვალებით. რა თქმა უნდა, თქვენ უნდა იცოდეთ შტრიხკოდების წაკითხვის შესახებ. სურნელები სპეციალურად ამ გზით იყო გამოყოფილი, რათა კომპიუტერისთვის კითხვის პროცესი მაქსიმალურად გამარტივებულიყო. ასევე არის უფრო რთული ამოცანები: მანქანის სანომრე ნიშნების კითხვა, სამედიცინო სურათების ანალიზი, ხარვეზის გამოვლენა ვიბრაციის ტესტირებაში, პერსონაჟების ამოცნობა და ა.შ. კომპიუტერული ხედვის გამოყენება გაძლიერებული რეალობის სისტემების შესაქმნელად აქტიურად ვითარდება.

    განსხვავება ადამიანის თვალსა და კომპიუტერს შორის
    ბავშვი სწავლობს ობიექტების ამოცნობას ეტაპობრივად. თქვენ იწყებთ იმის გაგებას, თუ როგორ იცვლება ობიექტის ფორმა მისი პოზიციისა და განათების მიხედვით. შემდეგ, ობიექტების ამოცნობისას, ადამიანები ყურადღებას ამახვილებენ წინა მტკიცებულებებზე. ადამიანები თავიანთი ცხოვრების მანძილზე აგროვებენ უამრავ ინფორმაციას და ნერვული ქსელის პროცესი არც ერთი წამით არ ნელდება. ადამიანისთვის განსაკუთრებით რთული არ არის პერსპექტივის რეკონსტრუქცია ბრტყელი სურათიდან და დაინახო, როგორ გამოიყურებოდა ყველაფერი სამ სამყაროში.

    კომპიუტერი უფრო და უფრო რთული ხდება. და პირველ რიგში ინფორმაციის დაგროვების პრობლემებით. საჭიროა კონდახების დიდი რაოდენობის შეგროვება, რომ ჯერ გამოსვლა არ იყოს შესაძლებელი.

    გარდა ამისა, როდესაც ადამიანი ცნობს საგანს, ის მაშინვე ფრთხილობს. როგორც კი ობიექტს გარკვეული კუთხით აღიქვამ, მისი ამოცნობა ბევრად უფრო მნიშვნელოვანი ხდება. აქ როლს ასრულებს სიცოცხლის დაზოგვის როლიც, რომელიც კომპიუტერს არ გააჩნია.

    Ბიჭი ან გოგო?
    აშკარაა, რომ ერთი შეხედვით უნდა ვისწავლოთ, რომ გავხდეთ ადამიანები (შეშინებული!) ფოტოგრაფიით. დასაწყისისთვის აუცილებელია ფაქტორების იდენტიფიცირება, რომლებიც შეიძლება მიუთითებდეს სხვა ობიექტის კუთვნილებაზე. გარდა ამისა, თქვენ უნდა მიიღოთ საწყისი ფაქტორი. ბაჟანო, იყოს წარმომადგენელი. ჩვენი ნიმუში ეფუძნება აუდიტორიაში ყველა დამსწრე თავდაპირველ შერჩევას. და მათ საფუძველზე შევეცდებით გავარკვიოთ მნიშვნელოვანი ფაქტორები: მაგალითად, თმის ცვენა, წვერის არსებობა, მაკიაჟი და ტანსაცმელი (თავის უკანა მხარე ან შარვალი). იმის ცოდნა, რომ ერთი და იმავე სტატიის წარმომადგენელთა თითოეულ ჯგუფს აქვს ამ და სხვა ფაქტორების ერთობლიობა, ჩვენ შეგვიძლია შევქმნათ მკაფიო წესები: ამ და სხვა ფაქტორების კომბინაციების ხილვადობა ნებისმიერი თანმიმდევრულობით. მოდით გითხრათ, როგორი ადამიანები არიან ფოტოზე.
    მანქანათმცოდნეობა
    რა თქმა უნდა, ეს არის ძალიან მარტივი და ჭკვიანი მიდგომა ზედა დონის ფაქტორების მცირე რაოდენობით. რეალურ ამოცანებში, როგორიცაა კომპიუტერული სათვალთვალო სისტემების წინაშე დაყენებული, ბევრი სხვა ფაქტორია. მათი ხელით აყვანა და ნალექების გაწმენდა ძალიან ბევრია ადამიანმა. ასე რომ, ასეთ სიტუაციებში არ არსებობს გზა გაუმკლავდეს მანქანა უნარების გარეშე. მაგალითად, შეგიძლიათ იდენტიფიცირება ათობით cob ოფიციალური პირები, ასევე დააყენოთ დადებითი და უარყოფითი განაცხადები. და როდესაც ეს ფაქტორები ავტომატურად შეირჩევა, იქმნება ფორმულა, რომელიც გადაწყვეტილების მიღების საშუალებას იძლევა. დოსიტი ხშირად და თავად ჩინოვნიკები ავტომატურად ჩანან.
    გამოსახულება რიცხვებში
    ყველაზე ხშირად, ციფრული სურათების შესანახად გამოიყენება RGB ფერის სივრცე. თითოეულ კანს ენიჭება საკუთარი ფერი სამი ღერძის (არხის) საფუძველზე: წითელი, მწვანე და ლურჯი. კანის თითოეული არხი აჩვენებს 8 ბიტი ინფორმაციას, ამიტომ ფერის ინტენსივობა კანის ღერძზე შეიძლება დაყენდეს მნიშვნელობებზე 0-დან 255-მდე დიაპაზონში. RGB ციფრულ სივრცეში ყველა ფერი ერთნაირად გამოდის. არსებობს სამი ძირითადი ფერი. .

    სამწუხაროდ, RGB ყოველთვის არ არის კარგი ინფორმაციის ანალიზისთვის. ექსპერიმენტები აჩვენებს, რომ კითხვების გეომეტრიული სიახლოვე ბევრად სცილდება იმას, რომ ადამიანები სათითაოდ აღიქვამენ ამ და სხვა კითხვების სიახლოვეს.

    მოდით აღმოვაჩინოთ სივრცის სხვა ფერები. Velmi tsykavo ჩვენს კონტექსტში სივრცე HSV (Hue, Saturation, Value). მას აქვს მთელი მნიშვნელობა, რაც მიუთითებს სინათლის ინტენსივობაზე. აქ შეგიძლიათ იხილოთ შემდეგი არხი, RGB ხედის ქვეშ, სადაც მნიშვნელობა უნდა გამოითვალოს ყოველ ჯერზე. სინამდვილეში, ეს არის სურათის შავ-თეთრი ვერსია, რომლის გამოყენება უკვე შესაძლებელია. ელფერი ჩნდება გარეგნულად და წარმოადგენს ძირითად ტონს. Saturation მნიშვნელობიდან გამომდინარე (დადექით ცენტრიდან კიდემდე), დააყენეთ ფერის გაჯერება.

    HSV ბევრად უფრო ახლოს არის იმასთან, თუ როგორ ვამჟღავნებთ საკუთარ ფერს. თუ ადამიანებს მუქ წითელ და მწვანე ობიექტებს აჩვენებთ, ფერებს ვერ გამოყოფთ. იგივე ეხება HSV-ს. რაც უფრო დაბალი ხართ V ღერძზე, მით ნაკლებია განსხვავება ჩრდილებს შორის, რადგან მცირდება გაჯერების მნიშვნელობების დიაპაზონი. დიაგრამაში ის ჰგავს კონუსს, რომლის ზედა ნაწილში არის საზღვრის შავი წერტილი.

    ფერი და სინათლე
    რატომ არის ასე მნიშვნელოვანი სინათლის რაოდენობის შესახებ კითხვა? უმეტეს შემთხვევაში, კომპიუტერულ სისტემაში ფერს არავითარი მნიშვნელობა არ აქვს, რადგან ის არ შეიცავს რაიმე მნიშვნელოვან ინფორმაციას. მოდით შევხედოთ ორ სურათს: ფერადი და შავ-თეთრი. შავ-თეთრ ვერსიაზე ყველა ობიექტის ამოცნობა უფრო ადვილია, ვიდრე ფერადი. ჩვენთვის ამ პერიოდში ფერები არ ატარებენ დამატებით მნიშვნელობას, მაგრამ უშედეგოდ ქმნიან გამოთვლით პრობლემებს. როდესაც ჩვენ ვმუშაობთ გამოსახულების ფერად ვერსიასთან, მონაცემები, უხეშად რომ ვთქვათ, კუბის დონეზე მცირდება.

    ფერი გამოიყენება მხოლოდ იშვიათ შემთხვევებში, რაც მაინც შესაძლებელს ხდის გამოთვლების გამარტივებას. მაგალითად, თუ თქვენ გჭირდებათ ადამიანის ამოცნობა: უფრო ადვილია დაუყოვნებლივ გაიგოთ, თუ რა ფერი შეიძლება ნახოთ სურათზე, აქცენტი გააკეთეთ სხეულის ფერების დიაპაზონზე. აქედან გამომდინარე, საჭიროა სურათის მთლიანობაში ანალიზი.

    ლოკალური და გლობალური ნიშნები
    ნიშნები, რომლებსაც ჩვენ ვიყენებთ სურათების გასაანალიზებლად, შეიძლება იყოს ლოკალური ან გლობალური. თუ ამ სურათს დააკვირდებით, ალბათ იტყვით, რომ მასზე წითელი მანქანაა გამოსახული:

    ასეთი განცხადება მნიშვნელოვანია, რომ ადამიანებმა დაინახეს ობიექტი სურათზე და, შესაბამისად, აღწერეს ფერის ადგილობრივი ნიშანი. ფოტოზე დიდი რახუნკის უკან არის ტყის, გზის და რამდენიმე მანქანის სურათები. სივრცის მხრივ, მანქანა იკავებს მცირე ნაწილს. ჩვენ გვესმის, რომ მანქანა ამ სურათზე არის ყველაზე მნიშვნელოვანი ობიექტი. თუ ადამიანებს სურთ მსგავსი სურათების გაცნობა, ისინი ჯერ შეარჩევენ სურათებს, რომლებიც აჩვენებენ წითელ მანქანას.

    გამოვლენა და სეგმენტაცია
    კომპიუტერულ მეცნიერებაში ამ პროცესს ეწოდება გამოვლენა და სეგმენტაცია. სეგმენტაცია არის გამოსახულების დაყოფა ანონიმურ ნაწილებად, ნაქსოვი მეგობარიერთი ვიზუალურად და სემანტიკურად. და გამოვლენა ნიშნავს სურათზე ობიექტების იდენტიფიცირებას. ამოცნობა მკაფიოდ უნდა გამოირჩეოდეს ამოცნობისაგან. მაგალითად, მანქანის იმავე სურათზე შეგიძლიათ ნახოთ საგზაო ნიშანი. მაგრამ მისი ამოცნობა შეუძლებელია, ამიტომ ზურგს შეგვიქცევს. ასე რომ, ინდივიდის ამოცნობისას, დეტექტორს შეუძლია მიუთითოს ინდივიდის ზრდა და "აღმცნობი" გეტყვით რატომ.

    აღწერები და ვიზუალური სიტყვები
    აღიარების მრავალი განსხვავებული მიდგომა არსებობს.

    მაგალითად, ეს: თირკმლის სურათზე თქვენ უნდა ნახოთ სწორი წერტილები ან სწორი ადგილები. გამოიყენეთ რაღაც განსხვავებული ფონისგან: ნათელი ფერები, გადასვლები და ა.შ. არსებობს მთელი რიგი ალგორითმები, რომლებიც საშუალებას გაძლევთ შექმნათ იგი.

    ერთ-ერთ ყველაზე ვრცელ მეთოდს ჰქვია გაუსელთა განსხვავება (DoG). გამოსახულების გაფართოებით სხვადასხვა რადიუსით და შედეგების თანაბრად აღებით, შეგიძლიათ იპოვოთ უდიდესი კონტრასტული ფრაგმენტები. ამ ფრაგმენტების მიმდებარე ტერიტორიები ყველაზე დაუცველია.

    ქვემოთ მოყვანილი სურათი არის მიახლოებითი სურათი იმისა, თუ როგორ გამოიყურება. შერჩეული მონაცემები აღირიცხება დესკრიპტორში.

    იმისათვის, რომ ახალი დესკრიპტორები სიბრტყეში ბრუნებისგან დამოუკიდებლად ამოიცნონ, ისინი ისე იფეთქებენ, რომ უდიდესი ვექტორები ერთი მიმართულებით მოტრიალდეს. არასოდეს არ არის ცუდი იდეა იყო მორცხვი. წინააღმდეგ შემთხვევაში, აუცილებელია ორი ახალი ობიექტის იდენტიფიცირება, სხვადასხვა სიბრტყეში გაშლილი.

    აღწერები შეიძლება დაიწეროს რიცხვითი ფორმით. აღმწერი შეიძლება წარმოდგენილი იყოს როგორც ხილული წერტილი მდიდარ მასივში. ჩვენ გვაქვს ორგანზომილებიანი მასივი ჩვენს ილუსტრაციაში. ჩვენი აღწერები მას მოიპარეს. შეგვიძლია დავაჯგუფოთ ისინი - დავყოთ ჯგუფებად.

    შემდეგ, კანის კლასტერისთვის, ჩვენ აღვწერთ სივრცეს სივრცეში. თუ აღმწერი იკარგება ამ მხარეში, ჩვენთვის მნიშვნელოვანი ხდება არა ის, სადაც ის დაიკარგა, არამედ რომელ უბნებში ჩაიძირა. და შემდეგ ჩვენ შეგვიძლია გავანაწილოთ სურათები, რაც ნიშნავს, რომ ერთი სურათის რამდენი აღმწერი გამოჩნდა იმავე კლასტერებში, როგორც მეორე სურათის აღწერები. ასეთი მტევანი შეიძლება ვიზუალურად ეწოდოს.

    იმისათვის, რომ იპოვოთ არა მხოლოდ იგივე სურათები, არამედ მსგავსი ობიექტების გამოსახულება, აუცილებელია გადაიღოთ ობიექტის ცარიელი სურათი და ცარიელი სურათები, რომლებიც მას არ შეიცავს. შემდეგ იხილეთ აღწერები მათგან და დააჯგუფეთ ისინი. შემდეგი, აუცილებელია გავიგოთ, რომელ კლასტერებს აქვთ აღწერილობები გამოსახულების მიხედვით, რომელ ობიექტზე გვჭირდება. ახლა ჩვენ ვიცით, რომ ახალი გამოსახულების აღწერები გადადის იმავე კლასტერებში, რაც ნიშნავს, რომ მოძიებული ობიექტი ახალ ყოფაშია.

    აღწერების თავიდან აცილება არ იძლევა მათი ობიექტების იდენტურობის გარანტიას. დამატებითი გადამოწმების ერთ-ერთი მეთოდია გეომეტრიული ვალიდაცია. ამ შემთხვევაში, ხდება აღწერების გათანაბრება, ცხადია, სათითაოდ.

    აღიარება და კლასიფიკაცია
    სიმარტივისთვის, მისაღებია, რომ ჩვენ შეგვიძლია დავყოთ ყველა სურათი სამ კლასად: არქიტექტურა, ბუნება და პორტრეტი. ჩვენ გვაქვს საკუთარი ბუნება, შეგვიძლია მისი დაყოფა სხვადასხვა სახეობის არსებებად და ფრინველებად. და უკვე გავაცნობიეროთ, რომ ფრინველები არსებობენ, ჩვენ შეგვიძლია ვთქვათ: ბუ, თოლია ან ყვავი.

    განსხვავება აღიარებასა და კლასიფიკაციას შორის აშკარაა. თუ სურათზე ბუ ამოვიცანი, მაშინ მეტს გადავიხდით აღიარებისთვის. თუ ეს მხოლოდ ჩიტია, მაშინ ეს შუალედური ვარიანტია. და ბუნების მსგავსად, არსებობს აბსოლუტური კლასიფიკაცია. ასე რომ, განსხვავება აღიარებასა და კლასიფიკაციას შორის მდგომარეობს იმაში, თუ რამდენად ღრმად გავიარეთ ხე. და რაც უფრო დიდხანს იქნება გამოქვეყნებული კომპიუტერული მონაცემები, ნაკლები დაბნეულობა იქნება კლასიფიკაციასა და ამოცნობას შორის.

    კომპიუტერული ხედვის ფარგლები კიდევ უფრო ფართოა: სუპერმარკეტებში შტრიხკოდების წამკითხველებიდან დაწყებული გაფართოებულ რეალობამდე. ამ ლექციაზე თქვენ შეისწავლით თუ როგორ მუშაობს და როგორ მუშაობს კომპიუტერული სისტემა, როგორ გამოიყურება გამოსახულებები რიცხვებში, რა არის ამ სურათზე აშკარად ადვილად დასანახი, რა არის მნიშვნელოვანი და რატომ.

    ლექცია განკუთვნილია საშუალო სკოლის მოსწავლეებისთვის - მალი შადაის სტუდენტებისთვის და მოზარდებს ბევრი რამის სწავლა შეუძლიათ.

    საგნების სწავლისა და ამოცნობის უნარი ადამიანის ბუნებრივი და ბუნებრივი უნარია. თუმცა, კომპიუტერისთვის ეს ჯერ კიდევ ძალიან რთულია. დროა მოგერიდოს კომპიუტერის ხმარების სწავლა, მსურს ვიცოდე, რას ხარჯავენ ადამიანები ყოველდღე, არც კი შეუმჩნევლად.

    როგორც წესი, ადამიანები უმეტესად უყურებენ სუპერმარკეტის სალარო დახლს კომპიუტერის თვალებით. რა თქმა უნდა, თქვენ უნდა იცოდეთ შტრიხკოდების წაკითხვის შესახებ. სურნელები სპეციალურად ამ გზით იყო გამოყოფილი, რათა კომპიუტერისთვის კითხვის პროცესი მაქსიმალურად გამარტივებულიყო. ასევე არის უფრო რთული ამოცანები: მანქანის სანომრე ნიშნების კითხვა, სამედიცინო სურათების ანალიზი, ხარვეზის გამოვლენა ვიბრაციის ტესტირებაში, პერსონაჟების ამოცნობა და ა.შ. კომპიუტერული ხედვის გამოყენება გაძლიერებული რეალობის სისტემების შესაქმნელად აქტიურად ვითარდება.

    განსხვავება ადამიანის თვალსა და კომპიუტერს შორის
    ბავშვი სწავლობს ობიექტების ამოცნობას ეტაპობრივად. თქვენ იწყებთ იმის გაგებას, თუ როგორ იცვლება ობიექტის ფორმა მისი პოზიციისა და განათების მიხედვით. შემდეგ, ობიექტების ამოცნობისას, ადამიანები ყურადღებას ამახვილებენ წინა მტკიცებულებებზე. ადამიანები თავიანთი ცხოვრების მანძილზე აგროვებენ უამრავ ინფორმაციას და ნერვული ქსელის პროცესი არც ერთი წამით არ ნელდება. ადამიანისთვის განსაკუთრებით რთული არ არის პერსპექტივის რეკონსტრუქცია ბრტყელი სურათიდან და დაინახო, როგორ გამოიყურებოდა ყველაფერი სამ სამყაროში.

    კომპიუტერი უფრო და უფრო რთული ხდება. და პირველ რიგში ინფორმაციის დაგროვების პრობლემებით. საჭიროა კონდახების დიდი რაოდენობის შეგროვება, რომ ჯერ გამოსვლა არ იყოს შესაძლებელი.

    გარდა ამისა, როდესაც ადამიანი ცნობს საგანს, ის მაშინვე ფრთხილობს. როგორც კი ობიექტს გარკვეული კუთხით აღიქვამ, მისი ამოცნობა ბევრად უფრო მნიშვნელოვანი ხდება. აქ როლს ასრულებს სიცოცხლის დაზოგვის როლიც, რომელიც კომპიუტერს არ გააჩნია.

    Ბიჭი ან გოგო?
    აშკარაა, რომ ერთი შეხედვით უნდა ვისწავლოთ, რომ გავხდეთ ადამიანები (შეშინებული!) ფოტოგრაფიით. დასაწყისისთვის აუცილებელია ფაქტორების იდენტიფიცირება, რომლებიც შეიძლება მიუთითებდეს სხვა ობიექტის კუთვნილებაზე. გარდა ამისა, თქვენ უნდა მიიღოთ საწყისი ფაქტორი. ბაჟანო, იყოს წარმომადგენელი. ჩვენი ნიმუში ეფუძნება აუდიტორიაში ყველა დამსწრე თავდაპირველ შერჩევას. და მათ საფუძველზე შევეცდებით გავარკვიოთ მნიშვნელოვანი ფაქტორები: მაგალითად, თმის ცვენა, წვერის არსებობა, მაკიაჟი და ტანსაცმელი (თავის უკანა მხარე ან შარვალი). იმის ცოდნა, რომ ერთი და იმავე სტატიის წარმომადგენელთა თითოეულ ჯგუფს აქვს ამ და სხვა ფაქტორების ერთობლიობა, ჩვენ შეგვიძლია შევქმნათ მკაფიო წესები: ამ და სხვა ფაქტორების კომბინაციების ხილვადობა ნებისმიერი თანმიმდევრულობით. მოდით გითხრათ, როგორი ადამიანები არიან ფოტოზე.
    მანქანათმცოდნეობა
    რა თქმა უნდა, ეს არის ძალიან მარტივი და ჭკვიანი მიდგომა ზედა დონის ფაქტორების მცირე რაოდენობით. რეალურ ამოცანებში, როგორიცაა კომპიუტერული სათვალთვალო სისტემების წინაშე დაყენებული, ბევრი სხვა ფაქტორია. მათი ხელით აყვანა და ნალექების გაწმენდა ძალიან ბევრია ადამიანმა. ასე რომ, ასეთ სიტუაციებში არ არსებობს გზა გაუმკლავდეს მანქანა უნარების გარეშე. მაგალითად, შეგიძლიათ იდენტიფიცირება ათობით cob ოფიციალური პირები, ასევე დააყენოთ დადებითი და უარყოფითი განაცხადები. და როდესაც ეს ფაქტორები ავტომატურად შეირჩევა, იქმნება ფორმულა, რომელიც გადაწყვეტილების მიღების საშუალებას იძლევა. დოსიტი ხშირად და თავად ჩინოვნიკები ავტომატურად ჩანან.
    გამოსახულება რიცხვებში
    ყველაზე ხშირად, ციფრული სურათების შესანახად გამოიყენება RGB ფერის სივრცე. თითოეულ კანს ენიჭება საკუთარი ფერი სამი ღერძის (არხის) საფუძველზე: წითელი, მწვანე და ლურჯი. კანის თითოეული არხი აჩვენებს 8 ბიტი ინფორმაციას, ამიტომ ფერის ინტენსივობა კანის ღერძზე შეიძლება დაყენდეს მნიშვნელობებზე 0-დან 255-მდე დიაპაზონში. RGB ციფრულ სივრცეში ყველა ფერი ერთნაირად გამოდის. არსებობს სამი ძირითადი ფერი. .

    სამწუხაროდ, RGB ყოველთვის არ არის კარგი ინფორმაციის ანალიზისთვის. ექსპერიმენტები აჩვენებს, რომ კითხვების გეომეტრიული სიახლოვე ბევრად სცილდება იმას, რომ ადამიანები სათითაოდ აღიქვამენ ამ და სხვა კითხვების სიახლოვეს.

    მოდით აღმოვაჩინოთ სივრცის სხვა ფერები. Velmi tsykavo ჩვენს კონტექსტში სივრცე HSV (Hue, Saturation, Value). მას აქვს მთელი მნიშვნელობა, რაც მიუთითებს სინათლის ინტენსივობაზე. აქ შეგიძლიათ იხილოთ შემდეგი არხი, RGB ხედის ქვეშ, სადაც მნიშვნელობა უნდა გამოითვალოს ყოველ ჯერზე. სინამდვილეში, ეს არის სურათის შავ-თეთრი ვერსია, რომლის გამოყენება უკვე შესაძლებელია. ელფერი ჩნდება გარეგნულად და წარმოადგენს ძირითად ტონს. Saturation მნიშვნელობიდან გამომდინარე (დადექით ცენტრიდან კიდემდე), დააყენეთ ფერის გაჯერება.

    HSV ბევრად უფრო ახლოს არის იმასთან, თუ როგორ ვამჟღავნებთ საკუთარ ფერს. თუ ადამიანებს მუქ წითელ და მწვანე ობიექტებს აჩვენებთ, ფერებს ვერ გამოყოფთ. იგივე ეხება HSV-ს. რაც უფრო დაბალი ხართ V ღერძზე, მით ნაკლებია განსხვავება ჩრდილებს შორის, რადგან მცირდება გაჯერების მნიშვნელობების დიაპაზონი. დიაგრამაში ის ჰგავს კონუსს, რომლის ზედა ნაწილში არის საზღვრის შავი წერტილი.

    ფერი და სინათლე
    რატომ არის ასე მნიშვნელოვანი სინათლის რაოდენობის შესახებ კითხვა? უმეტეს შემთხვევაში, კომპიუტერულ სისტემაში ფერს არავითარი მნიშვნელობა არ აქვს, რადგან ის არ შეიცავს რაიმე მნიშვნელოვან ინფორმაციას. მოდით შევხედოთ ორ სურათს: ფერადი და შავ-თეთრი. შავ-თეთრ ვერსიაზე ყველა ობიექტის ამოცნობა უფრო ადვილია, ვიდრე ფერადი. ჩვენთვის ამ პერიოდში ფერები არ ატარებენ დამატებით მნიშვნელობას, მაგრამ უშედეგოდ ქმნიან გამოთვლით პრობლემებს. როდესაც ჩვენ ვმუშაობთ გამოსახულების ფერად ვერსიასთან, მონაცემები, უხეშად რომ ვთქვათ, კუბის დონეზე მცირდება.

    ფერი გამოიყენება მხოლოდ იშვიათ შემთხვევებში, რაც მაინც შესაძლებელს ხდის გამოთვლების გამარტივებას. მაგალითად, თუ თქვენ გჭირდებათ ადამიანის ამოცნობა: უფრო ადვილია დაუყოვნებლივ გაიგოთ, თუ რა ფერი შეიძლება ნახოთ სურათზე, აქცენტი გააკეთეთ სხეულის ფერების დიაპაზონზე. აქედან გამომდინარე, საჭიროა სურათის მთლიანობაში ანალიზი.

    ლოკალური და გლობალური ნიშნები
    ნიშნები, რომლებსაც ჩვენ ვიყენებთ სურათების გასაანალიზებლად, შეიძლება იყოს ლოკალური ან გლობალური. თუ ამ სურათს დააკვირდებით, ალბათ იტყვით, რომ მასზე წითელი მანქანაა გამოსახული:

    ასეთი განცხადება მნიშვნელოვანია, რომ ადამიანებმა დაინახეს ობიექტი სურათზე და, შესაბამისად, აღწერეს ფერის ადგილობრივი ნიშანი. ფოტოზე დიდი რახუნკის უკან არის ტყის, გზის და რამდენიმე მანქანის სურათები. სივრცის მხრივ, მანქანა იკავებს მცირე ნაწილს. ჩვენ გვესმის, რომ მანქანა ამ სურათზე არის ყველაზე მნიშვნელოვანი ობიექტი. თუ ადამიანებს სურთ მსგავსი სურათების გაცნობა, ისინი ჯერ შეარჩევენ სურათებს, რომლებიც აჩვენებენ წითელ მანქანას.

    გამოვლენა და სეგმენტაცია
    კომპიუტერულ მეცნიერებაში ამ პროცესს ეწოდება გამოვლენა და სეგმენტაცია. სეგმენტაცია არის გამოსახულების დაყოფა უპიროვნო ნაწილებად, რომლებიც ერთმანეთთან არის დაკავშირებული ვიზუალურად ან სემანტიკურად. და გამოვლენა ნიშნავს სურათზე ობიექტების იდენტიფიცირებას. ამოცნობა მკაფიოდ უნდა გამოირჩეოდეს ამოცნობისაგან. მაგალითად, მანქანის იმავე სურათზე შეგიძლიათ ნახოთ საგზაო ნიშანი. მაგრამ მისი ამოცნობა შეუძლებელია, ამიტომ ზურგს შეგვიქცევს. ასე რომ, ინდივიდის ამოცნობისას, დეტექტორს შეუძლია მიუთითოს ინდივიდის ზრდა და "აღმცნობი" გეტყვით რატომ.

    აღწერები და ვიზუალური სიტყვები
    აღიარების მრავალი განსხვავებული მიდგომა არსებობს.

    მაგალითად, ეს: თირკმლის სურათზე თქვენ უნდა ნახოთ სწორი წერტილები ან სწორი ადგილები. გამოიყენეთ რაღაც განსხვავებული ფონისგან: ნათელი ფერები, გადასვლები და ა.შ. არსებობს მთელი რიგი ალგორითმები, რომლებიც საშუალებას გაძლევთ შექმნათ იგი.

    ერთ-ერთ ყველაზე ვრცელ მეთოდს ჰქვია გაუსელთა განსხვავება (DoG). გამოსახულების გაფართოებით სხვადასხვა რადიუსით და შედეგების თანაბრად აღებით, შეგიძლიათ იპოვოთ უდიდესი კონტრასტული ფრაგმენტები. ამ ფრაგმენტების მიმდებარე ტერიტორიები ყველაზე დაუცველია.

    ქვემოთ მოყვანილი სურათი არის მიახლოებითი სურათი იმისა, თუ როგორ გამოიყურება. შერჩეული მონაცემები აღირიცხება დესკრიპტორში.

    იმისათვის, რომ ახალი დესკრიპტორები სიბრტყეში ბრუნებისგან დამოუკიდებლად ამოიცნონ, ისინი ისე იფეთქებენ, რომ უდიდესი ვექტორები ერთი მიმართულებით მოტრიალდეს. არასოდეს არ არის ცუდი იდეა იყო მორცხვი. წინააღმდეგ შემთხვევაში, აუცილებელია ორი ახალი ობიექტის იდენტიფიცირება, სხვადასხვა სიბრტყეში გაშლილი.

    აღწერები შეიძლება დაიწეროს რიცხვითი ფორმით. აღმწერი შეიძლება წარმოდგენილი იყოს როგორც ხილული წერტილი მდიდარ მასივში. ჩვენ გვაქვს ორგანზომილებიანი მასივი ჩვენს ილუსტრაციაში. ჩვენი აღწერები მას მოიპარეს. შეგვიძლია დავაჯგუფოთ ისინი - დავყოთ ჯგუფებად.

    შემდეგ, კანის კლასტერისთვის, ჩვენ აღვწერთ სივრცეს სივრცეში. თუ აღმწერი იკარგება ამ მხარეში, ჩვენთვის მნიშვნელოვანი ხდება არა ის, სადაც ის დაიკარგა, არამედ რომელ უბნებში ჩაიძირა. და შემდეგ ჩვენ შეგვიძლია გავანაწილოთ სურათები, რაც ნიშნავს, რომ ერთი სურათის რამდენი აღმწერი გამოჩნდა იმავე კლასტერებში, როგორც მეორე სურათის აღწერები. ასეთი მტევანი შეიძლება ვიზუალურად ეწოდოს.

    იმისათვის, რომ იპოვოთ არა მხოლოდ იგივე სურათები, არამედ მსგავსი ობიექტების გამოსახულება, აუცილებელია გადაიღოთ ობიექტის ცარიელი სურათი და ცარიელი სურათები, რომლებიც მას არ შეიცავს. შემდეგ იხილეთ აღწერები მათგან და დააჯგუფეთ ისინი. შემდეგი, აუცილებელია გავიგოთ, რომელ კლასტერებს აქვთ აღწერილობები გამოსახულების მიხედვით, რომელ ობიექტზე გვჭირდება. ახლა ჩვენ ვიცით, რომ ახალი გამოსახულების აღწერები გადადის იმავე კლასტერებში, რაც ნიშნავს, რომ მოძიებული ობიექტი ახალ ყოფაშია.

    აღწერების თავიდან აცილება არ იძლევა მათი ობიექტების იდენტურობის გარანტიას. დამატებითი გადამოწმების ერთ-ერთი მეთოდია გეომეტრიული ვალიდაცია. ამ შემთხვევაში, ხდება აღწერების გათანაბრება, ცხადია, სათითაოდ.

    აღიარება და კლასიფიკაცია
    სიმარტივისთვის, მისაღებია, რომ ჩვენ შეგვიძლია დავყოთ ყველა სურათი სამ კლასად: არქიტექტურა, ბუნება და პორტრეტი. ჩვენ გვაქვს საკუთარი ბუნება, შეგვიძლია მისი დაყოფა სხვადასხვა სახეობის არსებებად და ფრინველებად. და უკვე გავაცნობიეროთ, რომ ფრინველები არსებობენ, ჩვენ შეგვიძლია ვთქვათ: ბუ, თოლია ან ყვავი.

    განსხვავება აღიარებასა და კლასიფიკაციას შორის აშკარაა. თუ სურათზე ბუ ამოვიცანი, მაშინ მეტს გადავიხდით აღიარებისთვის. თუ ეს მხოლოდ ჩიტია, მაშინ ეს შუალედური ვარიანტია. და ბუნების მსგავსად, არსებობს აბსოლუტური კლასიფიკაცია. ასე რომ, განსხვავება აღიარებასა და კლასიფიკაციას შორის მდგომარეობს იმაში, თუ რამდენად ღრმად გავიარეთ ხე. და რაც უფრო დიდხანს იქნება გამოქვეყნებული კომპიუტერული მონაცემები, ნაკლები დაბნეულობა იქნება კლასიფიკაციასა და ამოცნობას შორის.

  • მანქანათმცოდნეობა
  • მთელი ცხოვრების მანძილზე აქტიურად ვარ ჩართული ამოცანებში, რომლებიც დაკავშირებულია შაბლონების ამოცნობასთან, კომპიუტერულ ხედვასა და მანქანათმცოდნეობასთან. აღმოჩნდა, რომ ბევრი ბარგი დავაგროვე პროექტების დასრულებამდე (როგორც ჩემი, ისე სრულ განაკვეთზე პროგრამისტის, რომელიც დასასრულს აპირებს). მანამდე, მას შემდეგ, რაც მე დავწერე რამდენიმე სტატია Habré-ზე, მკითხველები ხშირად მეკონტაქტებიან და დახმარებას ითხოვენ თავიანთი ამოცანების შესრულებაში, რათა ვასიამოვნო მათ. ამიტომ ხშირად ვხვდები სრულიად განუვითარებელ CV ალგორითმებს.
    ალე, ჯანდაბა, 90% შემთხვევაში ერთს ვსვამ სისტემური წყალობა. ყოველ ჯერზე და ისევ. დარჩენილი ბედის 5-სთვის მე უკვე ავუხსენი ეს ათეულობით ადამიანს. ასე რომ, იქ, დროდადრო, მიმდინარეობს ოპერაციები ...

    კომპიუტერული ხედვის 99%-ისთვის, იმ ამოცანის გამოვლინებებს, რაც თქვენ ჩამოაყალიბეთ თქვენს თავში, და უფრო მეტიც, თქვენს მიერ ასახული პროგრესი არაფერ შუაშია რეალობასთან. მომავალში წარმოიქმნება სიტუაციები, რომლებზეც ვერც იფიქრებდით. ამოცანის ჩამოყალიბების ერთ-ერთი გზაა აპლიკაციების მონაცემთა ბაზის შეგროვება და მისგან მუშაობა, როგორც იდეალური, ისე უარესი სიტუაციების დათვალიერება. რაც უფრო ფართოა ბაზა, მით უფრო ზუსტად ენიჭება დავალება. ბაზის გარეშე მცენარეზე საუბარი შეუძლებელია.

    ტრივიალური აზრი. ალე ყველას წყალობა აქვს. აბსოლუტურად ყველაფერი. სტატისტიკურად, მე მოვიყვან ასეთი სიტუაციების რამდენიმე მაგალითს. თუ მცენარე ცუდად არის მოწყობილი, ზოგჯერ კარგია. და რა სახის ხარვეზებს შეიძლება მოძებნოთ კომპიუტერული ხედვის სისტემების ტექნიკური მახასიათებლების სახით.

    თვით დავიწყება, ჩემი აზრით, ვირიშუვანზე უარესია. როგორ ავიღოთ ხატები საცნობარო წერტილებად და გაათანაბროთ ისინი იგივე მეთოდებით, როგორც ნიველირება. კარგი, კიდევ ერთხელ ვიტყვი, სანამ მონაცემთა ბაზას არ შეამოწმებთ მინიმუმ რამდენიმე ასეული კონდახით, არასოდეს იცით, შეიძლება თუ არა რობოტის წარმატებით გაძევება. ვაი, ასეთი წინადადება არ იყო სტატიის ავტორის ღირსი... შკოდა!
    ეს არის ორი ყველაზე მნიშვნელოვანი და წარმომადგენლობითი მაგალითი, ჩემი აზრით. მის უკან შეგიძლიათ გაიგოთ, რატომ არის საჭირო იდეიდან აბსტრაცია და გაოცება რეალური კადრებით.
    არის კიდევ რამდენიმე კონდახი, რომლითაც მე ვარ ჩარჩენილი, ოღონდ რამდენიმე სიტყვით. ყველა ამ შემთხვევაში, ადამიანებს არ ჰქონდათ ერთი და იგივე ფოტო იმ მომენტში, როდესაც დაიწყეს საუბარი დავალების შესრულების შესაძლებლობის შესახებ:
    1) მარათონის მორბენალთა ნომრების ამოცნობა მაისურებზე ვიდეო ნაკადის საშუალებით (სურათი Yandix-დან)


    ჰეი. ფოკი გოთუვავ სტატუს წეზე წაუსვი. ძალიან კარგი მარაგი, რომელიც აჩვენებს ყველა პოტენციურ პრობლემას. არის სხვადასხვა შრიფტები, არის არასტაბილური ფონი ჩრდილებით, არის ბუნდოვანება და ბუნდოვანი ფერი. და რაც მთავარია. დეპუტატი იდეალიზებულ ბაზას აცნობს. მე ავიღე კარგი კამერა უძილო დღეს. სცადეთ დაათვალიეროთ სპორტსმენების ნომრები მაისურებზე Yandix Search-ის გამოყენებით.
    ჰეი.ჰეეგამოქვეყნებამდე ორიოდე წლით ადრე რაპტოვოს თხოვნის ავტორმა მთხოვა შემესრულებინა ნამუშევარი, როგორც შთაგონებული ვიყავი :) და მაინც, ეს კარმაა, დავამატოთ სტატისტიკას.

    2) ტექსტის ამოცნობა ტელეფონის ეკრანის ფოტოებში


    3) მე, ჩემი საყვარელი უკანალი. ფურცელი ფოსტით:
    " გამოსახულების ამოცნობისთვის საჭიროა პროგრამა კომერციულ სექტორში.
    რობოტული ალგორითმი შემდეგია. პროგრამის ოპერატორი განსაზღვრავს ობიექტის (ობიექტების) გამოსახულებებს რამდენიმე კუთხიდან და ა.შ.
    შემდეგ, როდესაც გამოჩნდება ობიექტის რომელიმე ან ყველაზე მსგავსი სურათი, პროგრამა შეასრულებს საჭირო დავალებას.
    ბუნებრივია, დეტალებს ჯერ ვერ ვამხელ.
    "(მართლწერა, პუნქტუაციის შენახვა)

    კარგი
    ალა, ყველაფერი ასე ცუდად არ არის! სიტუაცია, როდესაც ამოცანა იდეალურად არის დაყენებული, ხშირად უარესდება. ჩემი ფავორიტი: ”პროგრამული უზრუნველყოფაა საჭირო ფოტოზე ლოსი ავტომატურად ასაღებად.
    კონდახის ფოტო ბორკით ჩამოკიდებული. »



    ფოტო დაწკაპუნებულია.
    ახლაც ვნანობ, რომ ეს მცენარე არ გაიზარდა. მან მოიპარა კანდიდატის პირველი ხარისხი და დაიწყო სწავლა, შემდეგ კი დეპუტატმა გააფუჭა ენთუზიაზმი (ან იცნობდა სხვა ვიკონავიელებს).
    წარმოებას არ აქვს გადაწყვეტის უმცირესი ინტერპრეტაცია. მხოლოდ ორი გამოსვლა: „რა უნდა გაკეთდეს“, „მონაცემების შეყვანა“. ბევრი შეყვანის მონაცემები. Ის არის.

    დუმკა - ვისნოვოკი

    ამოცანის დასახვის ერთადერთი გზაა ბაზის შეგროვება და ამ ბაზაზე დაფუძნებული მუშაობის მეთოდოლოგიის განსაზღვრა. რისი ამოღება გსურთ? რა საზღვრები აქვს ალგორითმს? ვის გარეშეც ვერ წახვალ ქორწილში, მაგრამ ვერ შეძლებ. მონაცემთა ბაზის გარეშე, დეპუტატს შეუძლია დაუყოვნებლივ თქვას: „თქვენ არ გაქვთ ასეთი და ეს პრობლემა. მაგრამ სიტუაცია კრიტიკულია! ამის გარეშე მე არ მივიღებ სამუშაოს. ”

    როგორ ჩამოვაყალიბოთ ბაზა

    საგალობელი, ყველაფერი წინაპირობაა. ეს სტატია იწყება აქ. აზრი, რომ ნებისმიერი CV და ML ამოცანა მოითხოვს ტესტირების ბაზას, აშკარაა. როგორ შეგიძლიათ მიიღოთ ასეთი ბაზა? რამდენადაც მახსოვს, სამჯერ-ოთხჯერ ძირი შეაგროვეს და ტუალეტში ჩაყარეს. სხვები და მეგობრები. იმიტომ რომ არაწარმომადგენლობითი იყო. რა არის დასაკეცი?
    აუცილებელია გვესმოდეს, რომ "საფუძვლის შეგროვება" = "დავალების დასახვა". ბაზაა დამნაშავე:
    1. წარმოადგენენ მენეჯმენტის პრობლემებს;
    2. გონების წარმოდგენა, რომლებშიც სამყარო იარსებებს;
    3. ჩამოაყალიბეთ ბრძანება შემდეგნაირად;
    4. მიიყვანეთ დეპუტატი და ვიკონავიანი კონსენსუსის შესახებ, თუ რა დაირღვა.
    როკის დროა
    ორიოდე წლის წინ გადავწყვიტეთ შეგვექმნა სისტემა, რომელიც მობილურ ტელეფონებზე მუშაობდა და სანომრე ნიშნები ამოიცნობდა... იმ დროს უკვე ახალი ვიყავით CV სისტემებში. იცოდნენ, რომ საჭირო იყო ასეთი ბაზის შეგროვება, რომ დამპალი ყოფილიყო. გაოცებულიყავი მისით და მაშინვე გააცნობიერე ყველა პრობლემა. ჩვენ შევაგროვეთ შემდეგი მონაცემთა ბაზა:


    მათ გატეხეს ალგორითმი და დაასრულეს ეს ცუდად. ნანახი რიცხვების 80-85% ამოცნობის მიცემა.
    დიახ, დიახ... მხოლოდ იმ შემთხვევაში, თუ ყველა ნომერი გახდა სუფთა და მობილური ტელეფონის ნომრების მოთხოვნის სისტემის სიზუსტე კარგია 5-ისთვის...
    ბიომეტრია
    ჩვენ ცხოვრებაში ბევრი ვიმუშავეთ ბიომეტრიასთან (,). და, როგორც ჩანს, ბიომეტრიული მონაცემთა ბაზების შეგროვებისას ყველა შესაძლო საკომისიოში ჩავვარდით.
    ბაზა დამნაშავეა სხვადასხვა ადგილას შეგროვებაში. თუ ბაზის შეგროვების მოწყობილობა ხელმისაწვდომია მხოლოდ საცალო ვაჭრობისგან, ადრე ირკვევა, რომ ის არ არის მიბმული მიმდინარე ნათურაზე.
    ბიომეტრიული მონაცემთა ბაზები მოითხოვს 5-10 სნეპშოტს ერთ ადამიანზე. და დანაშაულის გრძნობის 5-10 გასროლა იქნება გადაღებული სხვადასხვა დღეს, დღის სხვადასხვა საათში. ყოველ ჯერზე, როდესაც ადამიანი უახლოვდება ბიომეტრიულ სკანერს, ისინი სკანირდებიან იმავე გზით. ადამიანები სხვადასხვა დღეებში უახლოვდებიან - სხვადასხვა გზით. ზოგიერთი ბიომეტრიული მახასიათებელი შეიძლება ოდნავ შეიცვალოს დაჭერით.
    საცალო ვაჭრობისგან შეგროვებული მონაცემთა ბაზა არარეპრეზენტატიულია. სუნი აშკარად იკითხება, რომ ყველაფერი მშვიდად ჩაივლის...
    გაქვთ სკანერის ახალი მოდელი? ფიქრობთ, რომ ძველ ბაზაზე მუშაობთ?
    თვალები გროვდება სხვადასხვა სკანერებიდან. სხვადასხვა სამუშაო სფერო, განსხვავებული ხედები, სხვადასხვა ჩრდილები, სხვადასხვა ნებართვის სივრცე და ა.შ.





    დასაწყებად ნერვული გაზომვებისა და ალგორითმების საფუძველი
    თუ თქვენ გაქვთ რაიმე სახის ალგორითმი თქვენს კოდში, ეს დაკარგული მიზეზია. თქვენ უნდა ჩამოაყალიბოთ საფუძველი თქვენი გაგებით დასაწყებად. ვთქვათ, თქვენი ამოცნობის ამოცანას აქვს ორი ძალიან განსხვავებული შრიფტი. პირველი გვხვდება შემთხვევების 90% -ში, მეორე - 10%. თუ თქვენ დაჭრით ორ შრიფტს ერთნაირი პროპორციით და გამოიყენებთ მათთვის ერთ კლასიფიკატორს, მაშინ მაღალი ნდობით იქნება აღიარებული პირველი შრიფტის ასოები, მაგრამ მეორის ასოები არა. ამრიგად, ნერვული ქსელი / SVM იპოვის ლოკალურ მინიმუმს არა იქ, სადაც პირველი შრიფტის 97% არის აღიარებული და მეორის 97%, მაგრამ სადაც პირველი შრიფტის 99% და მეორის 0%. თქვენს ბაზას უნდა ჰქონდეს კანის ტიპის საკმარისი აპლიკაციები, რათა პროგრესი არ მივიდეს განსხვავებულ მინიმუმამდე.

    როგორ ჩამოვაყალიბოთ ბაზა რეალურ მოადგილესთან მუშაობისას

    ერთ-ერთი არატრივიალური პრობლემა მონაცემთა ბაზის შეგროვებისას არის ის, თუ ვინ არის დამნაშავე წარუმატებლობაში. მოადგილე ანუ ვიკონავეც. დავიწყებ ცხოვრებიდან ბინძური დუნდულების მოყვანით.
    მე დაგიქირავებ ჩემი დავალების შესასრულებლად!
    ერთხელაც ვიგრძენი ეს ფრაზა. და მალე, თქვენ არ გეჩქარებათ. წინააღმდეგ შემთხვევაში, ქარხანაში მხოლოდ ბაზის შეგროვება იქნებოდა საჭირო, სადაც არავის დაუშვებდნენ. და კიდევ უფრო მეტი ჩვენთვის, მფლობელობის მოპოვების შესაძლებლობის მიცემის გარეშე. ეს ის მონაცემებია, რამაც განსხვავების გასაღები მისცა: რამდენიმე პიქსელის ზომის ობიექტი, ძალიან ხმაურიანი კამერა პულსური ტრანსკოდებით, რომელიც პერიოდულად ირევა, მათ შორის ოცი სატესტო სურათი. ამ თემაზე დადეთ უკეთესი კამერა, აირჩიეთ უკეთესი კუთხე გადაღებისთვის, ააწყვეთ რამდენიმე ასეული კონდახის მონაცემთა ბაზა, უფროსის მოადგილე სათაურიდან ფრაზით.
    ჩვენ არ გვაქვს საკმარისი დრო ამის გასაკეთებლად!
    ოდესღაც დიდი კომპანიის დირექტორმა (100 ადამიანი + ოფისები მსოფლიოს მრავალ ქვეყანაში) გაღვიძება დაიწყო. პროდუქტში, რომელიც ამ კომპანიამ აწარმოა, ზოგიერთი ფუნქციონირება განხორციელდა კიდევ უფრო ძველი და კიდევ უფრო მარტივი ალგორითმებით. დირექტორმა გვითხრა, რომ დიდი ხანია ოცნებობს ამ ფუნქციის მიმდინარე ალგორითმებად შეცვლაზე. მოდით დავიქირაოთ დეველოპერების ორი განსხვავებული გუნდი. ალე არ მომწიფებულა. ერთი გუნდი ზედმეტად აწარმოებდა თეორიას მისი სიტყვების მიღმა, მეორემ კი არ იცოდა რაიმე თეორია და შემაშფოთებელი იყო. გვინდოდა გაგვეცადა.
    მეორე დღეს ჩვენ მივიღეთ წვდომა უამრავ ნედლეულ ინფორმაციაზე. უფრო მეტიც, მე არ ვიქნები წინააღმდეგი მდინარის გადაღმა გადახედვა. რამდენიმე დღე რომ გავატარეთ ინფორმაციის გაანალიზება, გავფრთხილდით და ვკითხეთ: "რა გჭირდებათ ახალი ალგორითმების თვალსაზრისით?" ჩვენ მოგვცეს დაახლოებით ორი ათეული სიტუაცია, თუ ალგორითმები ზუსტად არ მუშაობს. მაგრამ რამდენიმე დღეში მე განვიცდიდი ამ სიტუაციებიდან ერთზე მეტს. მონაცემების სხვა დასტას რომ გადახედეთ, შეგიძლიათ ნახოთ კიდევ ერთი. საკვებისთვის: "რა სიტუაციებია ტურბულენტური თქვენი კლიენტებისთვის მომავალ კვირას?" ასეთი სტატისტიკა არ ჰქონდათ.
    ჩვენ ვაკვირდებოდით კვებას და შევიმუშავეთ გადაწყვეტილების ალგორითმი, რომელიც ავტომატურად შეარჩევდა ყველა შესაძლო სიტუაციას. ალე დახმარება გვჭირდებოდა ორი გამოსვლით. უპირველეს ყოვლისა, ჩვენ უნდა დავიწყოთ ინფორმაციის დამუშავება თავად კომპანიის სერვერებზე (ჩვენ არ გვქონდა საკმარისი გამოთვლითი ძალისხმევა და არც საკმარისი არხი იმ წერტილამდე, სადაც ჩვენი მონაცემები შენახული იყო). დღესდღეობით კომპანიის ადმინისტრატორის მუშაობა აქტიურია. წინააღმდეგ შემთხვევაში, კომპანიის წარმომადგენელი პასუხისმგებელია შეგროვებული ინფორმაციის კლასიფიკაციაზე მნიშვნელოვანი და დამუშავების საჭიროების მიხედვით (კიდევ სამი დღის განმავლობაში). ამ დრომდე ჩვენ უკვე ორი-სამი საათი ვხარჯავდით მონაცემების გაანალიზებას, თემებზე სტატიების კვლევასა და ინფორმაციის შეგროვების პროგრამებს (ამ ეტაპზე არანაირი შეთანხმება არ გაფორმებულა, ყველა მუშაობდა ნებაყოფლობით ჩასაფრებაზე).
    რაზეც გვითხრეს: „ამ ამოცანის შესასრულებლად ვერავის ვერ ვაკომპლექტებთ. თავად გაარკვიე“. რომელზედაც ვეხვეწეთ და წამოვედით.
    დეპუტატი აძლევს ბაზას
    იყო კიდევ ერთი ეპიზოდი. ამჯერად უფრო მცირე მოადგილეა. ხოლო სისტემა, რომელსაც დეპუტატი ხელმძღვანელობს, რეგიონის მთელ ტერიტორიაზეა მიმოფანტული. მაშინ დეპუტატი მიხვდება, რომ ბაზას ვერ ავიღებთ. მთელი ძალით ვცდილობ ბაზის აღებას. აგროვებს. ძალიან დიდი და მრავალფეროვანი. და ამბობენ, რომ ბაზა წარმომადგენლობითია. დავიწყოთ ვარჯიში. ალგორითმი კიდევ უფრო დაიხვეწება. დაწყებამდე ცხადია, რომ ალგორითმი მუშაობს შეგროვებულ საფუძველზე. მე სრულიად კმაყოფილი ვარ შეთანხმებით. თუმცა, ბაზის ღერძი არ იყო წარმომადგენლობითი. მას არ აქვს სიტუაციის 2/3. და ეს სიტუაციები წარმოდგენილია არაპროპორციულად. რეალურ მონაცემებში კი სისტემა ბევრად უარესად მუშაობს.
    ღერძი და გასასვლელი. დავსველდით. ყველაფერი, რაც გააკეთეს, წაართვეს, თუმცა დავალება გაცილებით რთული აღმოჩნდა, ვიდრე დაგეგმეს. დეპუტატი იღლებოდა. დიდი დრო გავატარე მონაცემთა ბაზის შეგროვებაზე.
    სამწუხაროდ, შედეგი სისულელეა. მე მქონდა შანსი გაერკვია რაღაცეები გასვლისას, თუ ხვრელების გაშლა მომინდა...
    მაშ ვინ არის დამნაშავე ბაზის ფორმირებაში?
    პრობლემა ის არის, რომ კომპიუტერული მეცნიერები ხშირად ადანაშაულებენ დასაკეცი სისტემებს. სისტემები, რომლებშიც ათობით ქვა მუშაობდა უამრავ ადამიანთან. ასეთ სისტემაში დაწყება ხშირად ბევრად უფრო ძვირია, ვიდრე თავად დავალება. დეპუტატს კი სურს, რომ როზრობა ხვალ დაიწყოს. და რა თქმა უნდა, წინადადება არის გადაიხადოთ ტექნიკური მახასიათებლებისა და საფუძვლის მომზადებისთვის 2-ჯერ მეტი თანხა, ვიდრე წარმოების ღირებულება, გაზარდოთ ვადები 3-ჯერ, მიეცით წვდომა თქვენს სისტემებსა და ალგორითმებზე, ეწვიეთ სპეციალისტს, რომელიც აჩვენებს ყველაფერი და დაადასტურეთ რა სასწაულია.
    ჩემი აზრით, კომპიუტერის საათის ნებისმიერი ამოცანის გადაწყვეტა მოითხოვს გლუვ დიალოგს დეპუტატსა და ვიკონავიანს შორის და თავად დეპუტატის მოვალეობაა ჩამოაყალიბოს დავალება. თქვენ არ იცით დეპუტატის ბიზნესის ყველა ნიუანსი, არ იცით სისტემას შორის. დროდადრო არასდროს დამისვამს კითხვას: "ეს შენთვის წვრილმანია, ხვალ მივიღებ გადაწყვეტილებას", მეკითხებოდა. ეს იყო გადაწყვეტილება. მუშაობდა ისე როგორც უნდა?
    მე თვითონ ვარ ცდუნება, მოვერიდო ასეთ კონტრაქტებს. მე თვითონ ვაკეთებ, რადგან რაღაც კომპანიაში გავაფორმე ხელშეკრულება გაყიდვაზე.
    ზოგადად, სიტუაციის დახატვა შეიძლება შემდეგნაირად: ვთქვათ, გსურთ გააკონტროლოთ თქვენი გართობა. Შენ შეგიძლია:
    კარგად დაფიქრდით და მოაწყვეთ ყველაფერი თავიდან ბოლომდე. არსებითად, ეს ვარიანტი არის „განძის შექმნა შენთვის“.
    იფიქრეთ ყველაფერი თავიდან ბოლომდე. დაწერეთ ყველა სცენარი. კანის როლისთვის ვიკონავიელებს ვიქირავებ. სადღეგრძელო რომ სტუმრები არ შეწუხდნენ, რესტორანი რომ ყველაფერი მომზადდეს და განხორციელდეს. დაწერეთ თამადის ძირითადი მონახაზი, რესტორნის მენიუ. ეს ვარიანტი არის დიალოგი. მიაწოდეთ ვიკონავიანს ხარკი, მოაწერეთ ხელი ყველაფერს, რაც საჭიროა.
    თქვენ შეგიძლიათ იფიქროთ დიდ ბლოკებში, დეტალებში ჩაღრმავების გარეშე. დაიქირავე სადღეგრძელო, არ მოგერიდოს, არ მოგერიდოს. ნუ დაელოდებით რესტორნის მენიუს. სთხოვეთ დიზაინერს შეარჩიოს ქსოვილი, სავარცხელი და გამოსახულება. თავის ტკივილი იქნება მინიმუმი, მაგრამ თუ გაშიშვლებისთვის შეჯიბრებებია, მაშინ მიხვდები, რომ ყველაფერი არასწორად გაკეთდა. შორს არის ის ფაქტი, რომ მათ, ვინც ბრძანებებს „აღიარეთ ჩემი სიმბოლოს“ სტილში ჩამოაყალიბეს, მსჯავრდებულმა და დეპუტატმა ერთი და იგივე ესმით.
    და თქვენ შეგიძლიათ ყველაფერი უთხრათ ბედნიერ სააგენტოს. ძვირია, საერთოდ არ არის საჭირო ფიქრი. ისე, არავინ იცის რა გამოვა. ვარიანტი - "გააკეთე უკეთესი ჩემთვის". ყველაფერზე მეტად იაკისტი ომის პირისპირ იტყუება. ალე არა ობოვიაზკოვო

    ეს არის ქარხანა და არ არის საჭირო ბაზა

    ე. უპირველეს ყოვლისა, დავალებებში, დე ბაზა - ეს ძალიან რთულია. მაგალითად, რობოტის შექმნა, რომელიც აანალიზებს ვიდეოს და შემდეგ იღებს გადაწყვეტილებებს. საჭიროა რაიმე სახის ტესტის სტენდი. თქვენ შეგიძლიათ შექმნათ ბაზა ნებისმიერი რაოდენობის ფუნქციისთვის. თუმცა, შეუძლებელია მონაცემთა ბაზის შექმნა ქმედებების რეგულარული ციკლის მიხედვით. სხვანაირად თუ წახვალ დოსლედნიცკა რობოტი. მაგალითად, ჩვენ ვამუშავებთ არა მხოლოდ ალგორითმებს, არამედ მოწყობილობებს, რომლებითაც მოხდება მონაცემთა ბაზის შეგროვება. ყოველდღე, ახალი მოწყობილობა, ახალი პარამეტრები. როდესაც ალგორითმი იცვლება დღეში სამჯერ. ასეთ გონებაში ბაზისი გაფუჭებულია. თქვენ შეგიძლიათ შექმნათ ნებისმიერი ადგილობრივი მონაცემთა ბაზა, რომელიც იცვლება ყოველდღიურად. სამწუხაროდ, მსოფლიომ ამის შესახებ არ იცის.
    მესამე, კიდევ ერთხელ, შეგიძლიათ შექმნათ მოდელი. მოდელირება ძალიან დიდი და რთული თემაა. როგორ შეგიძლიათ ფულის შოვნა კარგი მოდელიიაფია, მაშინ აუცილებელია მუშაობა. თუ გსურთ ამოიცნოთ ტექსტი, რომელიც შეიცავს მხოლოდ ერთ შრიფტს, უმარტივესი გზაა მოდელირების ალგორითმის შექმნა (

    კომპიუტერული მეცნიერებით დაინტერესებული Vinik ერთ-ერთი პირველია ამ სფეროში ცალი ინტელექტიშეუკვეთეთ ისეთი ამოცანები, როგორიცაა თეორემებისა და ინტელექტუალური თამაშების ავტომატური დასრულება. ნერვული წრედის პირველი ნაწილის - პერცეპტრონის არქიტექტურა შემოგვთავაზა ფრენკ როზენბლატმა, თვალის ბადურის ანალოგიის საფუძველზე და მისი კვლევა ჩატარდა გამოსახულების სიმბოლოების ამოცნობის ამოცანის გამოყენებაზე.

    მხედველობის პრობლემის მნიშვნელობა არასოდეს ყოფილა ეჭვი, მაგრამ ამავე დროს მისი სირთულე სერიოზულად არ იყო შეფასებული. მაგალითად, 1966 წელს, ხელოვნური ინტელექტის დარგის ერთ-ერთი დამფუძნებელი, მარვინ მინსკი, ლეგენდარული გახდა მისი ოსტატურობის გამო, როდესაც მან გადაწყვიტა თავად არ მოეგვარებინა ხელოვნური ინტელექტის პრობლემა, მაგრამ იგი უახლოეს მომავალში მიანდო ერთ სტუდენტს. პროგრამის შექმნით, რომელიც დიდოსტატის თანაბარ ჩეკებს თამაშობს, მნიშვნელოვნად უფრო გრძელი საათი დაინერგა. თუმცა, მაშინვე აშკარაა, რომ იმისათვის, რომ შეიქმნას პროგრამა ხალხის ჩეკებში დასამარცხებლად, უფრო მარტივია ადაპტური კონტროლის სისტემის შექმნა კომპიუტერული ხედვის ქვესისტემით, რომელსაც შეუძლია უბრალოდ გადააკეთოს საკონტროლო ნაწილები უფრო რეალისტურ საფუძველზე.

    კომპიუტერული მეცნიერების სფეროში პროგრესზე მიუთითებს ორი ფაქტორი: თეორიის განვითარება, მეთოდები და ტექნიკის განვითარება. დიდი ხნის განმავლობაში, თეორიამ და აკადემიურმა კვლევამ აჯობა კომპიუტერული ხედვის სისტემების პრაქტიკული განვითარების შესაძლებლობას. გონებრივად შეიძლება დაინახოს თეორიის განვითარების რამდენიმე ეტაპი.

    • 1970-იან წლებამდე ჩამოყალიბდა გამოსახულების დამუშავების სფეროში ძირითადი კონცეპტუალური აპარატი, რომელიც საფუძვლად უდევს მხედველობის პრობლემების გამოკვლევებს. ჩვენ ასევე ვნახეთ ძირითადი ამოცანები, სპეციფიკური მანქანური ხედვისთვის, რომლებიც დაკავშირებულია სცენის ფიზიკური პარამეტრების შეფასებასთან (დიაპაზონი, მოძრაობის სითხე, ზედაპირის სირბილე და ა. გამარტივებული პარამეტრი "სათამაშოების კუბების სამყაროსთვის".
    • 1980-იან წლებამდე ჩამოყალიბებული იყო მათი ანალიზის მეთოდებში წარმოდგენილი თანატოლების თეორია. დევიდ მარის წიგნი „ზირ. საინფორმაციო მიდგომა განათლებისა და ჯანსაღი სურათების დამუშავებისადმი“.
    • 90-იან წლებამდე ხდებოდა მიდგომების სისტემატური განვითარება ყველაზე საბაზისო მიდგომების მიმართ, რომლებიც უკვე კლასიკური გახდა, მანქანური თვალისთვის მიცემული.
    • 90-იანი წლების შუა პერიოდიდან დაიწყო გადასვლა ფართომასშტაბიანი კომპიუტერული სათვალთვალო სისტემების შექმნასა და კვლევაზე, რომლებიც გამოიყენება სხვადასხვა ბუნებრივ გონებაში მუშაობისთვის.
    • ამჟამინდელი ეტაპი არის მანქანური სწავლების პრინციპებზე დაფუძნებული სურათების ავტომატური გამოვლენის მეთოდების უდიდესი განვითარება გამოსახულების ამოცნობის სისტემებში და კომპიუტერულ ხედვაში.

    ამავდროულად, გამოყენებითი სტაგნაცია გამოყოფილი იყო გამოთვლითი რესურსებით. იმისათვის, რომ მიაღწიოთ გამოსახულების უმარტივეს შესაძლო დამუშავებას, თქვენ უნდა დაათვალიეროთ ყველა პიქსელი ერთხელ (და დააწკაპუნოთ ერთზე მეტჯერ). ამ მიზნით საჭიროა წამში მინიმუმ ასობით ათასი ოპერაციის დაზოგვა, რაც დიდი ხნის განმავლობაში შეუძლებელი იყო და გამარტივებას საჭიროებდა.

    მაგალითად, ამისთვის ავტომატური ამოცნობაწარმოების ნაწილები შეიძლება დამახინჯდეს კონვეიერის შავი ხაზით, რაც საჭიროებს ცალკეული ობიექტის ფონს, ან ობიექტების სკანირებას, რომლებიც იშლება ფოტოდიოდების ხაზით სპეციალური განათებით, რომელიც უკვე ფორმირების დონეზეა. სიგნალი უზრუნველყოფდა უცვლელი ნიშნების ხილვადობას ამოცნობისთვის, ინფორმაციის ანალიზის რაიმე რთული მეთოდის შეფერხების გარეშე. თვალთვალის და ამოცნობის მიზნით ოპტიკურ-ელექტრონულ სისტემებში გამოიყენებოდა ფიზიკური ტრაფარეტები, რომლებიც ფილტრაციის „ტექნიკური“ კონფიგურაციის საშუალებას იძლევა. ზოგიერთი ამ გადაწყვეტილებიდან ინჟინერიის თვალსაზრისით გენიალური იყო, მაგრამ მხოლოდ სტაგნაციას განიცდიდა დავალებებს, რომლებსაც აქვთ დაბალი აპრიორი უმნიშვნელოვანესი და, შესაბამისად, მოკლევადიანი, ცუდი გადაცემა ახალ ამოცანაზე.

    ასევე გასაკვირი არ არის, რომ 1970-იან წლებში იყო პიკი ინტერესისა და ოპტიკური გამოთვლების გამოსახულების დამუშავებაში. მათ საშუალება მისცეს განეხორციელებინათ მეთოდების მცირე ნაკრები (ყველაზე მნიშვნელოვანია კორელაციური) ურთიერთდაკავშირებულ უცვლელობის ავტორიტეტებთან, მაგრამ ასევე დიდი ეფექტურობით.

    პროცესორების მზარდი პროდუქტიულობის (ასევე ციფრული ვიდეოკამერების განვითარებასთან ერთად) სიტუაცია შეიცვალა. ქერქის კულტურების წარმოებისთვის საჭირო პროდუქტიულობის ზღურბლის გონივრულ საათში მიღწევამ გზა გაუხსნა კომპიუტერული დამხმარე საშუალებების მთელ ზვავს. თუმცა უნდა აღინიშნოს, რომ ეს გადასვლა არ არის შემარბილებელი და შემაშფოთებელია.

    ცოტა ხნის წინ, გამოსახულების დამუშავების ალგორითმები ხელმისაწვდომი გახდა სპეციალური პროცესორებისთვის - ციფრული სიგნალის პროცესორები (DSP) და პროგრამირებადი ლოგიკური ინტეგრირებული სქემები (FPGA), რომლებიც ფართოდ იქნა გამოყენებული და დღესაც ფართოდ გამოიყენება ბორტ და სამრეწველო სისტემებში.

    ამასთან, კომპიუტერული ხედვის მეთოდების ეფექტურმა მასობრივმა მიღებამ ათ წელზე ნაკლები წაართვა პერსონალურ კომპიუტერებში პროცესორების პროდუქტიულობის მსგავსი დონის მიღწევებს. მობილური კომპიუტერები. ამგვარად, კომპიუტერული სათვალთვალო სისტემის პრაქტიკული ფუნქციონირების კუთხით, გავლილია რამდენიმე ეტაპი: კონკრეტული ამოცანების ინდივიდუალური გადაწყვეტილების (როგორც ტექნიკის უსაფრთხოების, ისე ალგორითმების თვალსაზრისით) ეტაპი; განვითარების ეტაპი პროფესიულ სფეროებში (განსაკუთრებით სამრეწველო და თავდაცვის სექტორებში) სპეციალური პროცესორების, სპეციალიზებული გამოსახულების სისტემებისა და ალგორითმების გამოყენებით, შექმნილია დაბალი აპრიორი უმნიშვნელო მნიშვნელობის მქონე სამუშაოებისთვის, მაგრამ გადაწყვეტილებამ დაუშვა მასშტაბირება; და მასობრივი სტაგნაციის ეტაპი.

    როგორც ჩანს, მანქანათმხედველობის სისტემა მოიცავს შემდეგ ძირითად კომპონენტებს:

    ყველაზე ფართოდ გამოყენებული სისტემებია კომპიუტერული ხედვის სისტემები, რომლებიც იყენებენ სტანდარტულ კამერებს და კომპიუტერებს, როგორც პირველი ორი კომპონენტის ნაწილად (ტერმინი "კომპიუტერული ხედვა" უფრო შესაფერისია ასეთი სისტემებისთვის, მაგრამ ჩვენ არ გვინდა ნათლად გავიგოთ მანქანა და კომპიუტერული ხედვა. ). თუმცა, რა თქმა უნდა, სხვა მანქანათმხედველობის სისტემები არანაკლებ მნიშვნელოვანია. გამოსახულების ფორმირების „არასტანდარტული“ მეთოდების არჩევანი (მათ შორის, სპექტრული დიაპაზონი, გარდა ხილულისა, თანმიმდევრული გავრცელების, სტრუქტურირებული გადართვის, ჰიპერსპექტრული მოწყობილობების, დროის გასვლის, ყველა მიმართულების და ა.შ.) კამერების, ტელესკოპების, მიკროსკოპების და ა.შ.) მნიშვნელოვნად ფართოვდება. მანქანათმხედველობის სისტემების შესაძლებლობები. იმ დროს, რადგან მანქანური ხედვის ალგორითმული უსაფრთხოების სისტემის შესაძლებლობები მთლიანად კომპრომეტირებულია ადამიანის მზერით, სუნის ობიექტების მონიტორინგის შესახებ ინფორმაციის ამოღების შესაძლებლობები მთლიანად გადალახავს მას. თუმცა, გამოსახულების ფორმირება დამოუკიდებელ სფეროდ იქცევა და სხვადასხვა სენსორებიდან აღებულ სურათებთან მუშაობის მეთოდები იმდენად მრავალფეროვანია, რომ მათი მიმოხილვა სცილდება ამ სტატიის ფარგლებს. ამ ორთან დაკავშირებით, ჩვენ გავცვლით კომპიუტერულ ხედვის სისტემებს, რომლებსაც იყენებენ პირველადი კამერები.

    Zastosuvannya რობოტიკაში

    რობოტიკა მანქანური სწავლების ტრადიციული სფეროა. თუმცა, რობოტების ფლოტის ძირითადი ნაწილი დიდი ხნის განმავლობაში დაეცა სამრეწველო სამუშაოზე, სადაც რობოტების გრძნობები აშკარა არ იყო, მაგრამ უაღრესად კონტროლირებადმა გონებამ (შუაში დაბალი განუსაზღვრელობა) შეძლო ეპოვა უაღრესად სპეციალიზებული გადაწყვეტილებები, მათ შორის ამოცანები. მანქანური მზერა. გარდა ამისა, სამრეწველო დანამატებმა იძლეოდა ძვირადღირებული ინსტალაციების საჭიროება, რომელიც მოიცავდა ოპტიკურ და გამოთვლით სისტემებს.

    ამასთან დაკავშირებით, აშკარაა (თუმცა ეს არ არის დაკავშირებული მხოლოდ კომპიუტერულ სათვალთვალო სისტემებთან), რომ რობოტების ფლოტის წილი, რომელიც მოდის ინდუსტრიულ რობოტებზე, 2000-იანი წლების დასაწყისისთვის 50%-ზე ნაკლები გახდა. რობოტიკა დაიწყო განვითარება და განკუთვნილია მასობრივი წარმოებისთვის. ყოველდღიური რობოტებისთვის, ინდუსტრიულისგან განსხვავებით, მნიშვნელოვანია, ისევე როგორც საათი ავტონომიური რობოტი, რა არის მნიშვნელოვანი მობილური და მეორადი პროცესორული სისტემების გამოყენებისთვის. ამიტომ, ასეთი რობოტები პასუხისმგებელნი არიან ფუნქციონირებაზე არადეტერმინისტულ მედიაში. მაგალითად, ინდუსტრიაში დიდი ხნის განმავლობაში (იმავე დღეს) იყენებდნენ ფოტოგრამეტრულ ნიშნებს დამცავი ობიექტებისა და კალიბრაციის ფირფიტებზე დასამაგრებლად, - ყველაზე მნიშვნელოვანი ამოცანების, შიდა პარამეტრების და გარე პარამეტრებისთვის კამერის სურათები. ბუნებრივია, ინტერიერის ობიექტებზე ასეთი ეტიკეტების დამაგრების აუცილებლობა სერიოზულად გაანადგურებს ყოველდღიური რობოტების გამძლეობას. ასევე გასაკვირი არ არის, რომ ყოველდღიური რობოტების ბაზარი ელოდება თავისი მზარდი განვითარების დასაწყისს, რათა მიაღწიოს ტექნოლოგიების დიდ დონეს, რაც მოხდა 90-იანი წლების ბოლოს.

    ამის ამოსავალი წერტილი შეიძლება იყოს AIBO რობოტის (Sony) პირველი ვერსიის გამოშვება, რომელიც, მიუხედავად მაღალი ფასისა (2500$), დიდი წარმატება იყო. ამ რობოტების პირველი პარტია, რომელიც შეადგენდა 5000 მაგალითს, შეისყიდეს ინტერნეტში მე-20 საუკუნეში, მეორე პარტია (ასევე 1999 წელს) - 17 წამში და გაყიდვების კოეფიციენტმა მიაღწია 20000 მაგალითს წელიწადში.

    ასევე, 90-იანი წლების ბოლოს, მასობრივ წარმოებაში გამოჩნდა მოწყობილობა, რომელსაც შეიძლება ეწოდოს ყოველდღიური რობოტები სრულიად საღი გაგებით. ყველაზე გავრცელებული ავტონომიური საყოფაცხოვრებო რობოტები რობოტული საწმენდებია. პირველი მოდელი, რომელიც 2002 წელს გამოუშვა iRobot-მა, იყო Roomba. შემდეგ გამოჩნდა რობოტული საწმენდები, რომლებიც წარმოებულია LG Electronics-ის, Samsung-ისა და სხვების მიერ. 2008 წლამდე მსოფლიოში რობოტული საწმენდების მთლიანი გაყიდვები შეადგენდა მილიონზე მეტ ადამიანს მსოფლიოში.

    ვაჩვენოთ, რომ პირველი რობოტული საწმენდები, რომლებიც აღჭურვილია კომპიუტერული სათვალთვალო სისტემებით, 2006 წელს გამოჩნდა. მობილური პროცესორებიტიპის sirmia ARM Z სიხშირე 200 MHz დაშვებული sistannium of ტრივიმირული სცენები უნივერსალური პრიმატიის საფუძვლებს іnvar -საზღვაო deskripptorovs, წერტილი სენსორული Localiza რობოტი z სიხშირე 5 ჩარჩო / წმ. რობოტის მიერ გაფართოების ადგილის დანიშვნა ეკონომიკურად მიზანშეწონილი გახდა, თუმცა ახლახან ამ მიზნებისთვის გენერატორები მზად იყვნენ გამოიყენონ სონარები.

    მობილური პროცესორების პროდუქტიულობის შემდგომი გაუმჯობესება შესაძლებელს ხდის კომპიუტერის მონიტორინგის სისტემების ახალი ამოცანების დაყენებას ყოველდღიურ რობოტებში, რომელთა გაყიდვების რაოდენობა მთელს მსოფლიოში უკვე დათვლილია ბაზარზე მილიონობით მაგალითით. სანავიგაციო ამოცანებში, როგორიცაა პერსონალური კვლევისთვის გამოყენებული რობოტები, შეიძლება საჭირო გახდეს ადამიანების და მათი ემოციების ამოცნობის პრობლემების გადაჭრა, ჟესტების ამოცნობა, ავეჯეულობა, მათ შორის ჭურჭელი და კერძები, ტანსაცმელი, მათი არსებები და ა.შ. აკრიფეთ რობოტის მიერ გაჩაღებული საიდუმლო. ამ ამოცანებიდან ბევრი შორს არის გაჩაღებული და პერსპექტიული ინოვაციური თვალსაზრისით.

    ამრიგად, დღევანდელი რობოტიკა იზიდავს კომპიუტერული მეცნიერების ფართო სპექტრს, რომელიც მოიცავს, მაგალითად:

    • გარე სივრცეში ორიენტაციასთან დაკავშირებული ამოცანების ნაკრები (მაგალითად, ერთსაათიანი ლოკალიზაციისა და რუკის ამოცანები - ერთდროული ლოკალიზაცია და რუკება, SLAM), ობიექტებამდე დანიშნულ მანძილებს და ა.შ.;
    • სწავლა სხვადასხვა საგნების ამოცნობისა და მთლიანობაში სცენების ინტერპრეტაციით;
    • ადამიანების ცოდნა, მათი პიროვნების ამოცნობა და ემოციების ანალიზი.

    წყლის დამხმარე სისტემები

    ყოველდღიური რობოტების გამოყენება და კომპიუტერული მეთვალყურეობის მეთოდები ფართოდ გამოიყენება წყლის დახმარების სისტემებში. 90-იან წლებში აქტიურად მიმდინარეობდა მუშაობა გზაზე მარკირების, კოდების გადაკვეთის, ნიშნების ამოცნობაზე და ა.შ. თუმცა, კონკურენციის საკმარისი დონე (როგორც თავად მეთოდების სიზუსტისა და სანდოობის თვალსაზრისით, ასევე რეალურ დროში აგებული პროცესორების პროდუქტიულობის თვალსაზრისით, სხვა მეთოდებთან შედარებით) მნიშვნელოვნად მიღწეული იქნა ბოლო ათწლეულში.

    ერთ-ერთი დემონსტრირებული პროგრამაა სტერეო ხედვის მეთოდები, რომლებიც გამოიყენება დოზის დამახინჯების გამოსავლენად. ეს მეთოდები შეიძლება კიდევ უფრო მნიშვნელოვანი იყოს საიმედოობის, სიზუსტისა და პროდუქტიულობისთვის. ზოკრემა, ფეხით მოსიარულეთა იდენტიფიცირების მეთოდით, შეგიძლიათ მიიღოთ დეტალური დიაპაზონის რუკა რეალურ საათთან მიახლოებული მასშტაბით. ამ მეთოდებს შეუძლიათ მიაღწიონ ასობით ოპერაციას თითო პიქსელზე და სიზუსტეზე, რაც მიიღწევა გამოსახულების ზომებით არანაკლებ მეგაპიქსელით, შემდეგ ასობით მილიონი ოპერაციით კადრზე (რამდენიმე მილიარდი ან მეტი ოპერაცია წამში).

    ვარტო ნიშნავს, რომ კომპიუტერული ხედვის სფეროში მოწინავე პროგრესს არაფერი აქვს საერთო ტექნიკის უსაფრთხოების განვითარებასთან. შეუძლებელი რჩება გამოსახულების დამუშავების ძვირადღირებული მეთოდების დადგენა და თავად მეთოდებმა შესაძლოა შემდგომ განვითარებაც მოითხოვოს. ბოლო 10-15 წლის განმავლობაში შემუშავდა სამგანზომილებიანი სცენების გამოსახულების შექმნის ეფექტური და პრაქტიკული მეთოდები, სტერეო ხედვაზე დაფუძნებული დიდი დიაპაზონის რუქების განახლების მეთოდები, პიროვნებების იდენტიფიცირებისა და ამოცნობის მეთოდები და ა.შ ამ მეთოდებით არ შეცვლილა, გარდა იმისა, რომ ისინი მდიდარი იყვნენ არაჩვეულებრივი ტექნიკური დეტალებითა და მათემატიკური ტექნიკით, რამაც მათი მეთოდები წარმატებული გახადა.

    რაც შეეხება წყლის დამხმარე სისტემებს, არ შეიძლება არ ვიფიქროთ ფეხით მოსიარულეთა და წყლის ნაკადების გამოვლენის მიმდინარე მეთოდებზე ორიენტირებული გრადიენტების ჰისტოგრამების საფუძველზე. მანქანათმცოდნეობის თანამედროვე მეთოდებმა, როგორც მოგვიანებით იქნება განხილული, პირველად კომპიუტერს საშუალება მისცა შეასრულოს ისეთი ფარული დავალება, როგორიცაა საგზაო ნიშნების ამოცნობა, ვიდრე სპეციალური ტექნიკის გამოყენება სხვადასხვა ამოცნობის ალგორითმებისთვის, რომლებიც შერჩეული იყო იგივე ინფორმაციის შეყვანის სიზუსტისთვის, როგორც ადამიანები. .

    ერთ-ერთი უდიდესი ტექნიკური მიღწევა გახდა Google-ის უმართავი მანქანა, რომელსაც, თუმცა აქვს სენსორების მდიდარი ნაკრები და ვიდეოკამერა, ასევე არ მუშაობს უცნობ (ადრე უცნობი) გზებზე და ცუდი ამინდის პირობებში.

    ამიტომ, წყლის დახმარების სისტემებისთვის აუცილებელია სხვადასხვა კომპიუტერული პრობლემების გადაჭრა, მათ შორის:

    • სტერეო ხედვა;
    • საცობების გამოჩენა;
    • საგზაო ნიშნების, მარკირების, ფეხით მოსიარულეთა და მანქანების ამოცნობა;
    • საიდუმლო ასევე აყენებს გამოცანებს, რომლებიც დაკავშირებულია წყლის კონტროლთან.

    მობილური დანამატები

    კიდევ უფრო ფართოდ არის გავრცელებული ყოველდღიურ რობოტიკაში და წყლის დამხმარე სისტემებში და პერსონალური კომპიუტერული ხედვის შექმნაში მობილური მოწყობილობებიროგორიცაა სმარტფონები, პლანშეტები და ა.შ. Zokrem, მობილური ტელეფონების რაოდენობა სტაბილურად იზრდება და უკვე პრაქტიკულად აჯობა დედამიწის მოსახლეობას. აქედან გამომდინარე, ტელეფონების უმეტესობა გამოშვებულია კამერით. 2009 წელს ასეთი ტელეფონების რაოდენობამ მილიარდს გადააჭარბა, რაც ქმნის კოლოსალურ ბაზარს გამოსახულების დამუშავების სისტემებისა და კომპიუტერული ხედვისთვის, რაც შორს არის R&D პროექტების რაოდენობისგან, რომლებსაც თავად კომპანიები ახორციელებენ - მობილური მოწყობილობები. ასე და დიდი რაოდენობით დამწყები.

    კამერით მობილური მოწყობილობებისთვის გამოსახულების დამუშავების ამოცანის ნაწილი აცილებულია ციფრული კამერების ამოცანისგან. მთავარი განსხვავება მდგომარეობს მიზნების ბირთვში და სტუდენტის გონებაში. მაგალითად, შეგიძლიათ შექმნათ სურათების სასურველი სინთეზი მაღალი დინამიური დიაპაზონით (HDRI) სხვადასხვა ექსპოზიციიდან გადაღებული ფოტოების მიღმა. ზოგიერთ მობილურ მოწყობილობაში სურათებში მეტი ხმაურია, კადრები იქმნება ერთი საათის დიდი ინტერვალით და ასევე არის კამერის მეტი გადაადგილება სივრცეში, რაც ართულებს ნათელი HDRI სურათების გადაღებას, რაც ნიშნავს, რომ თქვენ უნდა დააფიქსიროთ მობილური ტელეფონი. ამ გადაწყვეტილებასთან დაკავშირებით, როგორც ჩანს, იდენტურია მითითებები სხვადასხვა შენობებითქვენ შეიძლება დაინტერესდეთ იმუშაოთ ბაზარზე არსებული ყველა მოთხოვნის გადასაჭრელად.

    თუმცა, უფრო დიდი ინტერესია ახალი დანამატები, რომლებიც ადრე იყო ბაზარზე. ასეთი დანამატების ფართო კლასი პერსონალური მობილური მოწყობილობებისთვის, რომლებიც დაკავშირებულია გაფართოებული რეალობის ამოცანებთან, რომლებიც შეიძლება განსხვავდებოდეს. ეს მოიცავს სათამაშო პროგრამებს (რომლებიც აძლიერებენ ვირტუალური ობიექტების ვიზუალიზაციას რეალური სცენის სურათებზე კამერის გადაადგილებისას), ისევე როგორც ზოგადად სხვადასხვა მნიშვნელოვან პროგრამებს, ტურისტულ პროგრამებს (მეხსიერების ამოცნობა მათ შესახებ მოწოდებული ინფორმაციით), როგორც. ასევე ბევრი სხვა დანამატი, რომელიც დაკავშირებულია ინფორმაციის ძიებასთან და ობიექტების ამოცნობასთან: უცხო ენებზე ნაწერების ამოცნობა მათი თარგმანის სურათებით, სავიზიტო ბარათების ამოცნობა სატელეფონო წიგნში ინფორმაციის ავტომატური შეყვანით, ასევე პირების ამოცნობა. ინფორმაციის შეგროვებიდან სატელეფონო წიგნი, ფილმის პლაკატების ამოცნობა (პოსტერის სურათის ფილმის თრეილერით ჩანაცვლებით) და ა.შ.

    გაძლიერებული რეალობის სისტემები შეიძლება შეიქმნას სპეციალიზებული მოწყობილობების სახით, როგორიცაა Google Glass, რაც კიდევ უფრო აძლიერებს კომპიუტერული ხედვის მეთოდების ინოვაციურ პოტენციალს.

    ამრიგად, კომპიუტერის თვალის დავალებების კლასი, რომელთა გადაწყვეტილებები შეიძლება შეიცავდეს მობილურ აპლიკაციებში, ძალიან ფართოა. არსებობს უამრავი უპირატესობა გამოსახულების მეთოდებში (დაკავშირებული წერტილების რუქაზე), მათ შორის სცენის ტრივიალური სტრუქტურის შეფასება და მნიშვნელოვანი ცვლილებები კამერის ორიენტაციაში და აღმოჩენის მეთოდებში, ასევე ადამიანების პიროვნების ანალიზში. თუმცა, დიდი რაოდენობით შეიძლება განთავსდეს მობილური დანამატებიმათთვის, ვისაც დასჭირდება კომპიუტერული მეთვალყურეობის სპეციალიზებული მეთოდების შემუშავება. მოდით შევხედოთ მათგან მხოლოდ ორს: ჩაწერა ჩართულია მობილური ტელეფონითამაშის ავტომატური გაშიფვრით ნებისმიერ მაგიდის თამაშში და გოლფის გასაღების ტრაექტორიის რეკონსტრუქციით გასროლის დროს.

    ინფორმაციის ძიება და ცოდნა

    გაძლიერებული რეალობის მრავალი ამოცანა მჭიდროდ არის დაკავშირებული ინფორმაციის ძიებასთან (ისე, რომ ისეთი სისტემების აქტივობები, როგორიცაა Google Goggles, ძნელია გადაიტანოს რომელიმე კონკრეტულ სფეროში), რათა წარმოქმნას არსებითი დამოუკიდებელი ინტერესი.

    განსხვავებულია ადგილის უკან გამოსახვის ამოცანაც. ისინი მოიცავს სურათების შექმნას უნიკალური ობიექტების გამოსახულების ძიებაში, როგორიცაა არქიტექტურული ობიექტები, ქანდაკებები, ფერწერა და ა.შ. და ა.შ., ასევე მათი ქვეკლასები), სცენების კატეგორიზაცია (ადგილი, ტყე, მთები, გადარჩენა და ა.შ.). ეს ამოცანები შეიძლება გაერთიანდეს სხვადასხვა აპლიკაციებში - სახლის ციფრულ ფოტოალბომებში სურათების დასახარისხებლად, ონლაინ მაღაზიებში მათი სურათების საფუძველზე პროდუქტების მოსაძებნად, გეოინფორმაციულ სისტემებში სურათების შეგროვებისთვის, ბიომეტრიული იდენტიფიკაციის სისტემებისთვის ii, სპეციალიზებული ძიებისთვის, ჩვენება სოციალური მედია (მაგალითად, მოძებნეთ ადამიანები, რომლებიც დაქირავებულნი არიან კორისტუვაჩისთვის) და ა.შ., ინტერნეტში ასახვამდე.

    როგორც უკვე მიღწეული პროგრესი, ასევე მისი გაგრძელების პერსპექტივები ჩანს ფართომასშტაბიანი ვიზუალური ამოცნობის გამოწვევის კონკურსში, რომელშიც აღიარებული კლასების რაოდენობა გაიზარდა 20-დან 2010 წელს 200-მდე 2013 წელს.

    მრავალი კლასის ობიექტების ერთდროულად ამოცნობა წარმოუდგენელია კომპიუტერული ხედვის სფეროში მანქანური სწავლის მეთოდების შეძენის გარეშე. აქ ერთ-ერთი ყველაზე პოპულარული მიმართულებაა ღრმა სწავლის საზღვრები, რომელიც განკუთვნილია მდიდარი ნიშნების სისტემების ავტომატური გააქტიურებისთვის, რაც შემდგომ აღიარებას მოითხოვს. ამაზე მოთხოვნა პირდაპირ ჩანს ისეთი კორპორაციების მიერ სხვადასხვა სტარტაპების შეძენის ფაქტებიდან, როგორიცაა Google და Facebook. ამრიგად, Google-ის კორპორაციამ 2013 წელს შეიძინა კომპანია DNNresearch, ხოლო 2014 წელს სტარტაპი DeepMind. უფრო მეტიც, დარჩენილი სტარტაპის შესაძენად კონკურენცია გაუწია Facebook-ს (რომელიც მანამდე დაიქირავა ისეთი ლიდერი, როგორიცაა იან ლე კუნი, ლაბორატორიისთვის, რომელიც ატარებს კვლევებს მოწინავე მეცნიერების სფეროში) და შესყიდვის ფასმა შეადგინა $400 მილიონი. ვარტო აღნიშნავს, რომ ეს მეთოდი , რა გამარჯვებულია საგზაო ნიშნების აღიარების კონკურსში, ასევე ღრმა ცოდნის საფუძველი.

    ღრმა სწავლის მეთოდები მოითხოვს დიდ გამოთვლით რესურსებს, ხოლო შეზღუდული კლასის ობიექტების ამოცნობის ადაპტაციის შესაძლებლობას შეიძლება დასჭირდეს რამდენიმე დღის მუშაობა გამოთვლით კლასტერზე. ამ შემთხვევაში, მომავალში, მეთოდები შეიძლება კიდევ უფრო რთული გახდეს და, შესაბამისად, მოითხოვოს კიდევ უფრო დიდი გამოთვლითი რესურსები.

    ვისნოვოკი

    ჩვენ ყურადღებით დავაკვირდით მასობრივი კორისტუვაჩის კომპიუტერულ პროგრამებს. თუმცა, არის სხვების უპიროვნებაც, ნაკლებად ტიპიური პროგრამები. მაგალითად, კომპიუტერული ხედვის მეთოდები შეიძლება გამოყენებულ იქნას მიკროსკოპის, ოპტიკური თანმიმდევრული ტომოგრაფიისა და ციფრული ჰოლოგრაფიის დროს. დამუშავებისა და ანალიზის მეთოდებში რიცხვითი დამატებები ნაჩვენებია სხვადასხვა პროფესიულ დარგში - ბიომედიცინაში, კოსმოსურ კვლევაში, კრიმინოლოგიაში და ა.შ.

    ლითონის ფურცლის 3D პროფილის განახლება, რომელიც კონტროლდება მიკროსკოპის გამოყენებით, "სიღრმის ფოკუსირება" მეთოდის გამოყენებით.

    ამ საათში ცხელა მიმდინარე დანამატებიკომპიუტერული ცოდნა გაგრძელდება. Zokrema, უმეტესწილად, ხელმისაწვდომი ხდება ვიდეო მონაცემების ანალიზთან დაკავშირებული ამოცანები. ტრივიალური ტელევიზიის აქტიური განვითარება აფართოებს კომპიუტერული ხედვის სისტემების კონცეფციას, ჯერ კიდევ განუვითარებელი ეფექტური ალგორითმების შესაქმნელად და მეტი გამოთვლითი ძალისხმევის საჭიროებისთვის. ასეთი აუცილებელი ამოცანები მოიცავს ვიდეოს კონვერტაციას, 2D ვიდეოს 3D-ზე გადაქცევას.

    გასაკვირი არ არის, რომ კომპიუტერული სათვალთვალო სისტემების წინა პლანზე აქტიურად ვითარდება სპეციალური გამოთვლითი ფუნქციები. Zokrema, ახლა უფრო პოპულარული გრაფიკული პროცესორებისამართლებრივი დანიშნულება (GPGPU) ი პირქუში გათვლები. თუმცა, ახალი გადაწყვეტილებები თანდათანობით მიედინება პერსონალური კომპიუტერების სეგმენტში შესაძლო დამატებების ფართო სპექტრით.