პრობლემა არის მსგავსი რიცხვების და ასოების გამოყოფა.

ზოგჯერ გჭირდებათ ხატის დამატება თქვენს დიზაინში, მაგრამ არ გსურთ დამატებითი სურათების ან მთელი ხატის შრიფტის ჩასმა, როგორიცაა Font Awesome? მაშინ ჩვენ გვაქვს კარგი ამბავი თქვენთვის - ხელმისაწვდომი ხატებისა და სიმბოლოების დიდი ბიბლიოთეკა უკვე თქვენს ბრაუზერში. მას ჰქვია Unicode, რომელიც არის სტანდარტი, რომელიც უზრუნველყოფს უნიკალურ იდენტიფიკატორებს სიმბოლოებისა და ხატების სტაბილურად მზარდი რაოდენობისთვის (მინიმუმ 110,000).

თუმცა, ეს არ ნიშნავს, რომ თქვენ გაქვთ არჩევანი ასობით ათასი ხატიდან. ამის შესაქმნელად საჭიროა გამოიყენოთ ბრაუზერი, რომელიც ასახავს მათ, და სისტემაში დაინსტალირებული vikory შრიფტები. ამ სტატიიდან ჩვენ შევარჩიეთ სიმბოლოების რამდენიმე ნაკრები, რომლებიც ხელმისაწვდომია Windows, Linux, OS X, Android და IOS-ზე. თქვენ შეგიძლიათ მათი ვიკორისტიკა დიზაინში დღესვე!

Porada: , რომელიც განმარტავს ყველაფერს, რაც უნდა იცოდეთ Unicode კოდირების შესახებ, რომელსაც გირჩევთ PZ-ის კანის წიგნის წასაკითხად.

როგორ გამოვიყენოთ ეს ხატები

ქვემოთ მოცემულ ცხრილებში ნაჩვენები ხატები არის ძირითადი სიმბოლოები, რომლებიც შეგიძლიათ დააკოპიროთ და ჩასვათ ანბანის სიმბოლოებად. ალს მოსწონს კოდირება, მოსწონს vikorist HTML/CSS ფაილების შესანახად არა UTF-8სუნი ვერ წარმოიდგენს. ფაქტობრივად, ჩვენ მოგვცეს HTML გაქცევის კოდი, რომელიც მკაცრად აუცილებელია. რა უნდა გააკეთოთ ხატების გამოსაყენებლად:

  • იპოვე სამკერდე ნიშანი, რომელსაც იმსახურებ. ჩვენ მოგვცეს მცირე და დიდი გადახედვები.
  • დააკოპირეთ კოდი.
  • ჩადეთ її HTML-ში, როგორც პირველადი ტექსტი. CSS-ში შეგიძლიათ მათი ვიკორიზაცია, როგორც ძალაუფლების მნიშვნელობა შინაარსი. JS, PHP და სხვა ენების პროგრამირებაში შეგიძლიათ გამოიყენოთ ისინი, როგორც ორიგინალი ტექსტი რიგებში.
  • ხატების მორგება შეგიძლიათ შრიფტის ზომის, ფერის, ტექსტისა და ჩრდილის, ასევე ორიგინალური ტექსტის დაყენებით.

ხატები

სახელიწინ ხედიკოდი
სმაილი
Გამაფრთხილებელი ნიშანი
Ცხელი წყლები
ინვალიდის ეტლი
გადამუშავება
8-ბურთი
მაღალი ძაბვა
თეთრი ვარსკვლავი
Შავი ვარსკვლავი
თეთრი გული
Შავი გული
ყავა
თვითმფრინავი
ქვიშის საათი
საათი
შავი მაკრატელი
თეთრი მაკრატელი
გვირგვინი
წამყვანი
ჯვარი
შავ-თეთრი წრე
რვა შენიშვნა
სხივიანი მერვე ნოტები
ოთხი ბუშტიანი ვარსკვლავი
წრიული თეთრი ვარსკვლავი
თეთრი ვარსკვლავი
თეთრი ოთხქიმიანი ვარსკვლავი
შავი ოთხქიმიანი ვარსკვლავი
საარჩევნო ყუთის შემოწმება
შეამოწმეთ ნიშანი
ჯვარი მარკი
ფანქარი
საწერი ხელი
ქალი
მამრობითი
შავი ტელეფონი
თეთრი ტელეფონი
კონვერტი
ტელეფონის ადგილმდებარეობა

ისრები უნიკოდში

სახელიწინ ხედიკოდი
ისარი მარცხნივ
ისარი მარჯვნივ
ისარი ზევით
ისარი ქვევით
მარცხენა მარჯვენა ისარი
ისარი ზემოთ ქვემოთ
მარჯვენა და მარცხენა ისრები
ზემოთ და ქვემოთ ისრები
ქვემოთ-მარცხნივ 90 გრადუსიანი ისარი
ქვემო-მარჯვნივ 90 გრადუსიანი ისარი
ზემოთ-მარცხნივ 90 გრადუსიანი ისარი
ზევით მარჯვნივ 90 გრადუსიანი ისარი
ჩრდილო-დასავლეთის ისარი კუთხემდე
სამხრეთ-აღმოსავლეთის ისარი კუთხემდე
მარცხნივ ისარი ზოლისკენ
მარჯვნივ ისარი ზოლისკენ
ნახევარწრიული ისარი საათის ისრის საწინააღმდეგო მიმართულებით
ნახევარწრიული ისარი საათის ისრის მიმართულებით
ისარი საათის ისრის საწინააღმდეგო მიმართულებით
საათის ისრის წრის ისარი
ფართოთავიანი ისარი მარჯვნივ
ზიგზაგის ისარი ქვევით
ჩრდილო-დასავლეთის ისარი
მძიმე სამხრეთ-აღმოსავლეთის ისარი
მძიმე ისარი მარჯვნივ
მძიმე ჩრდილო-აღმოსავლეთის ისარი
დატეხილი უფლებების ისარი
წერტილოვანი ისარი მარცხნივ
შავი ისარი მარჯვნივ
მარცხნივ თეთრი ისარი
მარჯვნივ თეთრი ისარი
მარცხენა კუთხის ციტატა « « «
მარჯვენა კუთხის ციტატა » » »
მარჯვენა შავი მაჩვენებელი
მარცხენა შავი მაჩვენებელი
ზემოთ შავი მაჩვენებელი
ქვემოთ შავი მაჩვენებელი
მარჯვენა თეთრი მაჩვენებელი
მარცხენა თეთრი მაჩვენებელი
ზევით თეთრი მაჩვენებელი
ქვემოთ თეთრი მაჩვენებელი
მშვილდი ისარი

სპეციალური სიმბოლოები უნიკოდში

ვალუტა უნიკოდში

ლოდინის ხატები

სახელიწინ ხედიკოდი
ხარისხი ° ° °
პატარა მზე
დიდი მზე
ღრუბელი
ქოლგა
ფიფქი 1
ფიფქი 2
ფიფქი 3

ვოკატივები უნიკოდში

სახელიწინ ხედიკოდი
მაჩვენებელი მარცხენა შავი
მაჩვენებელი მარჯვნივ შავი
მაჩვენებელი მარცხენა თეთრი
მაჩვენებლის ზემოთ თეთრი
მაჩვენებელი მარჯვნივ თეთრი
პოინტერი ქვემოთ თეთრი

ზოდიაქოს ნიშნები უნიკოდში

სახელიწინ ხედიკოდი
ვერძი
კურო
ტყუპები
კიბო
ლომი
ქალწული
ტერეზი
მორიელი
მშვილდოსანი
თხის რქა
მერწყული
რიბი

ბარათის სიმბოლოები უნიკოდში

სახელიწინ ხედიკოდი
კლუბები შავი
გულები შავი
ბრილიანტები შავი
ყვავი შავი
კლუბები თეთრი
გულები თეთრი
ბრილიანტი თეთრი
ყვავი თეთრი

ჭადრაკის ფიგურები უნიკოდში

სახელიწინ ხედიკოდი
მეფე თეთრი
დედოფალი თეთრი
რუკ თეთრი
ეპისკოპოსი თეთრი
რაინდი თეთრი
ლომბარდი თეთრი
მეფე შავი
დედოფალი შავი
Rook შავი
ეპისკოპოსი შავი
რაინდი შავი
ლომბარდი შავი

გრა ძვალში

სახელიწინ ხედიკოდი
Dice Roll One
Dice Roll ორი
Dice Roll სამი
Dice Roll Four
Dice Roll Five
Dice Roll Six

მათემატიკური სიმბოლოები უნიკოდში

სახელიწინ ხედიკოდი
უსასრულობა
პლუს მინუსი ± ± ±
ნაკლები ან ტოლი
მეტი ან ტოლი
არა ტოლი
განყოფილება ÷ ÷ ÷
გამრავლება x × × ×
მძიმე გამრავლება x
სუპერსკრიპტი ერთი ¹ ¹ ¹
ზედნაწერი ორი ² ² ²
ზედნაწერი სამი ³ ³ ³
წრიული პლუსი
წრიული გამრავლება
ლოგიკური და
ლოგიკური ან
დელტა
ღვეზელი
სიგმა (SUM)
ომეგა Ω Ω Ω
ცარიელი ნაკრები
კუთხე
პარალელურად
Პერპენდიკულარული
თითქმის თანაბარი
სამკუთხედი
წრე
მოედანი

ფრაქციები

სახელიწინ ხედიკოდი
ერთი მეოთხედი (1/4) ¼ ¼ ¼
ნახევარი (1/2) ½ ½ ½
სამი მეოთხედი (3/4) ¾ ¾ ¾
ერთი მესამედი (1/3)
ორი მესამედი (2/3)
ერთი რვა (1/8)
სამი რვიანი (3/8)
ხუთი რვა (5/8)
შვიდი რვა (7/8)

რომაული ციფრები უნიკოდში

სახელიწინ ხედიკოდი
რომაული რიცხვი ერთი
რომაული რიცხვი ორი
რომაული რიცხვი სამი
რომაული რიცხვი ოთხი
რომაული რიცხვი ხუთი
რომაული რიცხვი ექვსი
რომაული რიცხვი შვიდი
რომაული რიცხვი რვა
რომაული რიცხვი ცხრა
რომაული რიცხვი ათი
რომაული რიცხვი თერთმეტი
რომაული რიცხვი თორმეტი

და ამ სიმბოლოების განსხვავებულად გადმოცემის მნიშვნელობა ოპერატიული სისტემა. ამაზე მიუთითებს შრიფტების სხვადასხვა ოჯახი, რის გამოც ღირს შემოწმება. გარდა ამისა, iOS და Android ცვლის უნიკოდის რამდენიმე სიმბოლოს სმაილიკებით, ამიტომ დარწმუნდით, რომ შეამოწმეთ შეყვანილი სიმბოლოები, რათა დარწმუნდეთ, რომ ხატები არ გამოჩნდეს გადატანილი.

კოდის სივრცის ელემენტები, რომლებიც წარმოადგენენ უცნობ რიცხვებს. კოდირების ოჯახი წარმოადგენს UCS კოდების თანმიმდევრობის მანქანურ წარმოდგენას.

კოდები უნიკოდის სტანდარტში იყოფა რამდენიმე სფეროდ. უბანი U+0000-დან U+007F-მდე კოდებით შეიცავს სიმბოლოებს ASCII ნაკრებში ქვეკოდებით. გაფართოებულია სხვადასხვა ასოების სიმბოლოების, სასვენი ნიშნებისა და ტექნიკური სიმბოლოების შემდგომი სფეროები. ზოგიერთი კოდი დაცულია სხვების გამოსაყენებლად. კირიული სიმბოლოების ქვემოთ შეგიძლიათ იხილოთ სიმბოლოების არეები კოდებით U+0400-დან U+052F-მდე, U+2DE0-დან U+2DFF-მდე, U+A640-დან U+A69F-მდე (კირილიცის დაყოფა უნიკოდში).

შეცვალეთ აზრი და განავითარეთ Unicode

ნამსხვრევები ზედიზედ კომპიუტერული სისტემები(მაგალითად, Windows NT) ფიქსირებული 16-ბიტიანი სიმბოლოები უკვე ვიკორიზირებული იყო ფიქრის შედეგად, გადაწყდა, რომ ყველა ყველაზე მნიშვნელოვანი სიმბოლო დაშიფრული იყო პირველი 65536 პოზიციის ფარგლებში (ე.წ. ინგლისურად. ძირითადი მრავალენოვანი თვითმფრინავი, BMP). Reshta prostoro vykoristovuetsya "დამატებითი სიმბოლოებისთვის" (ინგლ. დამატებითი სიმბოლოები): ძველი ენების დამწერლობის სისტემები და იშვიათად ჩინური იეროგლიფები, მათემატიკური და მუსიკალური სიმბოლოები.

ძველი 16-ბიტიანი სისტემების მოხერხებულობისთვის გამოყენებული იყო UTF-16 სისტემა, პირველი 65,536 პოზიციით, რასაც მოჰყვა პოზიციები U+D800...U+DFFF ინტერვალში, პირდაპირ ნაჩვენები 16-ბიტიანი რიცხვების სახით და პასუხი. წარმოდგენილია "სუროგატ წყვილებს" შორის "(ფსონის პირველი ელემენტი არის U+D800...U+DBFF, ფსონის სხვა ელემენტი არის U+DC00...U+DFFF არეში) . სუროგატი წყვილებისთვის ვიკორასტანმა გამოიყენა კოდის სივრცის ნაწილი (2048 პოზიცია), რომელიც ადრე იყო გამოყოფილი კერძო ვიკორისტანის სიმბოლოებისთვის.

ფრაგმენტები UTF-16-ში შეიძლება წარმოდგენილი იყოს 2 20 +2 16 −2048 (1 112 064) სიმბოლოზე ნაკლები, ამიტომ ეს რიცხვი გამოითვალა, როგორც Unicode კოდის სივრცის დარჩენილი მნიშვნელობა.

მიუხედავად იმისა, რომ Unicode კოდის ზონა გაფართოვდა 2-დან 16-მდე 2.0 ვერსიაში, პირველი სიმბოლოები ზედა ზონაში მხოლოდ 3.1 ვერსიაში იყო მოთავსებული.

ამ კოდირების როლი ვებ სექტორში თანდათან იზრდება; 2010 წლის მდგომარეობით, ვებსაიტების პროცენტი, რომლებიც იყენებენ უნიკოდს, შეადგენდა თითქმის 50%-ს.

უნიკოდის ვერსიები

მსოფლიომ შეცვალა და განაახლა უნიკოდის სისტემის სიმბოლოების ცხრილი და სისტემის ახალი ვერსიების გამოშვება და ეს სამუშაო სტაბილურად ხორციელდებოდა, ვინაიდან უნიკოდის სისტემა თავდაპირველად მოიცავდა მხოლოდ Plane 0 - ორმაგი ბაიტის კოდებს, - ახალ ISO. დოკუმენტები გამოქვეყნებულია. უნიკოდის სისტემა გამოიყენება მიმდინარე ვერსიებში:

  • 1.1 (შეესაბამება ISO/IEC 10646-1:1993), სტანდარტი 1991-1995 წ.
  • 2.0, 2.1 (იგივე სტანდარტი ISO/IEC 10646-1:1993 პლუს დამატებითი: „შესწორებები“ 1-დან მე-7-მდე და „ტექნიკური კორიგენდა“ 1 და 2), სტანდარტი 1996 წ.
  • 3.0 (ISO/IEC 10646-1:2000 სტანდარტი), 2000 roku სტანდარტი.
  • 3.1 (ISO/IEC 10646-1:2000 და ISO/IEC 10646-2:2001 სტანდარტები), 2001 წლის სტანდარტი.
  • 3.2, 2002 Roku სტანდარტი.
  • 4.0, სტანდარტი 2003 წ.
  • 4.01, სტანდარტი 2004 წ.
  • 4.1, სტანდარტი 2005 წ.
  • 5.0, სტანდარტი 2006 წ.
  • 5.1, სტანდარტი 2008 წ.
  • 5.2, სტანდარტი 2009 წ.
  • 6.0, სტანდარტი 2010 წ.
  • 6.1, სტანდარტი 2012 წ.
  • 6.2, სტანდარტი 2012 წ.

კოდის სივრცე

იმის სურვილით, რომ UTF-8 და UTF-32 ფორმატებმა დაუშვან 231 (2147483648) კოდის პოზიციები, გადაწყდა 1112064 გამოყენება UTF-16-თან შესაბამისობისთვის. თუმცა, რაც უფრო მნიშვნელოვანია ის არის, რომ დღეს (6.0 ვერსიაში) არის 110,000-ზე ნაკლები კოდის პოზიცია (109,242 გრაფიკული და 273 სხვა სიმბოლო).

შესვენებების კოდის დიაპაზონი 17-ით ბინები 2 16 (65,536) სიმბოლო თითოეული. ნულის მოედანი ჰქვია ძირითადი, მას აქვს ყველაზე გავრცელებული სკრიპტების მრავალფეროვანი სიმბოლოები. პირველი თვითმფრინავი დაცულია ძირითადად ისტორიული თხზულებებისთვის, მეორე - KKY იეროგლიფებისთვის, რომლებიც იშვიათად არის ვიკორიზირებული, მესამე დაცულია არქაული ჩინური იეროგლიფებისთვის. 15 და 16 ხედის ფართები კერძო საცხოვრებლად.

დასანიშნად უნიკოდის სიმბოლოები Vikorist ჩანაწერი ჰგავს „U+ xxxx"(კოდებისთვის 0...FFFF), ან "U+ xxxxx"(კოდებისთვის 10000...FFFFF), ან "U+ xxxxxx„(კოდებისთვის 100000 ... 10FFFF), დე xxx- თექვსმეტი ციფრი. მაგალითად, სიმბოლოს I (U+044F) აქვს კოდი 044F = 1103.

კოდირების სისტემა

უნივერსალური კოდირების სისტემა (Unicode) არის გრაფიკული სიმბოლოების ერთობლიობა და მათი კოდირების მეთოდი ტექსტური მონაცემების კომპიუტერული დამუშავებისთვის.

გრაფიკული სიმბოლოები არის სიმბოლოები, რომლებიც ჩანს ხილულ სურათებში. გრაფიკული სიმბოლოები წარმოდგენილია ბირთვის სიმბოლოებით და ფორმატირების სიმბოლოებით.

გრაფიკული სიმბოლოები მოიცავს შემდეგ ჯგუფებს:

  • ასოები, რომლებიც უნდა იყოს განთავსებული ერთ-ერთ ანბანში, რომელსაც ემსახურება;
  • ნომრები;
  • სასვენი ნიშნები;
  • სპეციალური ნიშნები (მათემატიკური, ტექნიკური, იდეოგრაფიული და სხვ.);
  • გამყოფები.

Unicode არის ტექსტის ხაზოვანი წარმოდგენის სისტემა. სიმბოლოები, რომლებიც შეიცავს დამატებით ზემდგომ ან დაქვემდებარებულ ელემენტებს, შეიძლება წარმოდგენილი იყოს კოდის თანმიმდევრობის წესებით მოთხოვნილი ფორმით (კომპოზიტური სიმბოლო) ან ერთი სიმბოლოს სახით (მონოლითური ვერსია, წინასწარ შედგენილი სიმბოლო) ).

პერსონაჟების შეცვლა

წარდგენილია სიმბოლო „І“ (U+0419) საბაზისო სიმბოლოს „I“ (U+0418) და შეცვლილი სიმბოლოს „̆“ (U+0306) სახით.

უნიკოდში გრაფიკული სიმბოლოები იყოფა გაფართოებულ და არაგანვრცობებად (უფართო). არა გაფართოებული სიმბოლოები, როდესაც ნაჩვენებია, არ იკავებს ადგილს რიგში. მათ წინაშე იტყუება, დახურვა, ნიშნები ხმაში და სხვა დიაკრიტული ნიშნები. როგორც გრძელი, ისე მოკლე სიმბოლოები ქმნიან მსოფლიო კოდებს. გრძელ სიმბოლოებს ძირითადი ეწოდება. საბაზისო პერსონაჟები), და არა გაფართოებული - მოდიფიცირებული (ინგლ. პერსონაჟების გაერთიანება); მეტიც, დანარჩენები დამოუკიდებლად ვერ გაერთიანდებიან. მაგალითად, სიმბოლო "a" შეიძლება წარმოდგენილი იყოს საბაზისო სიმბოლოს "a" (U+0061) და შეცვლილი სიმბოლოს "-" (U+0301) თანმიმდევრობით ან როგორც მონოლითური სიმბოლო "a" (U+00C1). ).

მოდიფიკაციის სიმბოლოების განსაკუთრებული ტიპია სკამის ოფციონის ამომრჩევი. ვარიაციის სელექტორები). აღარ არსებობს სიმბოლოები, რომლებზეც მითითებულია ასეთი ვარიანტები. ვერსია 5.0 აქვს გამოსახულების ვარიანტები რიგი მათემატიკური სიმბოლოებისთვის, ტრადიციული მონღოლური ანბანის სიმბოლოებისთვის და მონღოლური კვადრატული ფურცლის სიმბოლოებისთვის.

ნორმალიზაციის ფორმები

თავად ზოგიერთი სიმბოლოს ფრაგმენტები ჩანს სხვადასხვა კოდებიდამუშავების შედგენის გარდა, არსებობს ნორმალიზების პროცესები, რომლებიც გამოიყენება ტექსტის მარტივ სტანდარტულ გარეგნობამდე მისაყვანად.

უნიკოდის სტანდარტს აქვს ტექსტის ნორმალიზაციის 4 ფორმა:

  • ნორმალიზების ფორმა D(NFD) არის კანონიკური დაშლა. ტექსტის ამ ფორმამდე შემცირების პროცესში, საწყობის ყველა სიმბოლო რეკურსიულად იცვლება საწყობის რამდენიმე სიმბოლოთი, დაშლის ცხრილის მსგავსი.
  • ნორმალიზების ფორმა C (NFC) არის კანონიკური დაშლა მომიჯნავე კანონიკური შემადგენლობით. თავიდანვე ტექსტი დგება D ფორმაში, რის შემდეგაც სრულდება კანონიკური კომპოზიცია - ტექსტი დგება თავიდან ბოლომდე და სრულდება შემდეგი წესები:
    • სიმბოლო S є მოდით cobრადგან უნიკოდის სიმბოლოების ბაზაში არის ნულოვანი მოდიფიკაციის კლასი.
    • სიმბოლოების ნებისმიერ თანმიმდევრობაში, რომელიც იწყება cob სიმბოლო S-დან, სიმბოლო C იბლოკება S-ით, რომელიც არის მხოლოდ S-სა და C-ს შორის და არის თუ არა სიმბოლო B ან cob, ან შეიძლება იყოს იგივე ან უფრო მაღალი კლასის მოდიფიკაცია ii, ქვედა C ეს წესი უფრო ფართოვდება რიგებით, რომლებმაც განიცადეს კანონიკური დაშლა.
    • პერვინნიმიკომპოზიტი არის სიმბოლო, რომელიც არის უნიკოდის სიმბოლოების ბაზის კანონიკური დაშლა (ან ჰანგილისა და ვინის კანონიკური დაშლა არ შედის ბრალდების სიაში).
    • სიმბოლო X შეიძლება თავდაპირველად გაერთიანდეს სიმბოლოსთან Y, რადგან ის ასევე ეფუძნება პირველ კომპოზიციურ Z-ს, რომელიც კანონიკურად ექვივალენტურია მიმდევრობისთვის. .
    • ვინაიდან ძირითადი სიმბოლო C არ არის დაბლოკილი დარჩენილი მკვეთრი ბირთვის სიმბოლო L-ით და შეიძლება წარმატებით გაერთიანდეს პირველ რიგში, L შეიცვალოს კომპოზიტური L-C-ით და C წაიშლება.
  • ნორმალიზების ფორმა KD (NFKD) არის სრული დაშლა. ამ ფორმაზე გადასვლისას, საწყობის ყველა სიმბოლო იცვლება, ვიკორისტია როგორც კანონიკური უნიკოდის დაშლის რუკები, ასევე ჯამის დაშლის რუქები, რის შემდეგაც შედეგი მოთავსებულია კანონიკური თანმიმდევრობით.
  • ნორმალიზების ფორმა KC (NFKC) – ჯამის დაშლა შეტევითი კანონიკურიშემადგენლობა.

ტერმინები "კომპოზიცია" და "დაშლა" ნათლად არის გაგებული, როგორც სიმბოლოების კომბინაცია ან განლაგება საწყობში.

გამოიყენეთ იგი

კობის ტექსტი NFD NFC NFKD NFKC
ფრანგული ფრანკი\u0327აის ფრან\xe7აის ფრანკი\u0327აის ფრან\xe7აის
A, E, J \u0410, \u0401, \u0419 \u0410,\u0415\u0308,\u0418\u0306 \u0410, \u0401, \u0419
\u304b\u3099 \u304c \u304b\u3099 \u304c
ჰენრი IV ჰენრი IV ჰენრი IV ჰენრი IV ჰენრი IV
ჰენრი Ⅳ ჰენრი და 2163 ჰენრი და 2163 ჰენრი IV ჰენრი IV

ორმხრივი ფურცელი

უნიკოდის სტანდარტი ხელს უწყობს წერას მარჯვნიდან მარცხნივ. მარცხნიდან მარჯვნივ, LTRდა იწერება მარჯვნიდან მარცხნივ (ინგლისური) მარჯვნიდან მარცხნივ, RTL) - მაგალითად, არაბული და ებრაული ფურცელი. ორივე შემთხვევაში სიმბოლოები დაცულია „ბუნებრივი“ თანმიმდევრობით; მათი ჩვენება ფურცლის საჭირო მიმართულებებით უზრუნველყოფილი იქნება პროგრამის მიერ.

გარდა ამისა, Unicode ხელს უწყობს კომბინირებულ ტექსტებს სხვადასხვა ფურცლების ფრაგმენტების გაერთიანებაში. ამ უნარს ე.წ ორმაგი სისწორე(ინგლისური) ორმხრივი ტექსტი, BiDi). მოქმედებები გამარტივებულია ტექსტზე (მაგალითად, ძველი ტელეფონები) შეუძლია უნიკოდის მხარდაჭერა, მაგრამ არა ორმხრივობის მხარდაჭერა. უნიკოდის ყველა სიმბოლო იყოფა რამდენიმე კატეგორიად: ისინი, რომლებიც იწერება მარცხნიდან მარჯვნივ, რომლებიც იწერება მარჯვნივ მარცხნივ და ისინი, რომლებიც იწერება ნებისმიერი მიმართულებით. დარჩენილი კატეგორიის სიმბოლოები (ძირითადად სასვენი ნიშნები) ნაჩვენებია პირდაპირ ტექსტში.

სიმბოლოების წარმოდგენა

Unicode მოიცავს თითქმის ყველა ყოველდღიურ სკრიპტს, მათ შორის:

და სხვა.

აკადემიური მიზნებისთვის გამოიცა მრავალი ისტორიული დამწერლობა, მათ შორის: რუნები, ძველი ბერძნული, ეგვიპტური იეროგლიფები, ლურსმული, მაიას დამწერლობა, ეტრუზიული ანბანი.

უნიკოდის გამოსახულებებს აქვთ მათემატიკური და მუსიკალური სიმბოლოების ფართო სპექტრი, ასევე ხატები.

თუმცა, უნიკოდამდე, პრინციპია, არ შეიტანოთ კომპანიების და პროდუქტების ლოგოები, თუმცა ისინი გამორჩეული ჩანან შრიფტებში (მაგალითად, Apple-ის ლოგო MacRoman კოდში (0xF0) ან Windows-ის ლოგო Wingdings-ის შრიფტში (0xFF)). . უნიკოდის შრიფტებში ლოგოები განლაგებულია მხოლოდ შესაბამისი სიმბოლოების არეალში.

ISO/IEC 10646

Unicode კონსორციუმი მჭიდროდ თანამშრომლობს ISO/IEC/JTC1/SC2/WG2 სამუშაო ჯგუფთან, რათა განავითაროს საერთაშორისო სტანდარტი 10646 (ISO/IEC 10646). არსებობს სინქრონიზაცია Unicode სტანდარტსა და ISO/IEC 10646-ს შორის, თუმცა კანის სტანდარტი მიჰყვება მის ტერმინოლოგიასა და დოკუმენტაციის სისტემას.

შესაბამისობა უნიკოდის კონსორციუმთან და სტანდარტიზაციის საერთაშორისო ორგანიზაციასთან (ინგლისური) სტანდარტიზაციის საერთაშორისო ორგანიზაცია ISO ) დაიწყო 1991 წელს. 1993 წელს ISO-მ გამოუშვა სტანდარტი DIS 10646.1. მასთან სინქრონიზაციისთვის კონსორციუმმა დაამტკიცა უნიკოდის სტანდარტული ვერსია 1.1, რომელმაც შემოიტანა დამატებითი სიმბოლოები DIS 10646.1-დან. შედეგად, Unicode 1.1 და DIS 10646.1 კოდირებული სიმბოლოების მნიშვნელობები სრულიად იდენტურია.

ორ ორგანიზაციას შორის შერწყმა გაგრძელდა. 2000 წლის ვერსია მიჰყვება Unicode 3.0 სტანდარტს და სინქრონიზებულია ISO/IEC 10646-1:2000-თან. ISO/IEC 10646-ის მომავალი მესამე ვერსია სინქრონიზებული იქნება Unicode 4.0-თან. შესაძლებელია, რომ ეს სპეციფიკაციები გამოქვეყნდეს როგორც ერთიანი სტანდარტი.

Unicode სტანდარტის UTF-16 და UTF-32 ფორმატების მსგავსად, ISO/IEC 10646 სტანდარტს ასევე აქვს სიმბოლოების კოდირების ორი ძირითადი ფორმა: UCS-2 (2 ბაიტი თითო სიმბოლოზე, UTF-16-ის მსგავსი) და UCS-4. (4 ბაიტი თითო სიმბოლოზე, UTF-32-ის მსგავსი). UCS ნიშნავს უნივერსალური მრავალ ოქტეტი(მდიდარი ბაიტი) სიმბოლოების ნაკრების კოდირება(ინგლისური) უნივერსალური მრავალ ოქტეტი კოდირებული სიმბოლოების ნაკრები ). UCS-2 შეიძლება ჩაითვალოს UTF-16-ის ქვეჯგუფად (UTF-16 სუროგატი წყვილების გარეშე), ხოლო UCS-4 არის UTF-32-ის სინონიმი.

გადახდის მეთოდები

უნიკოდს აქვს მრავალი მანიფესტაციის ფორმა. უნიკოდის ტრანსფორმაციის ფორმატი, UTF ): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) და UTF-32 (UTF-32BE, UTF-32LE). UTF-7 მონაცემთა ფორმა ასევე გაიყო გადასაცემად შვიდი ბიტიანი არხებით, მაგრამ ASCII-თან შეუსაბამობის გამო ის არ გაფართოვდა და არ შედიოდა სტანდარტში. 2005 წლის 1 აპრილს დაინერგა ორი ფორმატის ფორმატი: UTF-9 და UTF-18 (RFC 4042).

Unicode UTF-8: 0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x0000000000 - 0xxxxxx 0x0000000000 - FFx1: FFx1 10xxxxxx 0x00010000 - 0 x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

თეორიულად შესაძლებელია, მაგრამ არ შედის სტანდარტში ასევე:

0x00200000 - 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 - 0x7FFFFFFFFF: 11111110xxxxxxxxxxxx 10xxxxxx

მიუხედავად იმისა, რომ UTF-8 საშუალებას გაძლევთ გამოხატოთ იგივე ათობითი სიმბოლო გზებით, მათგან მხოლოდ უმოკლესია სწორი. დანაშაულის სხვა ფორმები ექვემდებარება უსაფრთხოების სტანდარტებს.

ბაიტის შეკვეთა

UTF-16 მონაცემებში მაღალი ბაიტი შეიძლება დაიწეროს დაბალ ბაიტამდე. UTF-16 დიდი-ენდიანი), ან ახალგაზრდების შემდეგ (ინგლ. UTF-16 პატარა ენდიანი). ანალოგიურად, არსებობს მრავალი ბაიტიანი კოდირების ორი ვარიანტი - UTF-32BE და UTF-32LE.

Unicode მონაცემთა ფორმატის შესასრულებლად, ხელმოწერა იწერება ტექსტური ფაილის ზედა ნაწილში - სიმბოლო U+FEFF ( ურღვევი გაწმენდანულოვანი სიგანით), ასევე დასახელებული მცირე ბაიტის შეკვეთა(ინგლისური) ბაიტის შეკვეთის ნიშანი, BOM ). ეს საშუალებას აძლევს UTF-16LE და UTF-16BE განცალკევდეს, სანამ U+FFFE სიმბოლო არ დაზარალდება. ანალოგიურად, ეს მეთოდი გამოიყენება UTF-8-ისთვის ფორმატის მინიჭებისთვის, თუმცა ამ ფორმატში ბაიტების რიგის გაგება შეუძლებელია. ფაილები, რომლებიც ამას მოჰყვება, იწყება შემდეგი ბაიტის თანმიმდევრობით:

UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00

სამწუხაროდ, ეს მეთოდი საიმედოდ არ განასხვავებს UTF-16LE-სა და UTF-32LE-ს, თუმცა U+0000 სიმბოლო დაშვებულია Unicode-ის მიერ (თუმცა რეალური ტექსტები იშვიათად იწყება მისით).

ფაილები დაშიფრულია UTF-16 და UTF-32, რომელიც არ ერევა BOM-ში, მაგრამ არის დიდი ენდიის ბაიტის თანმიმდევრობით (unicode.org).

Unicode და ტრადიციული კოდირება

Unicode-ის გაჩენამ გამოიწვია ტრადიციული 8-ბიტიანი კოდებისადმი მიდგომის შეცვლა. მაშინ, როდესაც ადრე კოდირება მითითებული იყო შრიფტით, ახლა იგი მითითებულია ამ კოდირებისა და უნიკოდის ურთიერთობის ცხრილით. ფაქტობრივად, 8-ბიტიანი კოდირება გარდაიქმნა უნიკოდის ფაქტობრივი ქვეჯგუფის წარმოდგენის ფორმად. ამან მნიშვნელოვნად გაამარტივა პროგრამების შექმნა, რომლებიც უნდა გაუმკლავდნენ სხვადასხვა კოდირების სიბრმავეს: ახლა, სხვა კოდირების მხარდაჭერის დასამატებლად, აუცილებელია Unicode-ში კიდევ ერთი კონვერტაციის ცხრილის დამატება.

გარდა ამისა, ამ მონაცემთა მრავალი ფორმატი საშუალებას გაძლევთ ჩასვათ უნიკოდის ნებისმიერი სიმბოლო დოკუმენტების ჩასაწერად ძველ 8-ბიტიან დაშიფვრაში. მაგალითად, HTML შეიძლება იყოს კოდირებული ამპერსანტის გამოყენებით.

იმპლემენტაციები

ამჟამინდელი ოპერაციული სისტემების უმეტესობა უზრუნველყოფს უნიკოდის მხარდაჭერას სხვა გზით.

Windows NT ოჯახის ოპერაციულ სისტემებში, ფაილების სახელების შიდა წარმოდგენისთვის და სხვა სისტემის რიგებიორმაგი ბაიტიანი კოდირება არის UTF-16LE. მიღებული სისტემური ზარები სიმებიანი პარამეტრები, გამოჩნდება ერთბაიტიან და ორბაიტიან ვერსიებში. Უფრო ვრცლად.

Unicode (ინგლისური Unicode) სიმბოლოების კოდირების სტანდარტია. მარტივად რომ ვთქვათ, ეს არის ტექსტური სიმბოლოების ტიპის ცხრილი. პუნქტუაციის ელემენტები) ორმაგი კოდები. კომპიუტერს ესმის მხოლოდ ნულების და ერთების თანმიმდევრობა. იმის გასაგებად, თუ რა შეიძლება იყოს ნაჩვენები ეკრანზე, თქვენ უნდა მიანიჭოთ უნიკალური ნომერი კანის სიმბოლოს. ოთხმოციან წლებში სიმბოლოები დაშიფრული იყო ერთ ბაიტში, ან ბევრ ბიტში (თითოეული ბიტი არის 0 ან 1). აღმოჩნდა, რომ ერთი ცხრილი (კოდირების ან აკრეფის) შეიძლება შეიცავდეს მხოლოდ 256 სიმბოლოს. ვისი წაკითხვაც შეგიძლიათ ერთ ენაზე. ამიტომ გაჩნდა უამრავი სხვადასხვა კოდი, რომელთა დაბნეულობაც ხშირად იწვევდა იმას, რომ ეკრანზე, წაკითხული ტექსტის ნაცვლად, ეკრანზე რამდენიმე მშვენიერი კრაკობირი გამოჩნდა. საჭირო ერთიანი სტანდარტი, რომელიც გახდა Unicode. ყველაზე პოპულარული კოდირება არის UTF-8 (Unicode Transformation Format) გამოსახულების სიმბოლოსთვის საჭიროა 1-დან 4 ბაიტამდე.

სიმბოლოები

Unicode ცხრილებში სიმბოლოები დანომრილია თექვსმეტობითი რიცხვებით. მაგალითად, კირილიცა დიდი ასო M დანიშნულია U+041C. ეს ნიშნავს, რომ ის დგას 041 რიგისა და C სვეტის ჯვარზე. შეგიძლიათ უბრალოდ დააკოპიროთ და შემდეგ ჩასვათ ყველგან. იმისათვის, რომ არ დაიკარგოთ მრავალკილომეტრიან სიაში, უბრალოდ მოძებნეთ სწრაფად. სიმბოლოს გვერდზე დაწკაპუნებით მიიღებთ მის ნომერს უნიკოდში და სხვადასხვა შრიფტებზე მისი მინიჭების გზას. მწკრივის ძიებაში შეგიძლიათ იმოძრაოთ თავად ნიშანში ისე, რომ მის ადგილას კვადრატი იყოს დახატული, რათა გაარკვიოთ რა არის. ასევე, ამ საიტზე არის ერთიდაიგივე ტიპის ხატების სპეციალური (და შემთხვევითი) ნაკრები, შეგროვებული სხვადასხვა განყოფილებიდან, მათი შერჩევის მოხერხებულობისთვის.

უნიკოდის სტანდარტი საერთაშორისოა. Vіn მოიცავს მსოფლიოს მრავალი ასოს ნიშანს. ნომრები იმდენად მშვიდია, რომ აღარ დარჩება სტაგნაცია. ეგვიპტური იეროგლიფები, გერმანული რუნები, მაიას დამწერლობა, ლურსმული დამწერლობა და უძველესი ძალების ანბანი. წარმოგიდგენთ ჩანაწერების და ვაგების მნიშვნელობას, მუსიკალურ აღნიშვნებს და მათემატიკურ გაგებას.

თავად უნიკოდის კონსორციუმი არ არის პასუხისმგებელი ახალი პერსონაჟების შექმნაზე. ცხრილი შეიცავს ხატებს, რომლებიც დაგეხმარებათ თქვენი ქორწინების სტატუსის იდენტიფიცირებაში. მაგალითად, რუბლის ნიშანი აქტიურად გამოიყენება ექვსი წლის განმავლობაში, უპირველეს ყოვლისა დაემატა უნიკოდს. Emoji პიქტოგრამები (სმაილიკები) ასევე ფართოდ გამოიყენებოდა იაპონიაში და პირველად შეიტანეს კოდში. და დან სავაჭრო ნიშნები, და კომპანიის ლოგოები პრინციპულად არ არის მოწოდებული. ეს ისეთივე ფართოა, როგორც Apple ან Windows. დღეის მდგომარეობით, 8.0 ვერსიას აქვს დაახლოებით 120 ათასი სიმბოლო დაშიფრული.

როდესაც ცდილობთ ინტერნეტის სხვა ფუნქციების დაყენებას, გსურთ ერთხელ დაწეროთ სიტყვა „უნიკოდი“ ეკრანზე. რა არის ეს, ამ სტატიის წაკითხვის შემდეგ გაიგებთ.

ვიზნაჩენნია

Unicode კოდირება არის სიმბოლოების კოდირების სტანდარტი. ის მოწონებულია არაკომერციული ორგანიზაცია Unicode Inc.-ის მიერ. 1991 წლის როკი. სტანდარტი დაყოფილია სხვადასხვა ტიპის სიმბოლოების ყველაზე დიდი რაოდენობის ერთ დოკუმენტში გაერთიანების მიზნით. გვერდი, რომელიც შექმნილია ამ საფუძველზე, შეიძლება შეიცავდეს ასოებს და იეროგლიფებს სხვადასხვა ენიდან (რუსულიდან კორეულამდე) და მათემატიკურ ნიშნებს. ამ შემთხვევაში, კოდის ყველა სიმბოლო გამოჩნდება უპრობლემოდ.

შემოქმედების მიზეზი

კოლი, გაჩენამდე დიდი ხნით ადრე ერთიანი სისტემა„უნიკოდი“, კოდი შეირჩა დოკუმენტის ავტორის მსგავსებიდან გამომდინარე. ამიტომ ერთი დოკუმენტის წასაკითხად ხშირად საჭირო იყო სხვადასხვა ცხრილებში ნავიგაცია. ხანდახან რამდენჯერმე მოგიწიათ მუშაობა, რაც უფრო ართულებდა ცხოვრებას საშუალო პროფესიონალისთვის. როგორც უკვე აღვნიშნეთ, მთავარი პრობლემა 1991 წელს გამოიწვია არაკომერციულმა ორგანიზაციამ Unicode Inc.-მა, რომელმაც შემოიტანა ახალი ტიპის სიმბოლოების კოდირება. ჩვენ გავეცანით მორალურად მოძველებულ და მრავალფეროვან სტანდარტებს. „უნიკოდი“ არის კოდირება, რომელმაც საშუალება მოგვცა მიგვეღწია იმ დროისთვის წარმოუდგენელზე: შეგვექმნა ინსტრუმენტი, რომელიც მხარს უჭერს სიმბოლოების დიდ რაოდენობას. შედეგი, მრავალი კვლევის გავლის შემდეგ, იყო დოკუმენტების გამოჩენა, რომლებსაც შეუძლიათ ერთდროულად შეცვალონ ინგლისური და რუსული ტექსტები, ლათინური და მათემატიკური ენები.

ერთიანი კოდის შექმნა განპირობებული იყო რიგი პრობლემების გადაჭრის აუცილებლობით, რომლებიც წარმოიშვა იმ დროისთვის უკვე მოქმედი სტანდარტების მრავალფეროვნებით. მათგან ყველაზე ვრცელი:

  • ელვის ასოები, ჩი "კრაკოზიაბრი";
  • სიმბოლოთა ნაკრების ურთიერთდაკავშირება;
  • კოდის ხელახალი შექმნის პრობლემა;
  • შრიფტების გახმოვანება.


მოკლე ისტორიული ექსკურსია

გაარკვიეთ, რომ ეზო 80-იან წლებშია. Კომპიუტერული ტექნოლოგიაის ჯერ არც ისე ფართოა და დღევანდელისაგან განსხვავებული იერი აქვს. ეს კანის OS უნიკალურია თავისებურად და შეცვლილია კანის მოყვარულთა მიერ კონკრეტული საჭიროებებისთვის. ინფორმაციის გაცვლის საჭიროება წყდება მსოფლიოში ყველაფრის შემდგომი დამუშავებით. სხვადასხვა ოპერაციული სისტემის ქვეშ შექმნილი დოკუმენტის წაკითხვის მცდელობისას, ყველაზე ხშირად ეკრანზე გამოჩნდება სიმბოლოების გაუგებარი ნაკრები და იწყება თამაშები კოდირებით. ყოველთვის არ არის შესაძლებელი სამუშაოს შესრულება და ზოგჯერ საჭირო დოკუმენტის გახსნა შესაძლებელია ერთდროულად, ან მოგვიანებითაც. ადამიანები, რომლებიც ხშირად ცვლიან ინფორმაციას, ქმნიან კონვერტაციის საკუთარ ცხრილებს. და მათ ზემოთ რობოტის ღერძი ავლენს სისუფთავე დეტალს: ისინი უნდა დაიხუროს ორი მიმართულებით: "ჩემიდან შენამდე" და უკან. მანქანას არ შეუძლია შეასრულოს ბანალური ინვერსია; მისთვის მარჯვენა სვეტს აქვს გამომავალი, ხოლო მარცხენას აქვს შედეგი, მაგრამ არანაირად. თუ საჭიროა ვიკორიზმი იყოს გამარჯვებული სპეციალური პერსონაჟებისაჭირო იყო ჯერ დოკუმენტის შევსება, შემდეგ კი პარტნიორისთვის ახსნა, თუ რა უნდა გააკეთოთ, რომ სიმბოლოები არ გადაიქცეს "კრაკოზიაბრად". და არ უნდა დაგვავიწყდეს, რომ კანის კოდის ქვეშ საჭირო იყო უცხოური შრიფტების შემუშავება და ხელახალი წარმოება, რამაც გამოიწვია OS-ში დიდი რაოდენობით დუბლიკატების შექმნა.

გთხოვთ გაითვალისწინოთ, რომ შრიფტის გვერდზე ნახავთ 10 იდენტურ Times New Roman-ს პატარა ხატებით: UTF-8, UTF-16, ANSI, UCS-2-სთვის. ახლა გესმით, რომ უნივერსალური სტანდარტის შემუშავება გადაუდებელი საჭიროება იყო?

"მამები-შემოქმედნი"

Unicode-ის განვითარება დაიწყო 1987 წელს, როდესაც ჯო ბეკერმა Xerox-დან, ლი კოლინზმა და მარკ დევისმა Apple-იდან დაიწყეს უნივერსალური პერსონაჟების ნაკრების პრაქტიკული განვითარების კვლევა. 1988 წელს ჯო ბეკერმა გამოაქვეყნა წინადადების პროექტი 16-ბიტიანი საერთაშორისო მრავალატომიანი კოდირების სისტემის შესაქმნელად.

რამდენიმე თვის შემდეგ სამუშაო ჯგუფი Unicode გაფართოვდა და მოიცავდა კენ უისტლერს, RLG-ს მაიკ კერნეგანს, Sun Microsystems-ის გლენ რაიტს და ბევრ სხვა არქიტექტორს, რამაც საშუალება მისცა სამუშაო დასრულებულიყო კოდირების ერთი სტანდარტის შემუშავებით.


ზაგალნის აღწერა

უნიკოდს აქვს სიმბოლოების კონცეფცია. ამ მნიშვნელობებში ვგულისხმობთ აბსტრაქტულ ფენომენს, რომელიც წარმოიქმნება კონკრეტული ტიპის დამწერლობისგან და რეალიზდება გრაფემებით (მათი „პორტრეტები“). თითოეული სიმბოლო მითითებულია უნიკოდში უნიკალური კოდით, რომელიც შეესაბამება სტანდარტის კონკრეტულ ბლოკს. მაგალითად, გრაფემა B არის როგორც ინგლისური, ასევე რუსული ასოებით, მაგრამ უნიკოდში ის წარმოადგენს 2 ​​სხვადასხვა სიმბოლოს. მათ წინაშე იწყება ხელახალი შექმნა, ისე, რომ თითოეული მათგანი აღწერილია მონაცემთა ბაზის გასაღებით, ავტორიტეტების ნაკრებით და ახალი სახელით.

უნიკოდის უპირატესობები

სხვა თანამედროვე ეპოქაში უნიკოდის კოდირება ასახავდა სიმბოლოების დიდ მარაგს სიმბოლოების „დაშიფვრისთვის“. მარჯვნივ არის ის, რომ მისი ავანსორები არიან პატარა 8 ბიტიანი, ამიტომ ისინი მხარს უჭერენ 28 სიმბოლოს, ხოლო ახალი განვითარების ღერძი არის პატარა უკვე 216 სიმბოლო, რაც წინასწარ დიდი ნაბიჯია. ამან შესაძლებელი გახადა ანბანის თითქმის ყველა არსებითი და ფართო სფეროს დაშიფვრა.

"უნიკოდის" მოსვლასთან ერთად გაჩნდა კონვერტაციის ცხრილების ხელახლა შექმნა: როგორც ერთიანი სტანდარტი, ეს უბრალოდ აღმოფხვრა მათი საჭიროება. ამრიგად, „კრაკოზიაბრიც“ დავიწყებას მიეცა - ერთმა სტანდარტმა ისინი მოუხერხებელი გახადა, რითაც აღმოფხვრა დუბლიკატი შრიფტების შექმნის აუცილებლობა.

Unicode თემა

რა თქმა უნდა, პროგრესი არ ჩერდება და პირველი პრეზენტაციიდან 25 წელი გავიდა. თუმცა, Unicode კოდირება ჯიუტად კარგავს თავის პოზიციას მსოფლიოში. ამის დიდი ნაწილი შესაძლებელი გახდა იმის გამო, რომ იგი გახდა ადვილად გაყიდვადი და გაფართოვდა, როგორც საკუთრების (ფასიანი) და ღია კოდის პროგრამული უზრუნველყოფის აღიარებული დისტრიბუტორი.


აღსანიშნავია, რომ დღეს ჩვენ გვაქვს წვდომა იგივე Unicode კოდზე, რომელიც იყო მეოთხედი საუკუნის წინ. on ნარაზიეს ვერსია შეიცვალა 5.x.x-ით და სიმბოლოების რაოდენობა, რომელთა კოდირებაც შესაძლებელია, გაიზარდა 231-მდე. სიმბოლოების უფრო დიდი მარაგის გამოყენების შესაძლებლობის გათვალისწინებით, შეიქმნა სიმბოლოების უფრო დიდი მარაგი, რათა კვლავ შენარჩუნდეს მხარდაჭერა. Unicode-16-ისთვის (კოდირება, დე მაქსიმუმი და მათი რიცხვი აღინიშნა ნომრით 216). მისი გამოჩენის მომენტიდან "უნიკოდის სტანდარტის" 2.0.0 ვერსიამდე, ადრე შეტანილი სიმბოლოების რაოდენობა პრაქტიკულად გაორმაგდა. შესაძლებლობების ზრდა შემაშფოთებელი იყო ბედის დაწყებისას. 4.0.0 ვერსიამდე საჭირო იყო თავად სტანდარტის გაფართოება, რომელიც უკვე დაშლილი იყო. შედეგად, „უნიკოდმა“ მიიღო ის სახე, რომელიც დღეს ვიცით.


კიდევ რა არის უნიკოდში?

სიმბოლოების დიდი რაოდენობის გარდა, რომლებიც თანდათან ივსება, ემატება ბრინჯის კიდევ ერთი ფენა. მოდით ვისაუბროთ ნორმალიზებაზე ე.წ. ამის ნაცვლად, მთელი დოკუმენტის სიმბოლოების მიხედვით გასავლელად და შესაბამისი ხატების წარმოდგენის ცხრილში, გამოიყენება ნორმალიზაციის ერთ-ერთი სხვა ალგორითმი. რა ენაზეა საუბარი?

იმის ნაცვლად, რომ დახარჯოთ გამოთვლითი მანქანის რესურსები ერთი და იგივე სიმბოლოს რეგულარულ გადამოწმებაზე, რომელიც შეიძლება იყოს მსგავსი სხვადასხვა ანბანში, შემუშავებულია სპეციალური ალგორითმი. ის საშუალებას გაძლევთ შეიყვანოთ მსგავსი სიმბოლოები შემცვლელი ცხრილის მომრგვალებულ სვეტში და გადახვიდეთ მათზე, ვიდრე ყველა მონაცემის განმეორებით შემოწმება.

ასეთი ალგორითმები დაიშალა და დაიშალა. თითოეული მათგანი მიჰყვება მკაცრად მარტივ პრინციპს, რომელიც განსხვავდება სხვებისგან, ამიტომ შეუძლებელია დავასახელოთ რომელი მათგანია ყველაზე ეფექტური. კანი დეზორგანიზებული გახდა სიმღერის საჭიროებისთვის და წარმატებით დაწინაურდა.


გაფართოებული სტანდარტი

მისი ისტორიის 25 წლის განმავლობაში, "უნიკოდის" კოდირება, სავარაუდოდ, ყველაზე გავრცელებული გახდა მსოფლიოში. პროგრამები და ვებ გვერდები ასევე ადაპტირებულია ამ სტანდარტზე. ამ ტენდენციის სიგანე ჩანს იმაში, რომ Unicode ამჟამად გამოიყენება ინტერნეტ რესურსების 60%-ზე.

ახლა თქვენ იცით, რომ Unicode სტანდარტი გამოჩნდა. თქვენ ასევე იცით და შეგიძლიათ დააფასოთ Unicode Inc.-ის ჰაკერების ჯგუფის მიერ შედგენილი შედეგის ყველა მნიშვნელობა. 25 წელზე მეტი ხნის წინ.

(კოდი 0-დან 127-მდე), მაშინ. დაშიფრულია ერთ ბაიტში ლათინური ასოები, რიცხვები და სპეციალური სიმბოლოები. რუსული ასოები (კირილიცა) წარმოდგენილია 16-ბიტიანი (ორმაგი ბაიტი) კოდებით:

110XXXXXX 10XXXXXX,

სადაც X-ს ენიჭება ორნიშნა რიცხვი, რათა მოათავსოთ კოდის სიმბოლო ცხრილში UNICODE.

უნიკოდი (ინგლ. Unicode) არის სიმბოლოების კოდირების სტანდარტი, რომელიც საშუალებას აძლევს სიმბოლოების წარმოდგენას ისე, როგორც ყველა დაწერილი სიმბოლო. უნიკოდში წარმოდგენილი სიმბოლოები დაშიფრულია როგორც ხელმოუწერელი რიცხვები. ამ ციფრებს უნიკოდში ან უბრალოდ სიმბოლოების კოდებს უწოდებენ UNICODE. უნიკოდს აქვს რამდენიმე ფორმა კომპიუტერზე სიმბოლოების წარმოსადგენად: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) და UTF-32 (UTF-32BE, UTF-32LE). (ინგლისური: Unicode transformation format - UTF).

მოდით შევხედოთ როგორ არის კოდირებული UTF-8მწერალი და. Її UNICODE- 1046 10 ჩი 0416 16 ჩი 10000 010110 2 . UNICODEორმაგი ხედით, იგი იყოფა ორ ნაწილად: ხუთი მარცხენა და ექვსი მარჯვენა. მარცხენა ნაწილი ემატება ბაიტს ნიშნით 110 ორმაგი ბაიტი კოდი UTF-8: 110 10000. ორი ბიტი ემატება მარჯვენა მხარეს 10 დიდი ბაიტის კოდის გაგრძელების ნიშნები: 10 010110. დარჩენილი ასო კოდი დაUTF-8ასე გამოიყურება:

110 10000 10 010110 2
ან D0 96 16

ამ გზით რუსული ასო დაშიფრულია ორი გზით: თავდაპირველად 11-ბიტიანი UNICODEდა შემდეგ - 16-ბიტიანი UTF-8.

გადაიტანეთ ცხრილის ქვემოთ, კოდების ჩათვლით UNICODEі UTF-8მეთექვსმეტე ნომრის სისტემა მოცემულია კოდით UTF-8მეათე სისტემარიცხვები კირიული კოდის კოდთან გასათანაბრებლად CP-1251, სხვაგვარად ე.წ windows-1251.

კირიული კოდების ცხრილი UTF-8-ში
სიმბოლოUNICODEUTF-8CP-1251
Hex.ათიHex.ათი
0410 1040 D090208 144 192
0411 1041 D091208 145 193
0412 1042 D092208 146 194
0413 1043 D093208 147 195
0414 1044 D094208 148 196
0415 1045 D095208 149 197
და0416 1046 D096208 150 198
0417 1047 D097208 151 199
І0418 1048 D098208 152 200
0419 1049 D099208 153 201
მანამდე041A1050 D09A208 154 202
041B1051 D09B208 155 203
041C1052 D09C208 156 204
041D1053 D09D208 157 205
შესახებ041E1054 D09E208 158 206
041F1055 D09F208 159 207
0420 1056 D0A0208 160 208
0421 1057 D0A1208 161 209
0422 1058 D0A2208 162 210
0423 1059 D0A3208 163 211
0424 1060 D0A4208 164 212
X0425 1061 D0A5208 165 213
C0426 1062 D0A6208 166 214
0427 1063 D0A7208 167 215
0428 1064 D0A8208 168 216
SCH0429 1065 D0A9208 169 217
კომერსანტი042A1066 D0AA208 170 218
042B1067 D0AB208 171 219
042C1068 D0AC208 172 220
042D1069 D0AD208 173 221
YU042E1070 D0AE208 174 222
მე042F1071 D0AF208 175 223
0430 1072 D0B0208 176 224
0431 1073 D0B1208 177 225
0432 1074 D0B2208 178 226
0433 1075 D0B3208 179 227
0434 1076 D0B4208 180 228
0435 1077 D0B5208 181 229
და0436 1078 D0B6208 182 230
0437 1079 D0B7208 183 231
і0438 1080 D0B8208 184 232
0439 1081 D0B9208 185 233
ადრე043A1082 D0BA208 186 234
043B1083 D0BB208 187 235
043C1084 D0BC208 188 236
043D1085 D0BD208 189 237
043E1086 D0BE208 190 238
043F1087 D0BF208 191 239
0440 1088 D180209 128 240
0441 1089 D181209 129 241
0442 1090 D182209 130 242
ზე0443 1091 D183209 131 243
0444 1092 D184209 132 244
X0445 1093 D185209 133 245
0446 1094 D186209 134 246
წელიწადი0447 1095 D187209 135 247
0448 1096 D188209 136 248
სჩ0449 1097 D189209 137 249
ъ044A1098 D18A209 138 250
044B1099 D18B209 139 251
044C1100 D18C209 140 252
044D1101 D18D209 141 253
იუ044E1102 D18E209 142 254
მე044F1103 D18F209 143 255
პოზის სიმბოლოები ზაგალის წესით
იო0401 1025 D001208 101 168
0451 1025 D191209 145 184