პრობლემა არის მსგავსი რიცხვების და ასოების გამოყოფა.

ზოგჯერ გჭირდებათ ხატის დამატება თქვენს დიზაინში, მაგრამ არ გსურთ დამატებითი სურათების ან მთელი ხატის შრიფტის ჩასმა, როგორიცაა Font Awesome? მაშინ ჩვენ გვაქვს კარგი ამბავი თქვენთვის - ხელმისაწვდომი ხატებისა და სიმბოლოების დიდი ბიბლიოთეკა უკვე თქვენს ბრაუზერში. მას ჰქვია Unicode, რომელიც არის სტანდარტი, რომელიც უზრუნველყოფს უნიკალურ იდენტიფიკატორებს სიმბოლოებისა და ხატების სტაბილურად მზარდი რაოდენობისთვის (მინიმუმ 110,000).

თუმცა, ეს არ ნიშნავს, რომ თქვენ გაქვთ არჩევანი ასობით ათასი ხატიდან. ამის შესაქმნელად საჭიროა გამოიყენოთ ბრაუზერი, რომელიც ასახავს მათ, და სისტემაში დაინსტალირებული vikory შრიფტები. ამ სტატიიდან ჩვენ შევარჩიეთ სიმბოლოების რამდენიმე ნაკრები, რომლებიც ხელმისაწვდომია Windows, Linux, OS X, Android და IOS-ზე. თქვენ შეგიძლიათ მათი ვიკორისტიკა დიზაინში დღესვე!

Porada: , რომელიც განმარტავს ყველაფერს, რაც უნდა იცოდეთ Unicode კოდირების შესახებ, რომელსაც გირჩევთ PZ-ის კანის წიგნის წასაკითხად.

როგორ გამოვიყენოთ ეს ხატები

ქვემოთ მოცემულ ცხრილებში ნაჩვენები ხატები არის ძირითადი სიმბოლოები, რომლებიც შეგიძლიათ დააკოპიროთ და ჩასვათ ანბანის სიმბოლოებად. ალს მოსწონს კოდირება, მოსწონს vikorist HTML/CSS ფაილების შესანახად არა UTF-8სუნი ვერ წარმოიდგენს. ფაქტობრივად, ჩვენ მოგვცეს HTML გაქცევის კოდი, რომელიც მკაცრად აუცილებელია. რა უნდა გააკეთოთ ხატების გამოსაყენებლად:

იპოვე სამკერდე ნიშანი, რომელსაც იმსახურებ. ჩვენ მოგვცეს მცირე და დიდი გადახედვები.
დააკოპირეთ კოდი.
ჩადეთ її HTML-ში, როგორც პირველადი ტექსტი. CSS-ში შეგიძლიათ მათი ვიკორიზაცია, როგორც ძალაუფლების მნიშვნელობა შინაარსი. JS, PHP და სხვა ენების პროგრამირებაში შეგიძლიათ გამოიყენოთ ისინი, როგორც ორიგინალი ტექსტი რიგებში.
ხატების მორგება შეგიძლიათ შრიფტის ზომის, ფერის, ტექსტისა და ჩრდილის, ასევე ორიგინალური ტექსტის დაყენებით.

ხატები

სახელი	წინ ხედი		კოდი
სმაილი	☺	☺	☺
Გამაფრთხილებელი ნიშანი	⚠	⚠	⚠
Ცხელი წყლები	♨	♨	♨
ინვალიდის ეტლი	♿	♿	♿
გადამუშავება	♻	♻	♻
8-ბურთი	➑	➑	➑
მაღალი ძაბვა	⚡	⚡	⚡
თეთრი ვარსკვლავი	☆	☆	☆
Შავი ვარსკვლავი	★	★	★
თეთრი გული	♡	♡	♡
Შავი გული	❤	❤	❤
ყავა	☕	☕	☕
თვითმფრინავი	✈	✈	✈
ქვიშის საათი	⌛	⌛	⌛
საათი	⌚	⌚	⌚
შავი მაკრატელი	✂	✂	✂
თეთრი მაკრატელი	✄	✄	✄
გვირგვინი	♕	♕	♕
წამყვანი	⚓	⚓	⚓
ჯვარი	✝	✝	✝
შავ-თეთრი წრე	◑	◑	◑
რვა შენიშვნა	♪	♪	♪
სხივიანი მერვე ნოტები	♫	♫	♫
ოთხი ბუშტიანი ვარსკვლავი	✣	✣	✣
წრიული თეთრი ვარსკვლავი	✪	✪	✪
თეთრი ვარსკვლავი	✰	✰	✰
თეთრი ოთხქიმიანი ვარსკვლავი	✧	✧	✧
შავი ოთხქიმიანი ვარსკვლავი	✦	✦	✦
საარჩევნო ყუთის შემოწმება	☑	☑	☑
შეამოწმეთ ნიშანი	✔	✔	✔
ჯვარი მარკი	✘	✘	✘
ფანქარი	✎	✎	✎
საწერი ხელი	✍	✍	✍
ქალი	♀	♀	♀
მამრობითი	♂	♂	♂
შავი ტელეფონი	☎	☎	☎
თეთრი ტელეფონი	☏	☏	☏
კონვერტი	✉	✉	✉
ტელეფონის ადგილმდებარეობა	✆	✆	✆

ისრები უნიკოდში

სახელი	წინ ხედი		კოდი
ისარი მარცხნივ	←	←	←
ისარი მარჯვნივ	→	→	→
ისარი ზევით
ისარი ქვევით	↓	↓	↓
მარცხენა მარჯვენა ისარი	↔	↔	↔
ისარი ზემოთ ქვემოთ	↕	↕	↕
მარჯვენა და მარცხენა ისრები	⇄	⇄	⇄
ზემოთ და ქვემოთ ისრები	⇅	⇅	⇅
ქვემოთ-მარცხნივ 90 გრადუსიანი ისარი	↲	↲	↲
ქვემო-მარჯვნივ 90 გრადუსიანი ისარი	↳	↳	↳
ზემოთ-მარცხნივ 90 გრადუსიანი ისარი	↰	↰	↰
ზევით მარჯვნივ 90 გრადუსიანი ისარი	↱	↱	↱
ჩრდილო-დასავლეთის ისარი კუთხემდე	⇱	⇱	⇱
სამხრეთ-აღმოსავლეთის ისარი კუთხემდე	⇲	⇲	⇲
მარცხნივ ისარი ზოლისკენ	⇤	⇤	⇤
მარჯვნივ ისარი ზოლისკენ	⇥	⇥	⇥
ნახევარწრიული ისარი საათის ისრის საწინააღმდეგო მიმართულებით	↶	↶	↶
ნახევარწრიული ისარი საათის ისრის მიმართულებით	↷	↷	↷
ისარი საათის ისრის საწინააღმდეგო მიმართულებით	↺	↺	↺
საათის ისრის წრის ისარი	↻	↻	↻
ფართოთავიანი ისარი მარჯვნივ	➔	➔	➔
ზიგზაგის ისარი ქვევით	↯	↯	↯
ჩრდილო-დასავლეთის ისარი	↖	↖	↖
მძიმე სამხრეთ-აღმოსავლეთის ისარი	➘	➘	➘
მძიმე ისარი მარჯვნივ	➙	➙	➙
მძიმე ჩრდილო-აღმოსავლეთის ისარი	➚	➚	➚
დატეხილი უფლებების ისარი	➟	➟	➟
წერტილოვანი ისარი მარცხნივ	⇠	⇠	⇠
შავი ისარი მარჯვნივ	➤	➤	➤
მარცხნივ თეთრი ისარი	⇦	⇦	⇦
მარჯვნივ თეთრი ისარი	⇨	⇨	⇨
მარცხენა კუთხის ციტატა	«	«	«
მარჯვენა კუთხის ციტატა	»	»	»
მარჯვენა შავი მაჩვენებელი
მარცხენა შავი მაჩვენებელი	◀	◀	◀
ზემოთ შავი მაჩვენებელი	▲	▲	▲
ქვემოთ შავი მაჩვენებელი	▼	▼	▼
მარჯვენა თეთრი მაჩვენებელი	▷	▷	▷
მარცხენა თეთრი მაჩვენებელი	◁	◁	◁
ზევით თეთრი მაჩვენებელი	△	△	△
ქვემოთ თეთრი მაჩვენებელი	▽	▽	▽
მშვილდი ისარი	➴	➴	➴

სპეციალური სიმბოლოები უნიკოდში

ვალუტა უნიკოდში

ლოდინის ხატები

სახელი	წინ ხედი		კოდი
ხარისხი	°	°	°
პატარა მზე	☀	☀	☀
დიდი მზე	☼	☼	☼
ღრუბელი	☁	☁	☁
ქოლგა	☔	☔	☔
ფიფქი 1	❆	❆	❆
ფიფქი 2	❅	❅	❅
ფიფქი 3	❄	❄	❄

ვოკატივები უნიკოდში

სახელი	წინ ხედი		კოდი
მაჩვენებელი მარცხენა შავი	☚	☚	☚
მაჩვენებელი მარჯვნივ შავი	☛	☛	☛
მაჩვენებელი მარცხენა თეთრი	☜	☜	☜
მაჩვენებლის ზემოთ თეთრი	☝	☝	☝
მაჩვენებელი მარჯვნივ თეთრი	☞	☞	☞
პოინტერი ქვემოთ თეთრი	☟	☟	☟

ზოდიაქოს ნიშნები უნიკოდში

სახელი	წინ ხედი		კოდი
ვერძი	♈	♈	♈
კურო	♉	♉	♉
ტყუპები	♊	♊	♊
კიბო	♋	♋	♋
ლომი	♌	♌	♌
ქალწული	♍	♍	♍
ტერეზი	♎	♎	♎
მორიელი	♏	♏	♏
მშვილდოსანი	♐	♐	♐
თხის რქა	♑	♑	♑
მერწყული	♒	♒	♒
რიბი	♓	♓	♓

ბარათის სიმბოლოები უნიკოდში

სახელი	წინ ხედი		კოდი
კლუბები შავი	♠	♠	♠
გულები შავი	♥	♥	♥
ბრილიანტები შავი	♦	♦	♦
ყვავი შავი	♣	♣	♣
კლუბები თეთრი	♤	♤	♤
გულები თეთრი	♡	♡	♡
ბრილიანტი თეთრი	♢	♢	♢
ყვავი თეთრი	♧	♧	♧

ჭადრაკის ფიგურები უნიკოდში

სახელი	წინ ხედი		კოდი
მეფე თეთრი	♔	♔	♔
დედოფალი თეთრი	♕	♕	♕
რუკ თეთრი	♖	♖	♖
ეპისკოპოსი თეთრი	♗	♗	♗
რაინდი თეთრი	♘	♘	♘
ლომბარდი თეთრი	♙	♙	♙
მეფე შავი	♚	♚	♚
დედოფალი შავი	♛	♛	♛
Rook შავი	♜	♜	♜
ეპისკოპოსი შავი	♝	♝	♝
რაინდი შავი	♞	♞	♞
ლომბარდი შავი	♟	♟	♟

გრა ძვალში

სახელი	წინ ხედი		კოდი
Dice Roll One	⚀	⚀	⚀
Dice Roll ორი	⚁	⚁	⚁
Dice Roll სამი	⚂	⚂	⚂
Dice Roll Four	⚃	⚃	⚃
Dice Roll Five	⚄	⚄	⚄
Dice Roll Six	⚅	⚅	⚅

მათემატიკური სიმბოლოები უნიკოდში

სახელი	წინ ხედი		კოდი
უსასრულობა	∞	∞	∞
პლუს მინუსი	±	±	±
ნაკლები ან ტოლი	≤	≤	≤
მეტი ან ტოლი	≥	≥	≥
არა ტოლი	≠	≠	≠
განყოფილება	÷	÷	÷
გამრავლება x	×	×	×
მძიმე გამრავლება x	✖	✖	✖
სუპერსკრიპტი ერთი	¹	¹	¹
ზედნაწერი ორი	²	²	²
ზედნაწერი სამი	³	³	³
წრიული პლუსი	⊕	⊕	⊕
წრიული გამრავლება	⊗	⊗	⊗
ლოგიკური და	∧	∧	∧
ლოგიკური ან	∨	∨	∨
დელტა	∆	∆	∆
ღვეზელი	∏	∏	∏
სიგმა (SUM)	∑	∑	∑
ომეგა	Ω	Ω	Ω
ცარიელი ნაკრები	∅	∅	∅
კუთხე	∠	∠	∠
პარალელურად	∥	∥	∥
Პერპენდიკულარული	⊥	⊥	⊥
თითქმის თანაბარი	≈	≈	≈
სამკუთხედი	△	△	△
წრე	○	○	○
მოედანი	□	□	□

ფრაქციები

სახელი	წინ ხედი		კოდი
ერთი მეოთხედი (1/4)	¼	¼	¼
ნახევარი (1/2)	½	½	½
სამი მეოთხედი (3/4)	¾	¾	¾
ერთი მესამედი (1/3)	⅓	⅓	⅓
ორი მესამედი (2/3)	⅔	⅔	⅔
ერთი რვა (1/8)	⅛	⅛	⅛
სამი რვიანი (3/8)	⅜	⅜	⅜
ხუთი რვა (5/8)	⅝	⅝	⅝
შვიდი რვა (7/8)	⅞	⅞	⅞

რომაული ციფრები უნიკოდში

სახელი	წინ ხედი		კოდი
რომაული რიცხვი ერთი	Ⅰ	Ⅰ	Ⅰ
რომაული რიცხვი ორი	Ⅱ	Ⅱ	Ⅱ
რომაული რიცხვი სამი	Ⅲ	Ⅲ	Ⅲ
რომაული რიცხვი ოთხი	Ⅳ	Ⅳ	Ⅳ
რომაული რიცხვი ხუთი	Ⅴ	Ⅴ	Ⅴ
რომაული რიცხვი ექვსი	Ⅵ	Ⅵ	Ⅵ
რომაული რიცხვი შვიდი	Ⅶ	Ⅶ	Ⅶ
რომაული რიცხვი რვა	Ⅷ	Ⅷ	Ⅷ
რომაული რიცხვი ცხრა	Ⅸ	Ⅸ	Ⅸ
რომაული რიცხვი ათი	Ⅹ	Ⅹ	Ⅹ
რომაული რიცხვი თერთმეტი	Ⅺ	Ⅺ	Ⅺ
რომაული რიცხვი თორმეტი	Ⅻ	Ⅻ	Ⅻ

და ამ სიმბოლოების განსხვავებულად გადმოცემის მნიშვნელობა ოპერატიული სისტემა. ამაზე მიუთითებს შრიფტების სხვადასხვა ოჯახი, რის გამოც ღირს შემოწმება. გარდა ამისა, iOS და Android ცვლის უნიკოდის რამდენიმე სიმბოლოს სმაილიკებით, ამიტომ დარწმუნდით, რომ შეამოწმეთ შეყვანილი სიმბოლოები, რათა დარწმუნდეთ, რომ ხატები არ გამოჩნდეს გადატანილი.

კოდის სივრცის ელემენტები, რომლებიც წარმოადგენენ უცნობ რიცხვებს. კოდირების ოჯახი წარმოადგენს UCS კოდების თანმიმდევრობის მანქანურ წარმოდგენას.

კოდები უნიკოდის სტანდარტში იყოფა რამდენიმე სფეროდ. უბანი U+0000-დან U+007F-მდე კოდებით შეიცავს სიმბოლოებს ASCII ნაკრებში ქვეკოდებით. გაფართოებულია სხვადასხვა ასოების სიმბოლოების, სასვენი ნიშნებისა და ტექნიკური სიმბოლოების შემდგომი სფეროები. ზოგიერთი კოდი დაცულია სხვების გამოსაყენებლად. კირიული სიმბოლოების ქვემოთ შეგიძლიათ იხილოთ სიმბოლოების არეები კოდებით U+0400-დან U+052F-მდე, U+2DE0-დან U+2DFF-მდე, U+A640-დან U+A69F-მდე (კირილიცის დაყოფა უნიკოდში).

შეცვალეთ აზრი და განავითარეთ Unicode

ნამსხვრევები ზედიზედ კომპიუტერული სისტემები(მაგალითად, Windows NT) ფიქსირებული 16-ბიტიანი სიმბოლოები უკვე ვიკორიზირებული იყო ფიქრის შედეგად, გადაწყდა, რომ ყველა ყველაზე მნიშვნელოვანი სიმბოლო დაშიფრული იყო პირველი 65536 პოზიციის ფარგლებში (ე.წ. ინგლისურად. ძირითადი მრავალენოვანი თვითმფრინავი, BMP). Reshta prostoro vykoristovuetsya "დამატებითი სიმბოლოებისთვის" (ინგლ. დამატებითი სიმბოლოები): ძველი ენების დამწერლობის სისტემები და იშვიათად ჩინური იეროგლიფები, მათემატიკური და მუსიკალური სიმბოლოები.

ძველი 16-ბიტიანი სისტემების მოხერხებულობისთვის გამოყენებული იყო UTF-16 სისტემა, პირველი 65,536 პოზიციით, რასაც მოჰყვა პოზიციები U+D800...U+DFFF ინტერვალში, პირდაპირ ნაჩვენები 16-ბიტიანი რიცხვების სახით და პასუხი. წარმოდგენილია "სუროგატ წყვილებს" შორის "(ფსონის პირველი ელემენტი არის U+D800...U+DBFF, ფსონის სხვა ელემენტი არის U+DC00...U+DFFF არეში) . სუროგატი წყვილებისთვის ვიკორასტანმა გამოიყენა კოდის სივრცის ნაწილი (2048 პოზიცია), რომელიც ადრე იყო გამოყოფილი კერძო ვიკორისტანის სიმბოლოებისთვის.

ფრაგმენტები UTF-16-ში შეიძლება წარმოდგენილი იყოს 2 20 +2 16 −2048 (1 112 064) სიმბოლოზე ნაკლები, ამიტომ ეს რიცხვი გამოითვალა, როგორც Unicode კოდის სივრცის დარჩენილი მნიშვნელობა.

მიუხედავად იმისა, რომ Unicode კოდის ზონა გაფართოვდა 2-დან 16-მდე 2.0 ვერსიაში, პირველი სიმბოლოები ზედა ზონაში მხოლოდ 3.1 ვერსიაში იყო მოთავსებული.

ამ კოდირების როლი ვებ სექტორში თანდათან იზრდება; 2010 წლის მდგომარეობით, ვებსაიტების პროცენტი, რომლებიც იყენებენ უნიკოდს, შეადგენდა თითქმის 50%-ს.

უნიკოდის ვერსიები

მსოფლიომ შეცვალა და განაახლა უნიკოდის სისტემის სიმბოლოების ცხრილი და სისტემის ახალი ვერსიების გამოშვება და ეს სამუშაო სტაბილურად ხორციელდებოდა, ვინაიდან უნიკოდის სისტემა თავდაპირველად მოიცავდა მხოლოდ Plane 0 - ორმაგი ბაიტის კოდებს, - ახალ ISO. დოკუმენტები გამოქვეყნებულია. უნიკოდის სისტემა გამოიყენება მიმდინარე ვერსიებში:

1.1 (შეესაბამება ISO/IEC 10646-1:1993), სტანდარტი 1991-1995 წ.
2.0, 2.1 (იგივე სტანდარტი ISO/IEC 10646-1:1993 პლუს დამატებითი: „შესწორებები“ 1-დან მე-7-მდე და „ტექნიკური კორიგენდა“ 1 და 2), სტანდარტი 1996 წ.
3.0 (ISO/IEC 10646-1:2000 სტანდარტი), 2000 roku სტანდარტი.
3.1 (ISO/IEC 10646-1:2000 და ISO/IEC 10646-2:2001 სტანდარტები), 2001 წლის სტანდარტი.
3.2, 2002 Roku სტანდარტი.
4.0, სტანდარტი 2003 წ.
4.01, სტანდარტი 2004 წ.
4.1, სტანდარტი 2005 წ.
5.0, სტანდარტი 2006 წ.
5.1, სტანდარტი 2008 წ.
5.2, სტანდარტი 2009 წ.
6.0, სტანდარტი 2010 წ.
6.1, სტანდარტი 2012 წ.
6.2, სტანდარტი 2012 წ.

კოდის სივრცე

იმის სურვილით, რომ UTF-8 და UTF-32 ფორმატებმა დაუშვან 231 (2147483648) კოდის პოზიციები, გადაწყდა 1112064 გამოყენება UTF-16-თან შესაბამისობისთვის. თუმცა, რაც უფრო მნიშვნელოვანია ის არის, რომ დღეს (6.0 ვერსიაში) არის 110,000-ზე ნაკლები კოდის პოზიცია (109,242 გრაფიკული და 273 სხვა სიმბოლო).

შესვენებების კოდის დიაპაზონი 17-ით ბინები 2 16 (65,536) სიმბოლო თითოეული. ნულის მოედანი ჰქვია ძირითადი, მას აქვს ყველაზე გავრცელებული სკრიპტების მრავალფეროვანი სიმბოლოები. პირველი თვითმფრინავი დაცულია ძირითადად ისტორიული თხზულებებისთვის, მეორე - KKY იეროგლიფებისთვის, რომლებიც იშვიათად არის ვიკორიზირებული, მესამე დაცულია არქაული ჩინური იეროგლიფებისთვის. 15 და 16 ხედის ფართები კერძო საცხოვრებლად.

დასანიშნად უნიკოდის სიმბოლოები Vikorist ჩანაწერი ჰგავს „U+ xxxx"(კოდებისთვის 0...FFFF), ან "U+ xxxxx"(კოდებისთვის 10000...FFFFF), ან "U+ xxxxxx„(კოდებისთვის 100000 ... 10FFFF), დე xxx- თექვსმეტი ციფრი. მაგალითად, სიმბოლოს I (U+044F) აქვს კოდი 044F = 1103.

კოდირების სისტემა

უნივერსალური კოდირების სისტემა (Unicode) არის გრაფიკული სიმბოლოების ერთობლიობა და მათი კოდირების მეთოდი ტექსტური მონაცემების კომპიუტერული დამუშავებისთვის.

გრაფიკული სიმბოლოები არის სიმბოლოები, რომლებიც ჩანს ხილულ სურათებში. გრაფიკული სიმბოლოები წარმოდგენილია ბირთვის სიმბოლოებით და ფორმატირების სიმბოლოებით.

გრაფიკული სიმბოლოები მოიცავს შემდეგ ჯგუფებს:

ასოები, რომლებიც უნდა იყოს განთავსებული ერთ-ერთ ანბანში, რომელსაც ემსახურება;
ნომრები;
სასვენი ნიშნები;
სპეციალური ნიშნები (მათემატიკური, ტექნიკური, იდეოგრაფიული და სხვ.);
გამყოფები.

Unicode არის ტექსტის ხაზოვანი წარმოდგენის სისტემა. სიმბოლოები, რომლებიც შეიცავს დამატებით ზემდგომ ან დაქვემდებარებულ ელემენტებს, შეიძლება წარმოდგენილი იყოს კოდის თანმიმდევრობის წესებით მოთხოვნილი ფორმით (კომპოზიტური სიმბოლო) ან ერთი სიმბოლოს სახით (მონოლითური ვერსია, წინასწარ შედგენილი სიმბოლო) ).

პერსონაჟების შეცვლა

წარდგენილია სიმბოლო „І“ (U+0419) საბაზისო სიმბოლოს „I“ (U+0418) და შეცვლილი სიმბოლოს „̆“ (U+0306) სახით.

უნიკოდში გრაფიკული სიმბოლოები იყოფა გაფართოებულ და არაგანვრცობებად (უფართო). არა გაფართოებული სიმბოლოები, როდესაც ნაჩვენებია, არ იკავებს ადგილს რიგში. მათ წინაშე იტყუება, დახურვა, ნიშნები ხმაში და სხვა დიაკრიტული ნიშნები. როგორც გრძელი, ისე მოკლე სიმბოლოები ქმნიან მსოფლიო კოდებს. გრძელ სიმბოლოებს ძირითადი ეწოდება. საბაზისო პერსონაჟები), და არა გაფართოებული - მოდიფიცირებული (ინგლ. პერსონაჟების გაერთიანება); მეტიც, დანარჩენები დამოუკიდებლად ვერ გაერთიანდებიან. მაგალითად, სიმბოლო "a" შეიძლება წარმოდგენილი იყოს საბაზისო სიმბოლოს "a" (U+0061) და შეცვლილი სიმბოლოს "-" (U+0301) თანმიმდევრობით ან როგორც მონოლითური სიმბოლო "a" (U+00C1). ).

მოდიფიკაციის სიმბოლოების განსაკუთრებული ტიპია სკამის ოფციონის ამომრჩევი. ვარიაციის სელექტორები). აღარ არსებობს სიმბოლოები, რომლებზეც მითითებულია ასეთი ვარიანტები. ვერსია 5.0 აქვს გამოსახულების ვარიანტები რიგი მათემატიკური სიმბოლოებისთვის, ტრადიციული მონღოლური ანბანის სიმბოლოებისთვის და მონღოლური კვადრატული ფურცლის სიმბოლოებისთვის.

ნორმალიზაციის ფორმები

თავად ზოგიერთი სიმბოლოს ფრაგმენტები ჩანს სხვადასხვა კოდებიდამუშავების შედგენის გარდა, არსებობს ნორმალიზების პროცესები, რომლებიც გამოიყენება ტექსტის მარტივ სტანდარტულ გარეგნობამდე მისაყვანად.

უნიკოდის სტანდარტს აქვს ტექსტის ნორმალიზაციის 4 ფორმა:

ნორმალიზების ფორმა D(NFD) არის კანონიკური დაშლა. ტექსტის ამ ფორმამდე შემცირების პროცესში, საწყობის ყველა სიმბოლო რეკურსიულად იცვლება საწყობის რამდენიმე სიმბოლოთი, დაშლის ცხრილის მსგავსი.
ნორმალიზების ფორმა C (NFC) არის კანონიკური დაშლა მომიჯნავე კანონიკური შემადგენლობით. თავიდანვე ტექსტი დგება D ფორმაში, რის შემდეგაც სრულდება კანონიკური კომპოზიცია - ტექსტი დგება თავიდან ბოლომდე და სრულდება შემდეგი წესები:
- სიმბოლო S є მოდით cobრადგან უნიკოდის სიმბოლოების ბაზაში არის ნულოვანი მოდიფიკაციის კლასი.
- სიმბოლოების ნებისმიერ თანმიმდევრობაში, რომელიც იწყება cob სიმბოლო S-დან, სიმბოლო C იბლოკება S-ით, რომელიც არის მხოლოდ S-სა და C-ს შორის და არის თუ არა სიმბოლო B ან cob, ან შეიძლება იყოს იგივე ან უფრო მაღალი კლასის მოდიფიკაცია ii, ქვედა C ეს წესი უფრო ფართოვდება რიგებით, რომლებმაც განიცადეს კანონიკური დაშლა.
- პერვინნიმიკომპოზიტი არის სიმბოლო, რომელიც არის უნიკოდის სიმბოლოების ბაზის კანონიკური დაშლა (ან ჰანგილისა და ვინის კანონიკური დაშლა არ შედის ბრალდების სიაში).
- სიმბოლო X შეიძლება თავდაპირველად გაერთიანდეს სიმბოლოსთან Y, რადგან ის ასევე ეფუძნება პირველ კომპოზიციურ Z-ს, რომელიც კანონიკურად ექვივალენტურია მიმდევრობისთვის. .
- ვინაიდან ძირითადი სიმბოლო C არ არის დაბლოკილი დარჩენილი მკვეთრი ბირთვის სიმბოლო L-ით და შეიძლება წარმატებით გაერთიანდეს პირველ რიგში, L შეიცვალოს კომპოზიტური L-C-ით და C წაიშლება.
ნორმალიზების ფორმა KD (NFKD) არის სრული დაშლა. ამ ფორმაზე გადასვლისას, საწყობის ყველა სიმბოლო იცვლება, ვიკორისტია როგორც კანონიკური უნიკოდის დაშლის რუკები, ასევე ჯამის დაშლის რუქები, რის შემდეგაც შედეგი მოთავსებულია კანონიკური თანმიმდევრობით.
ნორმალიზების ფორმა KC (NFKC) – ჯამის დაშლა შეტევითი კანონიკურიშემადგენლობა.

ტერმინები "კომპოზიცია" და "დაშლა" ნათლად არის გაგებული, როგორც სიმბოლოების კომბინაცია ან განლაგება საწყობში.

გამოიყენეთ იგი

კობის ტექსტი	NFD	NFC	NFKD	NFKC
ფრანგული	ფრანკი\u0327აის	ფრან\xe7აის	ფრანკი\u0327აის	ფრან\xe7აის
A, E, J		\u0410, \u0401, \u0419	\u0410,\u0415\u0308,\u0418\u0306	\u0410, \u0401, \u0419
が	\u304b\u3099	\u304c	\u304b\u3099	\u304c
ჰენრი IV	ჰენრი IV	ჰენრი IV	ჰენრი IV	ჰენრი IV
ჰენრი Ⅳ	ჰენრი და 2163	ჰენრი და 2163	ჰენრი IV	ჰენრი IV

ორმხრივი ფურცელი

უნიკოდის სტანდარტი ხელს უწყობს წერას მარჯვნიდან მარცხნივ. მარცხნიდან მარჯვნივ, LTRდა იწერება მარჯვნიდან მარცხნივ (ინგლისური) მარჯვნიდან მარცხნივ, RTL) - მაგალითად, არაბული და ებრაული ფურცელი. ორივე შემთხვევაში სიმბოლოები დაცულია „ბუნებრივი“ თანმიმდევრობით; მათი ჩვენება ფურცლის საჭირო მიმართულებებით უზრუნველყოფილი იქნება პროგრამის მიერ.

გარდა ამისა, Unicode ხელს უწყობს კომბინირებულ ტექსტებს სხვადასხვა ფურცლების ფრაგმენტების გაერთიანებაში. ამ უნარს ე.წ ორმაგი სისწორე(ინგლისური) ორმხრივი ტექსტი, BiDi). მოქმედებები გამარტივებულია ტექსტზე (მაგალითად, ძველი ტელეფონები) შეუძლია უნიკოდის მხარდაჭერა, მაგრამ არა ორმხრივობის მხარდაჭერა. უნიკოდის ყველა სიმბოლო იყოფა რამდენიმე კატეგორიად: ისინი, რომლებიც იწერება მარცხნიდან მარჯვნივ, რომლებიც იწერება მარჯვნივ მარცხნივ და ისინი, რომლებიც იწერება ნებისმიერი მიმართულებით. დარჩენილი კატეგორიის სიმბოლოები (ძირითადად სასვენი ნიშნები) ნაჩვენებია პირდაპირ ტექსტში.

სიმბოლოების წარმოდგენა

Unicode მოიცავს თითქმის ყველა ყოველდღიურ სკრიპტს, მათ შორის:

და სხვა.

აკადემიური მიზნებისთვის გამოიცა მრავალი ისტორიული დამწერლობა, მათ შორის: რუნები, ძველი ბერძნული, ეგვიპტური იეროგლიფები, ლურსმული, მაიას დამწერლობა, ეტრუზიული ანბანი.

უნიკოდის გამოსახულებებს აქვთ მათემატიკური და მუსიკალური სიმბოლოების ფართო სპექტრი, ასევე ხატები.

თუმცა, უნიკოდამდე, პრინციპია, არ შეიტანოთ კომპანიების და პროდუქტების ლოგოები, თუმცა ისინი გამორჩეული ჩანან შრიფტებში (მაგალითად, Apple-ის ლოგო MacRoman კოდში (0xF0) ან Windows-ის ლოგო Wingdings-ის შრიფტში (0xFF)). . უნიკოდის შრიფტებში ლოგოები განლაგებულია მხოლოდ შესაბამისი სიმბოლოების არეალში.

ISO/IEC 10646

Unicode კონსორციუმი მჭიდროდ თანამშრომლობს ISO/IEC/JTC1/SC2/WG2 სამუშაო ჯგუფთან, რათა განავითაროს საერთაშორისო სტანდარტი 10646 (ISO/IEC 10646). არსებობს სინქრონიზაცია Unicode სტანდარტსა და ISO/IEC 10646-ს შორის, თუმცა კანის სტანდარტი მიჰყვება მის ტერმინოლოგიასა და დოკუმენტაციის სისტემას.

შესაბამისობა უნიკოდის კონსორციუმთან და სტანდარტიზაციის საერთაშორისო ორგანიზაციასთან (ინგლისური) სტანდარტიზაციის საერთაშორისო ორგანიზაცია ISO ) დაიწყო 1991 წელს. 1993 წელს ISO-მ გამოუშვა სტანდარტი DIS 10646.1. მასთან სინქრონიზაციისთვის კონსორციუმმა დაამტკიცა უნიკოდის სტანდარტული ვერსია 1.1, რომელმაც შემოიტანა დამატებითი სიმბოლოები DIS 10646.1-დან. შედეგად, Unicode 1.1 და DIS 10646.1 კოდირებული სიმბოლოების მნიშვნელობები სრულიად იდენტურია.

ორ ორგანიზაციას შორის შერწყმა გაგრძელდა. 2000 წლის ვერსია მიჰყვება Unicode 3.0 სტანდარტს და სინქრონიზებულია ISO/IEC 10646-1:2000-თან. ISO/IEC 10646-ის მომავალი მესამე ვერსია სინქრონიზებული იქნება Unicode 4.0-თან. შესაძლებელია, რომ ეს სპეციფიკაციები გამოქვეყნდეს როგორც ერთიანი სტანდარტი.

Unicode სტანდარტის UTF-16 და UTF-32 ფორმატების მსგავსად, ISO/IEC 10646 სტანდარტს ასევე აქვს სიმბოლოების კოდირების ორი ძირითადი ფორმა: UCS-2 (2 ბაიტი თითო სიმბოლოზე, UTF-16-ის მსგავსი) და UCS-4. (4 ბაიტი თითო სიმბოლოზე, UTF-32-ის მსგავსი). UCS ნიშნავს უნივერსალური მრავალ ოქტეტი(მდიდარი ბაიტი) სიმბოლოების ნაკრების კოდირება(ინგლისური) უნივერსალური მრავალ ოქტეტი კოდირებული სიმბოლოების ნაკრები ). UCS-2 შეიძლება ჩაითვალოს UTF-16-ის ქვეჯგუფად (UTF-16 სუროგატი წყვილების გარეშე), ხოლო UCS-4 არის UTF-32-ის სინონიმი.

გადახდის მეთოდები

უნიკოდს აქვს მრავალი მანიფესტაციის ფორმა. უნიკოდის ტრანსფორმაციის ფორმატი, UTF ): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) და UTF-32 (UTF-32BE, UTF-32LE). UTF-7 მონაცემთა ფორმა ასევე გაიყო გადასაცემად შვიდი ბიტიანი არხებით, მაგრამ ASCII-თან შეუსაბამობის გამო ის არ გაფართოვდა და არ შედიოდა სტანდარტში. 2005 წლის 1 აპრილს დაინერგა ორი ფორმატის ფორმატი: UTF-9 და UTF-18 (RFC 4042).

Unicode UTF-8: 0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x0000000000 - 0xxxxxx 0x0000000000 - FFx1: FFx1 10xxxxxx 0x00010000 - 0 x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

თეორიულად შესაძლებელია, მაგრამ არ შედის სტანდარტში ასევე:

0x00200000 - 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 - 0x7FFFFFFFFF: 11111110xxxxxxxxxxxx 10xxxxxx

მიუხედავად იმისა, რომ UTF-8 საშუალებას გაძლევთ გამოხატოთ იგივე ათობითი სიმბოლო გზებით, მათგან მხოლოდ უმოკლესია სწორი. დანაშაულის სხვა ფორმები ექვემდებარება უსაფრთხოების სტანდარტებს.

ბაიტის შეკვეთა

UTF-16 მონაცემებში მაღალი ბაიტი შეიძლება დაიწეროს დაბალ ბაიტამდე. UTF-16 დიდი-ენდიანი), ან ახალგაზრდების შემდეგ (ინგლ. UTF-16 პატარა ენდიანი). ანალოგიურად, არსებობს მრავალი ბაიტიანი კოდირების ორი ვარიანტი - UTF-32BE და UTF-32LE.

Unicode მონაცემთა ფორმატის შესასრულებლად, ხელმოწერა იწერება ტექსტური ფაილის ზედა ნაწილში - სიმბოლო U+FEFF ( ურღვევი გაწმენდანულოვანი სიგანით), ასევე დასახელებული მცირე ბაიტის შეკვეთა(ინგლისური) ბაიტის შეკვეთის ნიშანი, BOM ). ეს საშუალებას აძლევს UTF-16LE და UTF-16BE განცალკევდეს, სანამ U+FFFE სიმბოლო არ დაზარალდება. ანალოგიურად, ეს მეთოდი გამოიყენება UTF-8-ისთვის ფორმატის მინიჭებისთვის, თუმცა ამ ფორმატში ბაიტების რიგის გაგება შეუძლებელია. ფაილები, რომლებიც ამას მოჰყვება, იწყება შემდეგი ბაიტის თანმიმდევრობით:

UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00

სამწუხაროდ, ეს მეთოდი საიმედოდ არ განასხვავებს UTF-16LE-სა და UTF-32LE-ს, თუმცა U+0000 სიმბოლო დაშვებულია Unicode-ის მიერ (თუმცა რეალური ტექსტები იშვიათად იწყება მისით).

ფაილები დაშიფრულია UTF-16 და UTF-32, რომელიც არ ერევა BOM-ში, მაგრამ არის დიდი ენდიის ბაიტის თანმიმდევრობით (unicode.org).

Unicode და ტრადიციული კოდირება

Unicode-ის გაჩენამ გამოიწვია ტრადიციული 8-ბიტიანი კოდებისადმი მიდგომის შეცვლა. მაშინ, როდესაც ადრე კოდირება მითითებული იყო შრიფტით, ახლა იგი მითითებულია ამ კოდირებისა და უნიკოდის ურთიერთობის ცხრილით. ფაქტობრივად, 8-ბიტიანი კოდირება გარდაიქმნა უნიკოდის ფაქტობრივი ქვეჯგუფის წარმოდგენის ფორმად. ამან მნიშვნელოვნად გაამარტივა პროგრამების შექმნა, რომლებიც უნდა გაუმკლავდნენ სხვადასხვა კოდირების სიბრმავეს: ახლა, სხვა კოდირების მხარდაჭერის დასამატებლად, აუცილებელია Unicode-ში კიდევ ერთი კონვერტაციის ცხრილის დამატება.

გარდა ამისა, ამ მონაცემთა მრავალი ფორმატი საშუალებას გაძლევთ ჩასვათ უნიკოდის ნებისმიერი სიმბოლო დოკუმენტების ჩასაწერად ძველ 8-ბიტიან დაშიფვრაში. მაგალითად, HTML შეიძლება იყოს კოდირებული ამპერსანტის გამოყენებით.

იმპლემენტაციები

ამჟამინდელი ოპერაციული სისტემების უმეტესობა უზრუნველყოფს უნიკოდის მხარდაჭერას სხვა გზით.

Windows NT ოჯახის ოპერაციულ სისტემებში, ფაილების სახელების შიდა წარმოდგენისთვის და სხვა სისტემის რიგებიორმაგი ბაიტიანი კოდირება არის UTF-16LE. მიღებული სისტემური ზარები სიმებიანი პარამეტრები, გამოჩნდება ერთბაიტიან და ორბაიტიან ვერსიებში. Უფრო ვრცლად.

Unicode (ინგლისური Unicode) სიმბოლოების კოდირების სტანდარტია. მარტივად რომ ვთქვათ, ეს არის ტექსტური სიმბოლოების ტიპის ცხრილი. პუნქტუაციის ელემენტები) ორმაგი კოდები. კომპიუტერს ესმის მხოლოდ ნულების და ერთების თანმიმდევრობა. იმის გასაგებად, თუ რა შეიძლება იყოს ნაჩვენები ეკრანზე, თქვენ უნდა მიანიჭოთ უნიკალური ნომერი კანის სიმბოლოს. ოთხმოციან წლებში სიმბოლოები დაშიფრული იყო ერთ ბაიტში, ან ბევრ ბიტში (თითოეული ბიტი არის 0 ან 1). აღმოჩნდა, რომ ერთი ცხრილი (კოდირების ან აკრეფის) შეიძლება შეიცავდეს მხოლოდ 256 სიმბოლოს. ვისი წაკითხვაც შეგიძლიათ ერთ ენაზე. ამიტომ გაჩნდა უამრავი სხვადასხვა კოდი, რომელთა დაბნეულობაც ხშირად იწვევდა იმას, რომ ეკრანზე, წაკითხული ტექსტის ნაცვლად, ეკრანზე რამდენიმე მშვენიერი კრაკობირი გამოჩნდა. საჭირო ერთიანი სტანდარტი, რომელიც გახდა Unicode. ყველაზე პოპულარული კოდირება არის UTF-8 (Unicode Transformation Format) გამოსახულების სიმბოლოსთვის საჭიროა 1-დან 4 ბაიტამდე.

სიმბოლოები

Unicode ცხრილებში სიმბოლოები დანომრილია თექვსმეტობითი რიცხვებით. მაგალითად, კირილიცა დიდი ასო M დანიშნულია U+041C. ეს ნიშნავს, რომ ის დგას 041 რიგისა და C სვეტის ჯვარზე. შეგიძლიათ უბრალოდ დააკოპიროთ და შემდეგ ჩასვათ ყველგან. იმისათვის, რომ არ დაიკარგოთ მრავალკილომეტრიან სიაში, უბრალოდ მოძებნეთ სწრაფად. სიმბოლოს გვერდზე დაწკაპუნებით მიიღებთ მის ნომერს უნიკოდში და სხვადასხვა შრიფტებზე მისი მინიჭების გზას. მწკრივის ძიებაში შეგიძლიათ იმოძრაოთ თავად ნიშანში ისე, რომ მის ადგილას კვადრატი იყოს დახატული, რათა გაარკვიოთ რა არის. ასევე, ამ საიტზე არის ერთიდაიგივე ტიპის ხატების სპეციალური (და შემთხვევითი) ნაკრები, შეგროვებული სხვადასხვა განყოფილებიდან, მათი შერჩევის მოხერხებულობისთვის.

უნიკოდის სტანდარტი საერთაშორისოა. Vіn მოიცავს მსოფლიოს მრავალი ასოს ნიშანს. ნომრები იმდენად მშვიდია, რომ აღარ დარჩება სტაგნაცია. ეგვიპტური იეროგლიფები, გერმანული რუნები, მაიას დამწერლობა, ლურსმული დამწერლობა და უძველესი ძალების ანბანი. წარმოგიდგენთ ჩანაწერების და ვაგების მნიშვნელობას, მუსიკალურ აღნიშვნებს და მათემატიკურ გაგებას.

თავად უნიკოდის კონსორციუმი არ არის პასუხისმგებელი ახალი პერსონაჟების შექმნაზე. ცხრილი შეიცავს ხატებს, რომლებიც დაგეხმარებათ თქვენი ქორწინების სტატუსის იდენტიფიცირებაში. მაგალითად, რუბლის ნიშანი აქტიურად გამოიყენება ექვსი წლის განმავლობაში, უპირველეს ყოვლისა დაემატა უნიკოდს. Emoji პიქტოგრამები (სმაილიკები) ასევე ფართოდ გამოიყენებოდა იაპონიაში და პირველად შეიტანეს კოდში. და დან სავაჭრო ნიშნები, და კომპანიის ლოგოები პრინციპულად არ არის მოწოდებული. ეს ისეთივე ფართოა, როგორც Apple ან Windows. დღეის მდგომარეობით, 8.0 ვერსიას აქვს დაახლოებით 120 ათასი სიმბოლო დაშიფრული.

როდესაც ცდილობთ ინტერნეტის სხვა ფუნქციების დაყენებას, გსურთ ერთხელ დაწეროთ სიტყვა „უნიკოდი“ ეკრანზე. რა არის ეს, ამ სტატიის წაკითხვის შემდეგ გაიგებთ.

ვიზნაჩენნია

Unicode კოდირება არის სიმბოლოების კოდირების სტანდარტი. ის მოწონებულია არაკომერციული ორგანიზაცია Unicode Inc.-ის მიერ. 1991 წლის როკი. სტანდარტი დაყოფილია სხვადასხვა ტიპის სიმბოლოების ყველაზე დიდი რაოდენობის ერთ დოკუმენტში გაერთიანების მიზნით. გვერდი, რომელიც შექმნილია ამ საფუძველზე, შეიძლება შეიცავდეს ასოებს და იეროგლიფებს სხვადასხვა ენიდან (რუსულიდან კორეულამდე) და მათემატიკურ ნიშნებს. ამ შემთხვევაში, კოდის ყველა სიმბოლო გამოჩნდება უპრობლემოდ.

შემოქმედების მიზეზი

კოლი, გაჩენამდე დიდი ხნით ადრე ერთიანი სისტემა„უნიკოდი“, კოდი შეირჩა დოკუმენტის ავტორის მსგავსებიდან გამომდინარე. ამიტომ ერთი დოკუმენტის წასაკითხად ხშირად საჭირო იყო სხვადასხვა ცხრილებში ნავიგაცია. ხანდახან რამდენჯერმე მოგიწიათ მუშაობა, რაც უფრო ართულებდა ცხოვრებას საშუალო პროფესიონალისთვის. როგორც უკვე აღვნიშნეთ, მთავარი პრობლემა 1991 წელს გამოიწვია არაკომერციულმა ორგანიზაციამ Unicode Inc.-მა, რომელმაც შემოიტანა ახალი ტიპის სიმბოლოების კოდირება. ჩვენ გავეცანით მორალურად მოძველებულ და მრავალფეროვან სტანდარტებს. „უნიკოდი“ არის კოდირება, რომელმაც საშუალება მოგვცა მიგვეღწია იმ დროისთვის წარმოუდგენელზე: შეგვექმნა ინსტრუმენტი, რომელიც მხარს უჭერს სიმბოლოების დიდ რაოდენობას. შედეგი, მრავალი კვლევის გავლის შემდეგ, იყო დოკუმენტების გამოჩენა, რომლებსაც შეუძლიათ ერთდროულად შეცვალონ ინგლისური და რუსული ტექსტები, ლათინური და მათემატიკური ენები.

ერთიანი კოდის შექმნა განპირობებული იყო რიგი პრობლემების გადაჭრის აუცილებლობით, რომლებიც წარმოიშვა იმ დროისთვის უკვე მოქმედი სტანდარტების მრავალფეროვნებით. მათგან ყველაზე ვრცელი:

ელვის ასოები, ჩი "კრაკოზიაბრი";
სიმბოლოთა ნაკრების ურთიერთდაკავშირება;
კოდის ხელახალი შექმნის პრობლემა;
შრიფტების გახმოვანება.

მოკლე ისტორიული ექსკურსია

გაარკვიეთ, რომ ეზო 80-იან წლებშია. Კომპიუტერული ტექნოლოგიაის ჯერ არც ისე ფართოა და დღევანდელისაგან განსხვავებული იერი აქვს. ეს კანის OS უნიკალურია თავისებურად და შეცვლილია კანის მოყვარულთა მიერ კონკრეტული საჭიროებებისთვის. ინფორმაციის გაცვლის საჭიროება წყდება მსოფლიოში ყველაფრის შემდგომი დამუშავებით. სხვადასხვა ოპერაციული სისტემის ქვეშ შექმნილი დოკუმენტის წაკითხვის მცდელობისას, ყველაზე ხშირად ეკრანზე გამოჩნდება სიმბოლოების გაუგებარი ნაკრები და იწყება თამაშები კოდირებით. ყოველთვის არ არის შესაძლებელი სამუშაოს შესრულება და ზოგჯერ საჭირო დოკუმენტის გახსნა შესაძლებელია ერთდროულად, ან მოგვიანებითაც. ადამიანები, რომლებიც ხშირად ცვლიან ინფორმაციას, ქმნიან კონვერტაციის საკუთარ ცხრილებს. და მათ ზემოთ რობოტის ღერძი ავლენს სისუფთავე დეტალს: ისინი უნდა დაიხუროს ორი მიმართულებით: "ჩემიდან შენამდე" და უკან. მანქანას არ შეუძლია შეასრულოს ბანალური ინვერსია; მისთვის მარჯვენა სვეტს აქვს გამომავალი, ხოლო მარცხენას აქვს შედეგი, მაგრამ არანაირად. თუ საჭიროა ვიკორიზმი იყოს გამარჯვებული სპეციალური პერსონაჟებისაჭირო იყო ჯერ დოკუმენტის შევსება, შემდეგ კი პარტნიორისთვის ახსნა, თუ რა უნდა გააკეთოთ, რომ სიმბოლოები არ გადაიქცეს "კრაკოზიაბრად". და არ უნდა დაგვავიწყდეს, რომ კანის კოდის ქვეშ საჭირო იყო უცხოური შრიფტების შემუშავება და ხელახალი წარმოება, რამაც გამოიწვია OS-ში დიდი რაოდენობით დუბლიკატების შექმნა.

გთხოვთ გაითვალისწინოთ, რომ შრიფტის გვერდზე ნახავთ 10 იდენტურ Times New Roman-ს პატარა ხატებით: UTF-8, UTF-16, ANSI, UCS-2-სთვის. ახლა გესმით, რომ უნივერსალური სტანდარტის შემუშავება გადაუდებელი საჭიროება იყო?

"მამები-შემოქმედნი"

Unicode-ის განვითარება დაიწყო 1987 წელს, როდესაც ჯო ბეკერმა Xerox-დან, ლი კოლინზმა და მარკ დევისმა Apple-იდან დაიწყეს უნივერსალური პერსონაჟების ნაკრების პრაქტიკული განვითარების კვლევა. 1988 წელს ჯო ბეკერმა გამოაქვეყნა წინადადების პროექტი 16-ბიტიანი საერთაშორისო მრავალატომიანი კოდირების სისტემის შესაქმნელად.

რამდენიმე თვის შემდეგ სამუშაო ჯგუფი Unicode გაფართოვდა და მოიცავდა კენ უისტლერს, RLG-ს მაიკ კერნეგანს, Sun Microsystems-ის გლენ რაიტს და ბევრ სხვა არქიტექტორს, რამაც საშუალება მისცა სამუშაო დასრულებულიყო კოდირების ერთი სტანდარტის შემუშავებით.

ზაგალნის აღწერა

უნიკოდს აქვს სიმბოლოების კონცეფცია. ამ მნიშვნელობებში ვგულისხმობთ აბსტრაქტულ ფენომენს, რომელიც წარმოიქმნება კონკრეტული ტიპის დამწერლობისგან და რეალიზდება გრაფემებით (მათი „პორტრეტები“). თითოეული სიმბოლო მითითებულია უნიკოდში უნიკალური კოდით, რომელიც შეესაბამება სტანდარტის კონკრეტულ ბლოკს. მაგალითად, გრაფემა B არის როგორც ინგლისური, ასევე რუსული ასოებით, მაგრამ უნიკოდში ის წარმოადგენს 2 სხვადასხვა სიმბოლოს. მათ წინაშე იწყება ხელახალი შექმნა, ისე, რომ თითოეული მათგანი აღწერილია მონაცემთა ბაზის გასაღებით, ავტორიტეტების ნაკრებით და ახალი სახელით.

უნიკოდის უპირატესობები

სხვა თანამედროვე ეპოქაში უნიკოდის კოდირება ასახავდა სიმბოლოების დიდ მარაგს სიმბოლოების „დაშიფვრისთვის“. მარჯვნივ არის ის, რომ მისი ავანსორები არიან პატარა 8 ბიტიანი, ამიტომ ისინი მხარს უჭერენ 28 სიმბოლოს, ხოლო ახალი განვითარების ღერძი არის პატარა უკვე 216 სიმბოლო, რაც წინასწარ დიდი ნაბიჯია. ამან შესაძლებელი გახადა ანბანის თითქმის ყველა არსებითი და ფართო სფეროს დაშიფვრა.

"უნიკოდის" მოსვლასთან ერთად გაჩნდა კონვერტაციის ცხრილების ხელახლა შექმნა: როგორც ერთიანი სტანდარტი, ეს უბრალოდ აღმოფხვრა მათი საჭიროება. ამრიგად, „კრაკოზიაბრიც“ დავიწყებას მიეცა - ერთმა სტანდარტმა ისინი მოუხერხებელი გახადა, რითაც აღმოფხვრა დუბლიკატი შრიფტების შექმნის აუცილებლობა.

Unicode თემა

რა თქმა უნდა, პროგრესი არ ჩერდება და პირველი პრეზენტაციიდან 25 წელი გავიდა. თუმცა, Unicode კოდირება ჯიუტად კარგავს თავის პოზიციას მსოფლიოში. ამის დიდი ნაწილი შესაძლებელი გახდა იმის გამო, რომ იგი გახდა ადვილად გაყიდვადი და გაფართოვდა, როგორც საკუთრების (ფასიანი) და ღია კოდის პროგრამული უზრუნველყოფის აღიარებული დისტრიბუტორი.

აღსანიშნავია, რომ დღეს ჩვენ გვაქვს წვდომა იგივე Unicode კოდზე, რომელიც იყო მეოთხედი საუკუნის წინ. on ნარაზიეს ვერსია შეიცვალა 5.x.x-ით და სიმბოლოების რაოდენობა, რომელთა კოდირებაც შესაძლებელია, გაიზარდა 231-მდე. სიმბოლოების უფრო დიდი მარაგის გამოყენების შესაძლებლობის გათვალისწინებით, შეიქმნა სიმბოლოების უფრო დიდი მარაგი, რათა კვლავ შენარჩუნდეს მხარდაჭერა. Unicode-16-ისთვის (კოდირება, დე მაქსიმუმი და მათი რიცხვი აღინიშნა ნომრით 216). მისი გამოჩენის მომენტიდან "უნიკოდის სტანდარტის" 2.0.0 ვერსიამდე, ადრე შეტანილი სიმბოლოების რაოდენობა პრაქტიკულად გაორმაგდა. შესაძლებლობების ზრდა შემაშფოთებელი იყო ბედის დაწყებისას. 4.0.0 ვერსიამდე საჭირო იყო თავად სტანდარტის გაფართოება, რომელიც უკვე დაშლილი იყო. შედეგად, „უნიკოდმა“ მიიღო ის სახე, რომელიც დღეს ვიცით.

კიდევ რა არის უნიკოდში?

სიმბოლოების დიდი რაოდენობის გარდა, რომლებიც თანდათან ივსება, ემატება ბრინჯის კიდევ ერთი ფენა. მოდით ვისაუბროთ ნორმალიზებაზე ე.წ. ამის ნაცვლად, მთელი დოკუმენტის სიმბოლოების მიხედვით გასავლელად და შესაბამისი ხატების წარმოდგენის ცხრილში, გამოიყენება ნორმალიზაციის ერთ-ერთი სხვა ალგორითმი. რა ენაზეა საუბარი?

იმის ნაცვლად, რომ დახარჯოთ გამოთვლითი მანქანის რესურსები ერთი და იგივე სიმბოლოს რეგულარულ გადამოწმებაზე, რომელიც შეიძლება იყოს მსგავსი სხვადასხვა ანბანში, შემუშავებულია სპეციალური ალგორითმი. ის საშუალებას გაძლევთ შეიყვანოთ მსგავსი სიმბოლოები შემცვლელი ცხრილის მომრგვალებულ სვეტში და გადახვიდეთ მათზე, ვიდრე ყველა მონაცემის განმეორებით შემოწმება.

ასეთი ალგორითმები დაიშალა და დაიშალა. თითოეული მათგანი მიჰყვება მკაცრად მარტივ პრინციპს, რომელიც განსხვავდება სხვებისგან, ამიტომ შეუძლებელია დავასახელოთ რომელი მათგანია ყველაზე ეფექტური. კანი დეზორგანიზებული გახდა სიმღერის საჭიროებისთვის და წარმატებით დაწინაურდა.

გაფართოებული სტანდარტი

მისი ისტორიის 25 წლის განმავლობაში, "უნიკოდის" კოდირება, სავარაუდოდ, ყველაზე გავრცელებული გახდა მსოფლიოში. პროგრამები და ვებ გვერდები ასევე ადაპტირებულია ამ სტანდარტზე. ამ ტენდენციის სიგანე ჩანს იმაში, რომ Unicode ამჟამად გამოიყენება ინტერნეტ რესურსების 60%-ზე.

ახლა თქვენ იცით, რომ Unicode სტანდარტი გამოჩნდა. თქვენ ასევე იცით და შეგიძლიათ დააფასოთ Unicode Inc.-ის ჰაკერების ჯგუფის მიერ შედგენილი შედეგის ყველა მნიშვნელობა. 25 წელზე მეტი ხნის წინ.

(კოდი 0-დან 127-მდე), მაშინ. დაშიფრულია ერთ ბაიტში ლათინური ასოები, რიცხვები და სპეციალური სიმბოლოები. რუსული ასოები (კირილიცა) წარმოდგენილია 16-ბიტიანი (ორმაგი ბაიტი) კოდებით:

110XXXXXX 10XXXXXX,

სადაც X-ს ენიჭება ორნიშნა რიცხვი, რათა მოათავსოთ კოდის სიმბოლო ცხრილში UNICODE.

უნიკოდი (ინგლ. Unicode) არის სიმბოლოების კოდირების სტანდარტი, რომელიც საშუალებას აძლევს სიმბოლოების წარმოდგენას ისე, როგორც ყველა დაწერილი სიმბოლო. უნიკოდში წარმოდგენილი სიმბოლოები დაშიფრულია როგორც ხელმოუწერელი რიცხვები. ამ ციფრებს უნიკოდში ან უბრალოდ სიმბოლოების კოდებს უწოდებენ UNICODE. უნიკოდს აქვს რამდენიმე ფორმა კომპიუტერზე სიმბოლოების წარმოსადგენად: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) და UTF-32 (UTF-32BE, UTF-32LE). (ინგლისური: Unicode transformation format - UTF).

მოდით შევხედოთ როგორ არის კოდირებული UTF-8მწერალი და. Її UNICODE- 1046 10 ჩი 0416 16 ჩი 10000 010110 2 . UNICODEორმაგი ხედით, იგი იყოფა ორ ნაწილად: ხუთი მარცხენა და ექვსი მარჯვენა. მარცხენა ნაწილი ემატება ბაიტს ნიშნით 110 ორმაგი ბაიტი კოდი UTF-8: 110 10000. ორი ბიტი ემატება მარჯვენა მხარეს 10 დიდი ბაიტის კოდის გაგრძელების ნიშნები: 10 010110. დარჩენილი ასო კოდი დავ UTF-8ასე გამოიყურება:

110 10000 10 010110 2
ან D0 96 16

ამ გზით რუსული ასო დაშიფრულია ორი გზით: თავდაპირველად 11-ბიტიანი UNICODEდა შემდეგ - 16-ბიტიანი UTF-8.

გადაიტანეთ ცხრილის ქვემოთ, კოდების ჩათვლით UNICODEі UTF-8მეთექვსმეტე ნომრის სისტემა მოცემულია კოდით UTF-8ვ მეათე სისტემარიცხვები კირიული კოდის კოდთან გასათანაბრებლად CP-1251, სხვაგვარად ე.წ windows-1251.

კირიული კოდების ცხრილი UTF-8-ში

სიმბოლო	UNICODE		UTF-8		CP-1251
სიმბოლო	Hex.	ათი	Hex.	ათი	CP-1251
ა	0410	1040	D090	208 144	192
ბ	0411	1041	D091	208 145	193
უ	0412	1042	D092	208 146	194
გ	0413	1043	D093	208 147	195
დ	0414	1044	D094	208 148	196
ე	0415	1045	D095	208 149	197
და	0416	1046	D096	208 150	198
ზ	0417	1047	D097	208 151	199
І	0418	1048	D098	208 152	200
ი	0419	1049	D099	208 153	201
მანამდე	041A	1050	D09A	208 154	202
ლ	041B	1051	D09B	208 155	203
მ	041C	1052	D09C	208 156	204
ნ	041D	1053	D09D	208 157	205
შესახებ	041E	1054	D09E	208 158	206
პ	041F	1055	D09F	208 159	207
რ	0420	1056	D0A0	208 160	208
ზ	0421	1057	D0A1	208 161	209
თ	0422	1058	D0A2	208 162	210
უ	0423	1059	D0A3	208 163	211
ფ	0424	1060	D0A4	208 164	212
X	0425	1061	D0A5	208 165	213
C	0426	1062	D0A6	208 166	214
ჰ	0427	1063	D0A7	208 167	215
შ	0428	1064	D0A8	208 168	216
SCH	0429	1065	D0A9	208 169	217
კომერსანტი	042A	1066	D0AA	208 170	218
ი	042B	1067	D0AB	208 171	219
ბ	042C	1068	D0AC	208 172	220
ე	042D	1069	D0AD	208 173	221
YU	042E	1070	D0AE	208 174	222
მე	042F	1071	D0AF	208 175	223
ა	0430	1072	D0B0	208 176	224
ბ	0431	1073	D0B1	208 177	225
ვ	0432	1074	D0B2	208 178	226
გ	0433	1075	D0B3	208 179	227
დ	0434	1076	D0B4	208 180	228
ე	0435	1077	D0B5	208 181	229
და	0436	1078	D0B6	208 182	230
თ	0437	1079	D0B7	208 183	231
і	0438	1080	D0B8	208 184	232
ე	0439	1081	D0B9	208 185	233
ადრე	043A	1082	D0BA	208 186	234
ლ	043B	1083	D0BB	208 187	235
მ	043C	1084	D0BC	208 188	236
ნ	043D	1085	D0BD	208 189	237
ო	043E	1086	D0BE	208 190	238
პ	043F	1087	D0BF	208 191	239
რ	0440	1088	D180	209 128	240
თ	0441	1089	D181	209 129	241
თ	0442	1090	D182	209 130	242
ზე	0443	1091	D183	209 131	243
ვ	0444	1092	D184	209 132	244
X	0445	1093	D185	209 133	245
ც	0446	1094	D186	209 134	246
წელიწადი	0447	1095	D187	209 135	247
ვ	0448	1096	D188	209 136	248
სჩ	0449	1097	D189	209 137	249
ъ	044A	1098	D18A	209 138	250
ს	044B	1099	D18B	209 139	251
ბ	044C	1100	D18C	209 140	252
ე	044D	1101	D18D	209 141	253
იუ	044E	1102	D18E	209 142	254
მე	044F	1103	D18F	209 143	255
პოზის სიმბოლოები ზაგალის წესით
იო	0401	1025	D001	208 101	168
ე	0451	1025	D191	209 145	184

კატეგორიები

პოპულარული