პრობლემა არის მსგავსი რიცხვების და ასოების გამოყოფა.
ზოგჯერ გჭირდებათ ხატის დამატება თქვენს დიზაინში, მაგრამ არ გსურთ დამატებითი სურათების ან მთელი ხატის შრიფტის ჩასმა, როგორიცაა Font Awesome? მაშინ ჩვენ გვაქვს კარგი ამბავი თქვენთვის - ხელმისაწვდომი ხატებისა და სიმბოლოების დიდი ბიბლიოთეკა უკვე თქვენს ბრაუზერში. მას ჰქვია Unicode, რომელიც არის სტანდარტი, რომელიც უზრუნველყოფს უნიკალურ იდენტიფიკატორებს სიმბოლოებისა და ხატების სტაბილურად მზარდი რაოდენობისთვის (მინიმუმ 110,000).
თუმცა, ეს არ ნიშნავს, რომ თქვენ გაქვთ არჩევანი ასობით ათასი ხატიდან. ამის შესაქმნელად საჭიროა გამოიყენოთ ბრაუზერი, რომელიც ასახავს მათ, და სისტემაში დაინსტალირებული vikory შრიფტები. ამ სტატიიდან ჩვენ შევარჩიეთ სიმბოლოების რამდენიმე ნაკრები, რომლებიც ხელმისაწვდომია Windows, Linux, OS X, Android და IOS-ზე. თქვენ შეგიძლიათ მათი ვიკორისტიკა დიზაინში დღესვე!
Porada: , რომელიც განმარტავს ყველაფერს, რაც უნდა იცოდეთ Unicode კოდირების შესახებ, რომელსაც გირჩევთ PZ-ის კანის წიგნის წასაკითხად.
როგორ გამოვიყენოთ ეს ხატები
ქვემოთ მოცემულ ცხრილებში ნაჩვენები ხატები არის ძირითადი სიმბოლოები, რომლებიც შეგიძლიათ დააკოპიროთ და ჩასვათ ანბანის სიმბოლოებად. ალს მოსწონს კოდირება, მოსწონს vikorist HTML/CSS ფაილების შესანახად არა UTF-8სუნი ვერ წარმოიდგენს. ფაქტობრივად, ჩვენ მოგვცეს HTML გაქცევის კოდი, რომელიც მკაცრად აუცილებელია. რა უნდა გააკეთოთ ხატების გამოსაყენებლად:
- იპოვე სამკერდე ნიშანი, რომელსაც იმსახურებ. ჩვენ მოგვცეს მცირე და დიდი გადახედვები.
- დააკოპირეთ კოდი.
- ჩადეთ її HTML-ში, როგორც პირველადი ტექსტი. CSS-ში შეგიძლიათ მათი ვიკორიზაცია, როგორც ძალაუფლების მნიშვნელობა შინაარსი. JS, PHP და სხვა ენების პროგრამირებაში შეგიძლიათ გამოიყენოთ ისინი, როგორც ორიგინალი ტექსტი რიგებში.
- ხატების მორგება შეგიძლიათ შრიფტის ზომის, ფერის, ტექსტისა და ჩრდილის, ასევე ორიგინალური ტექსტის დაყენებით.
ხატები
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
სმაილი | ☺ | ☺ | ☺ |
Გამაფრთხილებელი ნიშანი | ⚠ | ⚠ | ⚠ |
Ცხელი წყლები | ♨ | ♨ | ♨ |
ინვალიდის ეტლი | ♿ | ♿ | ♿ |
გადამუშავება | ♻ | ♻ | ♻ |
8-ბურთი | ➑ | ➑ | ➑ |
მაღალი ძაბვა | ⚡ | ⚡ | ⚡ |
თეთრი ვარსკვლავი | ☆ | ☆ | ☆ |
Შავი ვარსკვლავი | ★ | ★ | ★ |
თეთრი გული | ♡ | ♡ | ♡ |
Შავი გული | ❤ | ❤ | ❤ |
ყავა | ☕ | ☕ | ☕ |
თვითმფრინავი | ✈ | ✈ | ✈ |
ქვიშის საათი | ⌛ | ⌛ | ⌛ |
საათი | ⌚ | ⌚ | ⌚ |
შავი მაკრატელი | ✂ | ✂ | ✂ |
თეთრი მაკრატელი | ✄ | ✄ | ✄ |
გვირგვინი | ♕ | ♕ | ♕ |
წამყვანი | ⚓ | ⚓ | ⚓ |
ჯვარი | ✝ | ✝ | ✝ |
შავ-თეთრი წრე | ◑ | ◑ | ◑ |
რვა შენიშვნა | ♪ | ♪ | ♪ |
სხივიანი მერვე ნოტები | ♫ | ♫ | ♫ |
ოთხი ბუშტიანი ვარსკვლავი | ✣ | ✣ | ✣ |
წრიული თეთრი ვარსკვლავი | ✪ | ✪ | ✪ |
თეთრი ვარსკვლავი | ✰ | ✰ | ✰ |
თეთრი ოთხქიმიანი ვარსკვლავი | ✧ | ✧ | ✧ |
შავი ოთხქიმიანი ვარსკვლავი | ✦ | ✦ | ✦ |
საარჩევნო ყუთის შემოწმება | ☑ | ☑ | ☑ |
შეამოწმეთ ნიშანი | ✔ | ✔ | ✔ |
ჯვარი მარკი | ✘ | ✘ | ✘ |
ფანქარი | ✎ | ✎ | ✎ |
საწერი ხელი | ✍ | ✍ | ✍ |
ქალი | ♀ | ♀ | ♀ |
მამრობითი | ♂ | ♂ | ♂ |
შავი ტელეფონი | ☎ | ☎ | ☎ |
თეთრი ტელეფონი | ☏ | ☏ | ☏ |
კონვერტი | ✉ | ✉ | ✉ |
ტელეფონის ადგილმდებარეობა | ✆ | ✆ | ✆ |
ისრები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
ისარი მარცხნივ | ← | ← | ← |
ისარი მარჯვნივ | → | → | → |
ისარი ზევით | |||
ისარი ქვევით | ↓ | ↓ | ↓ |
მარცხენა მარჯვენა ისარი | ↔ | ↔ | ↔ |
ისარი ზემოთ ქვემოთ | ↕ | ↕ | ↕ |
მარჯვენა და მარცხენა ისრები | ⇄ | ⇄ | ⇄ |
ზემოთ და ქვემოთ ისრები | ⇅ | ⇅ | ⇅ |
ქვემოთ-მარცხნივ 90 გრადუსიანი ისარი | ↲ | ↲ | ↲ |
ქვემო-მარჯვნივ 90 გრადუსიანი ისარი | ↳ | ↳ | ↳ |
ზემოთ-მარცხნივ 90 გრადუსიანი ისარი | ↰ | ↰ | ↰ |
ზევით მარჯვნივ 90 გრადუსიანი ისარი | ↱ | ↱ | ↱ |
ჩრდილო-დასავლეთის ისარი კუთხემდე | ⇱ | ⇱ | ⇱ |
სამხრეთ-აღმოსავლეთის ისარი კუთხემდე | ⇲ | ⇲ | ⇲ |
მარცხნივ ისარი ზოლისკენ | ⇤ | ⇤ | ⇤ |
მარჯვნივ ისარი ზოლისკენ | ⇥ | ⇥ | ⇥ |
ნახევარწრიული ისარი საათის ისრის საწინააღმდეგო მიმართულებით | ↶ | ↶ | ↶ |
ნახევარწრიული ისარი საათის ისრის მიმართულებით | ↷ | ↷ | ↷ |
ისარი საათის ისრის საწინააღმდეგო მიმართულებით | ↺ | ↺ | ↺ |
საათის ისრის წრის ისარი | ↻ | ↻ | ↻ |
ფართოთავიანი ისარი მარჯვნივ | ➔ | ➔ | ➔ |
ზიგზაგის ისარი ქვევით | ↯ | ↯ | ↯ |
ჩრდილო-დასავლეთის ისარი | ↖ | ↖ | ↖ |
მძიმე სამხრეთ-აღმოსავლეთის ისარი | ➘ | ➘ | ➘ |
მძიმე ისარი მარჯვნივ | ➙ | ➙ | ➙ |
მძიმე ჩრდილო-აღმოსავლეთის ისარი | ➚ | ➚ | ➚ |
დატეხილი უფლებების ისარი | ➟ | ➟ | ➟ |
წერტილოვანი ისარი მარცხნივ | ⇠ | ⇠ | ⇠ |
შავი ისარი მარჯვნივ | ➤ | ➤ | ➤ |
მარცხნივ თეთრი ისარი | ⇦ | ⇦ | ⇦ |
მარჯვნივ თეთრი ისარი | ⇨ | ⇨ | ⇨ |
მარცხენა კუთხის ციტატა | « | « | « |
მარჯვენა კუთხის ციტატა | » | » | » |
მარჯვენა შავი მაჩვენებელი | |||
მარცხენა შავი მაჩვენებელი | ◀ | ◀ | ◀ |
ზემოთ შავი მაჩვენებელი | ▲ | ▲ | ▲ |
ქვემოთ შავი მაჩვენებელი | ▼ | ▼ | ▼ |
მარჯვენა თეთრი მაჩვენებელი | ▷ | ▷ | ▷ |
მარცხენა თეთრი მაჩვენებელი | ◁ | ◁ | ◁ |
ზევით თეთრი მაჩვენებელი | △ | △ | △ |
ქვემოთ თეთრი მაჩვენებელი | ▽ | ▽ | ▽ |
მშვილდი ისარი | ➴ | ➴ | ➴ |
სპეციალური სიმბოლოები უნიკოდში
ვალუტა უნიკოდში
ლოდინის ხატები
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
ხარისხი | ° | ° | ° |
პატარა მზე | ☀ | ☀ | ☀ |
დიდი მზე | ☼ | ☼ | ☼ |
ღრუბელი | ☁ | ☁ | ☁ |
ქოლგა | ☔ | ☔ | ☔ |
ფიფქი 1 | ❆ | ❆ | ❆ |
ფიფქი 2 | ❅ | ❅ | ❅ |
ფიფქი 3 | ❄ | ❄ | ❄ |
ვოკატივები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
მაჩვენებელი მარცხენა შავი | ☚ | ☚ | ☚ |
მაჩვენებელი მარჯვნივ შავი | ☛ | ☛ | ☛ |
მაჩვენებელი მარცხენა თეთრი | ☜ | ☜ | ☜ |
მაჩვენებლის ზემოთ თეთრი | ☝ | ☝ | ☝ |
მაჩვენებელი მარჯვნივ თეთრი | ☞ | ☞ | ☞ |
პოინტერი ქვემოთ თეთრი | ☟ | ☟ | ☟ |
ზოდიაქოს ნიშნები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
ვერძი | ♈ | ♈ | ♈ |
კურო | ♉ | ♉ | ♉ |
ტყუპები | ♊ | ♊ | ♊ |
კიბო | ♋ | ♋ | ♋ |
ლომი | ♌ | ♌ | ♌ |
ქალწული | ♍ | ♍ | ♍ |
ტერეზი | ♎ | ♎ | ♎ |
მორიელი | ♏ | ♏ | ♏ |
მშვილდოსანი | ♐ | ♐ | ♐ |
თხის რქა | ♑ | ♑ | ♑ |
მერწყული | ♒ | ♒ | ♒ |
რიბი | ♓ | ♓ | ♓ |
ბარათის სიმბოლოები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
კლუბები შავი | ♠ | ♠ | ♠ |
გულები შავი | ♥ | ♥ | ♥ |
ბრილიანტები შავი | ♦ | ♦ | ♦ |
ყვავი შავი | ♣ | ♣ | ♣ |
კლუბები თეთრი | ♤ | ♤ | ♤ |
გულები თეთრი | ♡ | ♡ | ♡ |
ბრილიანტი თეთრი | ♢ | ♢ | ♢ |
ყვავი თეთრი | ♧ | ♧ | ♧ |
ჭადრაკის ფიგურები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
მეფე თეთრი | ♔ | ♔ | ♔ |
დედოფალი თეთრი | ♕ | ♕ | ♕ |
რუკ თეთრი | ♖ | ♖ | ♖ |
ეპისკოპოსი თეთრი | ♗ | ♗ | ♗ |
რაინდი თეთრი | ♘ | ♘ | ♘ |
ლომბარდი თეთრი | ♙ | ♙ | ♙ |
მეფე შავი | ♚ | ♚ | ♚ |
დედოფალი შავი | ♛ | ♛ | ♛ |
Rook შავი | ♜ | ♜ | ♜ |
ეპისკოპოსი შავი | ♝ | ♝ | ♝ |
რაინდი შავი | ♞ | ♞ | ♞ |
ლომბარდი შავი | ♟ | ♟ | ♟ |
გრა ძვალში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
Dice Roll One | ⚀ | ⚀ | ⚀ |
Dice Roll ორი | ⚁ | ⚁ | ⚁ |
Dice Roll სამი | ⚂ | ⚂ | ⚂ |
Dice Roll Four | ⚃ | ⚃ | ⚃ |
Dice Roll Five | ⚄ | ⚄ | ⚄ |
Dice Roll Six | ⚅ | ⚅ | ⚅ |
მათემატიკური სიმბოლოები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
უსასრულობა | ∞ | ∞ | ∞ |
პლუს მინუსი | ± | ± | ± |
ნაკლები ან ტოლი | ≤ | ≤ | ≤ |
მეტი ან ტოლი | ≥ | ≥ | ≥ |
არა ტოლი | ≠ | ≠ | ≠ |
განყოფილება | ÷ | ÷ | ÷ |
გამრავლება x | × | × | × |
მძიმე გამრავლება x | ✖ | ✖ | ✖ |
სუპერსკრიპტი ერთი | ¹ | ¹ | ¹ |
ზედნაწერი ორი | ² | ² | ² |
ზედნაწერი სამი | ³ | ³ | ³ |
წრიული პლუსი | ⊕ | ⊕ | ⊕ |
წრიული გამრავლება | ⊗ | ⊗ | ⊗ |
ლოგიკური და | ∧ | ∧ | ∧ |
ლოგიკური ან | ∨ | ∨ | ∨ |
დელტა | ∆ | ∆ | ∆ |
ღვეზელი | ∏ | ∏ | ∏ |
სიგმა (SUM) | ∑ | ∑ | ∑ |
ომეგა | Ω | Ω | Ω |
ცარიელი ნაკრები | ∅ | ∅ | ∅ |
კუთხე | ∠ | ∠ | ∠ |
პარალელურად | ∥ | ∥ | ∥ |
Პერპენდიკულარული | ⊥ | ⊥ | ⊥ |
თითქმის თანაბარი | ≈ | ≈ | ≈ |
სამკუთხედი | △ | △ | △ |
წრე | ○ | ○ | ○ |
მოედანი | □ | □ | □ |
ფრაქციები
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
ერთი მეოთხედი (1/4) | ¼ | ¼ | ¼ |
ნახევარი (1/2) | ½ | ½ | ½ |
სამი მეოთხედი (3/4) | ¾ | ¾ | ¾ |
ერთი მესამედი (1/3) | ⅓ | ⅓ | ⅓ |
ორი მესამედი (2/3) | ⅔ | ⅔ | ⅔ |
ერთი რვა (1/8) | ⅛ | ⅛ | ⅛ |
სამი რვიანი (3/8) | ⅜ | ⅜ | ⅜ |
ხუთი რვა (5/8) | ⅝ | ⅝ | ⅝ |
შვიდი რვა (7/8) | ⅞ | ⅞ | ⅞ |
რომაული ციფრები უნიკოდში
სახელი | წინ ხედი | კოდი | |
---|---|---|---|
რომაული რიცხვი ერთი | Ⅰ | Ⅰ | Ⅰ |
რომაული რიცხვი ორი | Ⅱ | Ⅱ | Ⅱ |
რომაული რიცხვი სამი | Ⅲ | Ⅲ | Ⅲ |
რომაული რიცხვი ოთხი | Ⅳ | Ⅳ | Ⅳ |
რომაული რიცხვი ხუთი | Ⅴ | Ⅴ | Ⅴ |
რომაული რიცხვი ექვსი | Ⅵ | Ⅵ | Ⅵ |
რომაული რიცხვი შვიდი | Ⅶ | Ⅶ | Ⅶ |
რომაული რიცხვი რვა | Ⅷ | Ⅷ | Ⅷ |
რომაული რიცხვი ცხრა | Ⅸ | Ⅸ | Ⅸ |
რომაული რიცხვი ათი | Ⅹ | Ⅹ | Ⅹ |
რომაული რიცხვი თერთმეტი | Ⅺ | Ⅺ | Ⅺ |
რომაული რიცხვი თორმეტი | Ⅻ | Ⅻ | Ⅻ |
და ამ სიმბოლოების განსხვავებულად გადმოცემის მნიშვნელობა ოპერატიული სისტემა. ამაზე მიუთითებს შრიფტების სხვადასხვა ოჯახი, რის გამოც ღირს შემოწმება. გარდა ამისა, iOS და Android ცვლის უნიკოდის რამდენიმე სიმბოლოს სმაილიკებით, ამიტომ დარწმუნდით, რომ შეამოწმეთ შეყვანილი სიმბოლოები, რათა დარწმუნდეთ, რომ ხატები არ გამოჩნდეს გადატანილი.
კოდის სივრცის ელემენტები, რომლებიც წარმოადგენენ უცნობ რიცხვებს. კოდირების ოჯახი წარმოადგენს UCS კოდების თანმიმდევრობის მანქანურ წარმოდგენას.
კოდები უნიკოდის სტანდარტში იყოფა რამდენიმე სფეროდ. უბანი U+0000-დან U+007F-მდე კოდებით შეიცავს სიმბოლოებს ASCII ნაკრებში ქვეკოდებით. გაფართოებულია სხვადასხვა ასოების სიმბოლოების, სასვენი ნიშნებისა და ტექნიკური სიმბოლოების შემდგომი სფეროები. ზოგიერთი კოდი დაცულია სხვების გამოსაყენებლად. კირიული სიმბოლოების ქვემოთ შეგიძლიათ იხილოთ სიმბოლოების არეები კოდებით U+0400-დან U+052F-მდე, U+2DE0-დან U+2DFF-მდე, U+A640-დან U+A69F-მდე (კირილიცის დაყოფა უნიკოდში).
შეცვალეთ აზრი და განავითარეთ Unicode
ნამსხვრევები ზედიზედ კომპიუტერული სისტემები(მაგალითად, Windows NT) ფიქსირებული 16-ბიტიანი სიმბოლოები უკვე ვიკორიზირებული იყო ფიქრის შედეგად, გადაწყდა, რომ ყველა ყველაზე მნიშვნელოვანი სიმბოლო დაშიფრული იყო პირველი 65536 პოზიციის ფარგლებში (ე.წ. ინგლისურად. ძირითადი მრავალენოვანი თვითმფრინავი, BMP). Reshta prostoro vykoristovuetsya "დამატებითი სიმბოლოებისთვის" (ინგლ. დამატებითი სიმბოლოები): ძველი ენების დამწერლობის სისტემები და იშვიათად ჩინური იეროგლიფები, მათემატიკური და მუსიკალური სიმბოლოები.
ძველი 16-ბიტიანი სისტემების მოხერხებულობისთვის გამოყენებული იყო UTF-16 სისტემა, პირველი 65,536 პოზიციით, რასაც მოჰყვა პოზიციები U+D800...U+DFFF ინტერვალში, პირდაპირ ნაჩვენები 16-ბიტიანი რიცხვების სახით და პასუხი. წარმოდგენილია "სუროგატ წყვილებს" შორის "(ფსონის პირველი ელემენტი არის U+D800...U+DBFF, ფსონის სხვა ელემენტი არის U+DC00...U+DFFF არეში) . სუროგატი წყვილებისთვის ვიკორასტანმა გამოიყენა კოდის სივრცის ნაწილი (2048 პოზიცია), რომელიც ადრე იყო გამოყოფილი კერძო ვიკორისტანის სიმბოლოებისთვის.
ფრაგმენტები UTF-16-ში შეიძლება წარმოდგენილი იყოს 2 20 +2 16 −2048 (1 112 064) სიმბოლოზე ნაკლები, ამიტომ ეს რიცხვი გამოითვალა, როგორც Unicode კოდის სივრცის დარჩენილი მნიშვნელობა.
მიუხედავად იმისა, რომ Unicode კოდის ზონა გაფართოვდა 2-დან 16-მდე 2.0 ვერსიაში, პირველი სიმბოლოები ზედა ზონაში მხოლოდ 3.1 ვერსიაში იყო მოთავსებული.
ამ კოდირების როლი ვებ სექტორში თანდათან იზრდება; 2010 წლის მდგომარეობით, ვებსაიტების პროცენტი, რომლებიც იყენებენ უნიკოდს, შეადგენდა თითქმის 50%-ს.
უნიკოდის ვერსიები
მსოფლიომ შეცვალა და განაახლა უნიკოდის სისტემის სიმბოლოების ცხრილი და სისტემის ახალი ვერსიების გამოშვება და ეს სამუშაო სტაბილურად ხორციელდებოდა, ვინაიდან უნიკოდის სისტემა თავდაპირველად მოიცავდა მხოლოდ Plane 0 - ორმაგი ბაიტის კოდებს, - ახალ ISO. დოკუმენტები გამოქვეყნებულია. უნიკოდის სისტემა გამოიყენება მიმდინარე ვერსიებში:
- 1.1 (შეესაბამება ISO/IEC 10646-1:1993), სტანდარტი 1991-1995 წ.
- 2.0, 2.1 (იგივე სტანდარტი ISO/IEC 10646-1:1993 პლუს დამატებითი: „შესწორებები“ 1-დან მე-7-მდე და „ტექნიკური კორიგენდა“ 1 და 2), სტანდარტი 1996 წ.
- 3.0 (ISO/IEC 10646-1:2000 სტანდარტი), 2000 roku სტანდარტი.
- 3.1 (ISO/IEC 10646-1:2000 და ISO/IEC 10646-2:2001 სტანდარტები), 2001 წლის სტანდარტი.
- 3.2, 2002 Roku სტანდარტი.
- 4.0, სტანდარტი 2003 წ.
- 4.01, სტანდარტი 2004 წ.
- 4.1, სტანდარტი 2005 წ.
- 5.0, სტანდარტი 2006 წ.
- 5.1, სტანდარტი 2008 წ.
- 5.2, სტანდარტი 2009 წ.
- 6.0, სტანდარტი 2010 წ.
- 6.1, სტანდარტი 2012 წ.
- 6.2, სტანდარტი 2012 წ.
კოდის სივრცე
იმის სურვილით, რომ UTF-8 და UTF-32 ფორმატებმა დაუშვან 231 (2147483648) კოდის პოზიციები, გადაწყდა 1112064 გამოყენება UTF-16-თან შესაბამისობისთვის. თუმცა, რაც უფრო მნიშვნელოვანია ის არის, რომ დღეს (6.0 ვერსიაში) არის 110,000-ზე ნაკლები კოდის პოზიცია (109,242 გრაფიკული და 273 სხვა სიმბოლო).
შესვენებების კოდის დიაპაზონი 17-ით ბინები 2 16 (65,536) სიმბოლო თითოეული. ნულის მოედანი ჰქვია ძირითადი, მას აქვს ყველაზე გავრცელებული სკრიპტების მრავალფეროვანი სიმბოლოები. პირველი თვითმფრინავი დაცულია ძირითადად ისტორიული თხზულებებისთვის, მეორე - KKY იეროგლიფებისთვის, რომლებიც იშვიათად არის ვიკორიზირებული, მესამე დაცულია არქაული ჩინური იეროგლიფებისთვის. 15 და 16 ხედის ფართები კერძო საცხოვრებლად.
დასანიშნად უნიკოდის სიმბოლოები Vikorist ჩანაწერი ჰგავს „U+ xxxx"(კოდებისთვის 0...FFFF), ან "U+ xxxxx"(კოდებისთვის 10000...FFFFF), ან "U+ xxxxxx„(კოდებისთვის 100000 ... 10FFFF), დე xxx- თექვსმეტი ციფრი. მაგალითად, სიმბოლოს I (U+044F) აქვს კოდი 044F = 1103.
კოდირების სისტემა
უნივერსალური კოდირების სისტემა (Unicode) არის გრაფიკული სიმბოლოების ერთობლიობა და მათი კოდირების მეთოდი ტექსტური მონაცემების კომპიუტერული დამუშავებისთვის.
გრაფიკული სიმბოლოები არის სიმბოლოები, რომლებიც ჩანს ხილულ სურათებში. გრაფიკული სიმბოლოები წარმოდგენილია ბირთვის სიმბოლოებით და ფორმატირების სიმბოლოებით.
გრაფიკული სიმბოლოები მოიცავს შემდეგ ჯგუფებს:
- ასოები, რომლებიც უნდა იყოს განთავსებული ერთ-ერთ ანბანში, რომელსაც ემსახურება;
- ნომრები;
- სასვენი ნიშნები;
- სპეციალური ნიშნები (მათემატიკური, ტექნიკური, იდეოგრაფიული და სხვ.);
- გამყოფები.
Unicode არის ტექსტის ხაზოვანი წარმოდგენის სისტემა. სიმბოლოები, რომლებიც შეიცავს დამატებით ზემდგომ ან დაქვემდებარებულ ელემენტებს, შეიძლება წარმოდგენილი იყოს კოდის თანმიმდევრობის წესებით მოთხოვნილი ფორმით (კომპოზიტური სიმბოლო) ან ერთი სიმბოლოს სახით (მონოლითური ვერსია, წინასწარ შედგენილი სიმბოლო) ).
პერსონაჟების შეცვლა
წარდგენილია სიმბოლო „І“ (U+0419) საბაზისო სიმბოლოს „I“ (U+0418) და შეცვლილი სიმბოლოს „̆“ (U+0306) სახით.
უნიკოდში გრაფიკული სიმბოლოები იყოფა გაფართოებულ და არაგანვრცობებად (უფართო). არა გაფართოებული სიმბოლოები, როდესაც ნაჩვენებია, არ იკავებს ადგილს რიგში. მათ წინაშე იტყუება, დახურვა, ნიშნები ხმაში და სხვა დიაკრიტული ნიშნები. როგორც გრძელი, ისე მოკლე სიმბოლოები ქმნიან მსოფლიო კოდებს. გრძელ სიმბოლოებს ძირითადი ეწოდება. საბაზისო პერსონაჟები), და არა გაფართოებული - მოდიფიცირებული (ინგლ. პერსონაჟების გაერთიანება); მეტიც, დანარჩენები დამოუკიდებლად ვერ გაერთიანდებიან. მაგალითად, სიმბოლო "a" შეიძლება წარმოდგენილი იყოს საბაზისო სიმბოლოს "a" (U+0061) და შეცვლილი სიმბოლოს "-" (U+0301) თანმიმდევრობით ან როგორც მონოლითური სიმბოლო "a" (U+00C1). ).
მოდიფიკაციის სიმბოლოების განსაკუთრებული ტიპია სკამის ოფციონის ამომრჩევი. ვარიაციის სელექტორები). აღარ არსებობს სიმბოლოები, რომლებზეც მითითებულია ასეთი ვარიანტები. ვერსია 5.0 აქვს გამოსახულების ვარიანტები რიგი მათემატიკური სიმბოლოებისთვის, ტრადიციული მონღოლური ანბანის სიმბოლოებისთვის და მონღოლური კვადრატული ფურცლის სიმბოლოებისთვის.
ნორმალიზაციის ფორმები
თავად ზოგიერთი სიმბოლოს ფრაგმენტები ჩანს სხვადასხვა კოდებიდამუშავების შედგენის გარდა, არსებობს ნორმალიზების პროცესები, რომლებიც გამოიყენება ტექსტის მარტივ სტანდარტულ გარეგნობამდე მისაყვანად.
უნიკოდის სტანდარტს აქვს ტექსტის ნორმალიზაციის 4 ფორმა:
- ნორმალიზების ფორმა D(NFD) არის კანონიკური დაშლა. ტექსტის ამ ფორმამდე შემცირების პროცესში, საწყობის ყველა სიმბოლო რეკურსიულად იცვლება საწყობის რამდენიმე სიმბოლოთი, დაშლის ცხრილის მსგავსი.
- ნორმალიზების ფორმა C (NFC) არის კანონიკური დაშლა მომიჯნავე კანონიკური შემადგენლობით. თავიდანვე ტექსტი დგება D ფორმაში, რის შემდეგაც სრულდება კანონიკური კომპოზიცია - ტექსტი დგება თავიდან ბოლომდე და სრულდება შემდეგი წესები:
- სიმბოლო S є მოდით cobრადგან უნიკოდის სიმბოლოების ბაზაში არის ნულოვანი მოდიფიკაციის კლასი.
- სიმბოლოების ნებისმიერ თანმიმდევრობაში, რომელიც იწყება cob სიმბოლო S-დან, სიმბოლო C იბლოკება S-ით, რომელიც არის მხოლოდ S-სა და C-ს შორის და არის თუ არა სიმბოლო B ან cob, ან შეიძლება იყოს იგივე ან უფრო მაღალი კლასის მოდიფიკაცია ii, ქვედა C ეს წესი უფრო ფართოვდება რიგებით, რომლებმაც განიცადეს კანონიკური დაშლა.
- პერვინნიმიკომპოზიტი არის სიმბოლო, რომელიც არის უნიკოდის სიმბოლოების ბაზის კანონიკური დაშლა (ან ჰანგილისა და ვინის კანონიკური დაშლა არ შედის ბრალდების სიაში).
- სიმბოლო X შეიძლება თავდაპირველად გაერთიანდეს სიმბოლოსთან Y, რადგან ის ასევე ეფუძნება პირველ კომპოზიციურ Z-ს, რომელიც კანონიკურად ექვივალენტურია მიმდევრობისთვის.
. - ვინაიდან ძირითადი სიმბოლო C არ არის დაბლოკილი დარჩენილი მკვეთრი ბირთვის სიმბოლო L-ით და შეიძლება წარმატებით გაერთიანდეს პირველ რიგში, L შეიცვალოს კომპოზიტური L-C-ით და C წაიშლება.
- ნორმალიზების ფორმა KD (NFKD) არის სრული დაშლა. ამ ფორმაზე გადასვლისას, საწყობის ყველა სიმბოლო იცვლება, ვიკორისტია როგორც კანონიკური უნიკოდის დაშლის რუკები, ასევე ჯამის დაშლის რუქები, რის შემდეგაც შედეგი მოთავსებულია კანონიკური თანმიმდევრობით.
- ნორმალიზების ფორმა KC (NFKC) – ჯამის დაშლა შეტევითი კანონიკურიშემადგენლობა.
ტერმინები "კომპოზიცია" და "დაშლა" ნათლად არის გაგებული, როგორც სიმბოლოების კომბინაცია ან განლაგება საწყობში.
გამოიყენეთ იგი
კობის ტექსტი | NFD | NFC | NFKD | NFKC |
---|---|---|---|---|
ფრანგული | ფრანკი\u0327აის | ფრან\xe7აის | ფრანკი\u0327აის | ფრან\xe7აის |
A, E, J | \u0410, \u0401, \u0419 | \u0410,\u0415\u0308,\u0418\u0306 | \u0410, \u0401, \u0419 | |
が | \u304b\u3099 | \u304c | \u304b\u3099 | \u304c |
ჰენრი IV | ჰენრი IV | ჰენრი IV | ჰენრი IV | ჰენრი IV |
ჰენრი Ⅳ | ჰენრი და 2163 | ჰენრი და 2163 | ჰენრი IV | ჰენრი IV |
ორმხრივი ფურცელი
უნიკოდის სტანდარტი ხელს უწყობს წერას მარჯვნიდან მარცხნივ. მარცხნიდან მარჯვნივ, LTRდა იწერება მარჯვნიდან მარცხნივ (ინგლისური) მარჯვნიდან მარცხნივ, RTL) - მაგალითად, არაბული და ებრაული ფურცელი. ორივე შემთხვევაში სიმბოლოები დაცულია „ბუნებრივი“ თანმიმდევრობით; მათი ჩვენება ფურცლის საჭირო მიმართულებებით უზრუნველყოფილი იქნება პროგრამის მიერ.
გარდა ამისა, Unicode ხელს უწყობს კომბინირებულ ტექსტებს სხვადასხვა ფურცლების ფრაგმენტების გაერთიანებაში. ამ უნარს ე.წ ორმაგი სისწორე(ინგლისური) ორმხრივი ტექსტი, BiDi). მოქმედებები გამარტივებულია ტექსტზე (მაგალითად, ძველი ტელეფონები) შეუძლია უნიკოდის მხარდაჭერა, მაგრამ არა ორმხრივობის მხარდაჭერა. უნიკოდის ყველა სიმბოლო იყოფა რამდენიმე კატეგორიად: ისინი, რომლებიც იწერება მარცხნიდან მარჯვნივ, რომლებიც იწერება მარჯვნივ მარცხნივ და ისინი, რომლებიც იწერება ნებისმიერი მიმართულებით. დარჩენილი კატეგორიის სიმბოლოები (ძირითადად სასვენი ნიშნები) ნაჩვენებია პირდაპირ ტექსტში.
სიმბოლოების წარმოდგენა
Unicode მოიცავს თითქმის ყველა ყოველდღიურ სკრიპტს, მათ შორის:
და სხვა.
აკადემიური მიზნებისთვის გამოიცა მრავალი ისტორიული დამწერლობა, მათ შორის: რუნები, ძველი ბერძნული, ეგვიპტური იეროგლიფები, ლურსმული, მაიას დამწერლობა, ეტრუზიული ანბანი.
უნიკოდის გამოსახულებებს აქვთ მათემატიკური და მუსიკალური სიმბოლოების ფართო სპექტრი, ასევე ხატები.
თუმცა, უნიკოდამდე, პრინციპია, არ შეიტანოთ კომპანიების და პროდუქტების ლოგოები, თუმცა ისინი გამორჩეული ჩანან შრიფტებში (მაგალითად, Apple-ის ლოგო MacRoman კოდში (0xF0) ან Windows-ის ლოგო Wingdings-ის შრიფტში (0xFF)). . უნიკოდის შრიფტებში ლოგოები განლაგებულია მხოლოდ შესაბამისი სიმბოლოების არეალში.
ISO/IEC 10646
Unicode კონსორციუმი მჭიდროდ თანამშრომლობს ISO/IEC/JTC1/SC2/WG2 სამუშაო ჯგუფთან, რათა განავითაროს საერთაშორისო სტანდარტი 10646 (ISO/IEC 10646). არსებობს სინქრონიზაცია Unicode სტანდარტსა და ISO/IEC 10646-ს შორის, თუმცა კანის სტანდარტი მიჰყვება მის ტერმინოლოგიასა და დოკუმენტაციის სისტემას.
შესაბამისობა უნიკოდის კონსორციუმთან და სტანდარტიზაციის საერთაშორისო ორგანიზაციასთან (ინგლისური) სტანდარტიზაციის საერთაშორისო ორგანიზაცია ISO ) დაიწყო 1991 წელს. 1993 წელს ISO-მ გამოუშვა სტანდარტი DIS 10646.1. მასთან სინქრონიზაციისთვის კონსორციუმმა დაამტკიცა უნიკოდის სტანდარტული ვერსია 1.1, რომელმაც შემოიტანა დამატებითი სიმბოლოები DIS 10646.1-დან. შედეგად, Unicode 1.1 და DIS 10646.1 კოდირებული სიმბოლოების მნიშვნელობები სრულიად იდენტურია.
ორ ორგანიზაციას შორის შერწყმა გაგრძელდა. 2000 წლის ვერსია მიჰყვება Unicode 3.0 სტანდარტს და სინქრონიზებულია ISO/IEC 10646-1:2000-თან. ISO/IEC 10646-ის მომავალი მესამე ვერსია სინქრონიზებული იქნება Unicode 4.0-თან. შესაძლებელია, რომ ეს სპეციფიკაციები გამოქვეყნდეს როგორც ერთიანი სტანდარტი.
Unicode სტანდარტის UTF-16 და UTF-32 ფორმატების მსგავსად, ISO/IEC 10646 სტანდარტს ასევე აქვს სიმბოლოების კოდირების ორი ძირითადი ფორმა: UCS-2 (2 ბაიტი თითო სიმბოლოზე, UTF-16-ის მსგავსი) და UCS-4. (4 ბაიტი თითო სიმბოლოზე, UTF-32-ის მსგავსი). UCS ნიშნავს უნივერსალური მრავალ ოქტეტი(მდიდარი ბაიტი) სიმბოლოების ნაკრების კოდირება(ინგლისური) უნივერსალური მრავალ ოქტეტი კოდირებული სიმბოლოების ნაკრები ). UCS-2 შეიძლება ჩაითვალოს UTF-16-ის ქვეჯგუფად (UTF-16 სუროგატი წყვილების გარეშე), ხოლო UCS-4 არის UTF-32-ის სინონიმი.
გადახდის მეთოდები
უნიკოდს აქვს მრავალი მანიფესტაციის ფორმა. უნიკოდის ტრანსფორმაციის ფორმატი, UTF ): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) და UTF-32 (UTF-32BE, UTF-32LE). UTF-7 მონაცემთა ფორმა ასევე გაიყო გადასაცემად შვიდი ბიტიანი არხებით, მაგრამ ASCII-თან შეუსაბამობის გამო ის არ გაფართოვდა და არ შედიოდა სტანდარტში. 2005 წლის 1 აპრილს დაინერგა ორი ფორმატის ფორმატი: UTF-9 და UTF-18 (RFC 4042).
Unicode UTF-8: 0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x0000000000 - 0xxxxxx 0x0000000000 - FFx1: FFx1 10xxxxxx 0x00010000 - 0 x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
თეორიულად შესაძლებელია, მაგრამ არ შედის სტანდარტში ასევე:
0x00200000 - 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 - 0x7FFFFFFFFF: 11111110xxxxxxxxxxxx 10xxxxxx
მიუხედავად იმისა, რომ UTF-8 საშუალებას გაძლევთ გამოხატოთ იგივე ათობითი სიმბოლო გზებით, მათგან მხოლოდ უმოკლესია სწორი. დანაშაულის სხვა ფორმები ექვემდებარება უსაფრთხოების სტანდარტებს.
ბაიტის შეკვეთა
UTF-16 მონაცემებში მაღალი ბაიტი შეიძლება დაიწეროს დაბალ ბაიტამდე. UTF-16 დიდი-ენდიანი), ან ახალგაზრდების შემდეგ (ინგლ. UTF-16 პატარა ენდიანი). ანალოგიურად, არსებობს მრავალი ბაიტიანი კოდირების ორი ვარიანტი - UTF-32BE და UTF-32LE.
Unicode მონაცემთა ფორმატის შესასრულებლად, ხელმოწერა იწერება ტექსტური ფაილის ზედა ნაწილში - სიმბოლო U+FEFF ( ურღვევი გაწმენდანულოვანი სიგანით), ასევე დასახელებული მცირე ბაიტის შეკვეთა(ინგლისური) ბაიტის შეკვეთის ნიშანი, BOM ). ეს საშუალებას აძლევს UTF-16LE და UTF-16BE განცალკევდეს, სანამ U+FFFE სიმბოლო არ დაზარალდება. ანალოგიურად, ეს მეთოდი გამოიყენება UTF-8-ისთვის ფორმატის მინიჭებისთვის, თუმცა ამ ფორმატში ბაიტების რიგის გაგება შეუძლებელია. ფაილები, რომლებიც ამას მოჰყვება, იწყება შემდეგი ბაიტის თანმიმდევრობით:
UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00
სამწუხაროდ, ეს მეთოდი საიმედოდ არ განასხვავებს UTF-16LE-სა და UTF-32LE-ს, თუმცა U+0000 სიმბოლო დაშვებულია Unicode-ის მიერ (თუმცა რეალური ტექსტები იშვიათად იწყება მისით).
ფაილები დაშიფრულია UTF-16 და UTF-32, რომელიც არ ერევა BOM-ში, მაგრამ არის დიდი ენდიის ბაიტის თანმიმდევრობით (unicode.org).
Unicode და ტრადიციული კოდირება
Unicode-ის გაჩენამ გამოიწვია ტრადიციული 8-ბიტიანი კოდებისადმი მიდგომის შეცვლა. მაშინ, როდესაც ადრე კოდირება მითითებული იყო შრიფტით, ახლა იგი მითითებულია ამ კოდირებისა და უნიკოდის ურთიერთობის ცხრილით. ფაქტობრივად, 8-ბიტიანი კოდირება გარდაიქმნა უნიკოდის ფაქტობრივი ქვეჯგუფის წარმოდგენის ფორმად. ამან მნიშვნელოვნად გაამარტივა პროგრამების შექმნა, რომლებიც უნდა გაუმკლავდნენ სხვადასხვა კოდირების სიბრმავეს: ახლა, სხვა კოდირების მხარდაჭერის დასამატებლად, აუცილებელია Unicode-ში კიდევ ერთი კონვერტაციის ცხრილის დამატება.
გარდა ამისა, ამ მონაცემთა მრავალი ფორმატი საშუალებას გაძლევთ ჩასვათ უნიკოდის ნებისმიერი სიმბოლო დოკუმენტების ჩასაწერად ძველ 8-ბიტიან დაშიფვრაში. მაგალითად, HTML შეიძლება იყოს კოდირებული ამპერსანტის გამოყენებით.
იმპლემენტაციები
ამჟამინდელი ოპერაციული სისტემების უმეტესობა უზრუნველყოფს უნიკოდის მხარდაჭერას სხვა გზით.
Windows NT ოჯახის ოპერაციულ სისტემებში, ფაილების სახელების შიდა წარმოდგენისთვის და სხვა სისტემის რიგებიორმაგი ბაიტიანი კოდირება არის UTF-16LE. მიღებული სისტემური ზარები სიმებიანი პარამეტრები, გამოჩნდება ერთბაიტიან და ორბაიტიან ვერსიებში. Უფრო ვრცლად.
Unicode (ინგლისური Unicode) სიმბოლოების კოდირების სტანდარტია. მარტივად რომ ვთქვათ, ეს არის ტექსტური სიმბოლოების ტიპის ცხრილი. პუნქტუაციის ელემენტები) ორმაგი კოდები. კომპიუტერს ესმის მხოლოდ ნულების და ერთების თანმიმდევრობა. იმის გასაგებად, თუ რა შეიძლება იყოს ნაჩვენები ეკრანზე, თქვენ უნდა მიანიჭოთ უნიკალური ნომერი კანის სიმბოლოს. ოთხმოციან წლებში სიმბოლოები დაშიფრული იყო ერთ ბაიტში, ან ბევრ ბიტში (თითოეული ბიტი არის 0 ან 1). აღმოჩნდა, რომ ერთი ცხრილი (კოდირების ან აკრეფის) შეიძლება შეიცავდეს მხოლოდ 256 სიმბოლოს. ვისი წაკითხვაც შეგიძლიათ ერთ ენაზე. ამიტომ გაჩნდა უამრავი სხვადასხვა კოდი, რომელთა დაბნეულობაც ხშირად იწვევდა იმას, რომ ეკრანზე, წაკითხული ტექსტის ნაცვლად, ეკრანზე რამდენიმე მშვენიერი კრაკობირი გამოჩნდა. საჭირო ერთიანი სტანდარტი, რომელიც გახდა Unicode. ყველაზე პოპულარული კოდირება არის UTF-8 (Unicode Transformation Format) გამოსახულების სიმბოლოსთვის საჭიროა 1-დან 4 ბაიტამდე.
სიმბოლოები
Unicode ცხრილებში სიმბოლოები დანომრილია თექვსმეტობითი რიცხვებით. მაგალითად, კირილიცა დიდი ასო M დანიშნულია U+041C. ეს ნიშნავს, რომ ის დგას 041 რიგისა და C სვეტის ჯვარზე. შეგიძლიათ უბრალოდ დააკოპიროთ და შემდეგ ჩასვათ ყველგან. იმისათვის, რომ არ დაიკარგოთ მრავალკილომეტრიან სიაში, უბრალოდ მოძებნეთ სწრაფად. სიმბოლოს გვერდზე დაწკაპუნებით მიიღებთ მის ნომერს უნიკოდში და სხვადასხვა შრიფტებზე მისი მინიჭების გზას. მწკრივის ძიებაში შეგიძლიათ იმოძრაოთ თავად ნიშანში ისე, რომ მის ადგილას კვადრატი იყოს დახატული, რათა გაარკვიოთ რა არის. ასევე, ამ საიტზე არის ერთიდაიგივე ტიპის ხატების სპეციალური (და შემთხვევითი) ნაკრები, შეგროვებული სხვადასხვა განყოფილებიდან, მათი შერჩევის მოხერხებულობისთვის.
უნიკოდის სტანდარტი საერთაშორისოა. Vіn მოიცავს მსოფლიოს მრავალი ასოს ნიშანს. ნომრები იმდენად მშვიდია, რომ აღარ დარჩება სტაგნაცია. ეგვიპტური იეროგლიფები, გერმანული რუნები, მაიას დამწერლობა, ლურსმული დამწერლობა და უძველესი ძალების ანბანი. წარმოგიდგენთ ჩანაწერების და ვაგების მნიშვნელობას, მუსიკალურ აღნიშვნებს და მათემატიკურ გაგებას.
თავად უნიკოდის კონსორციუმი არ არის პასუხისმგებელი ახალი პერსონაჟების შექმნაზე. ცხრილი შეიცავს ხატებს, რომლებიც დაგეხმარებათ თქვენი ქორწინების სტატუსის იდენტიფიცირებაში. მაგალითად, რუბლის ნიშანი აქტიურად გამოიყენება ექვსი წლის განმავლობაში, უპირველეს ყოვლისა დაემატა უნიკოდს. Emoji პიქტოგრამები (სმაილიკები) ასევე ფართოდ გამოიყენებოდა იაპონიაში და პირველად შეიტანეს კოდში. და დან სავაჭრო ნიშნები, და კომპანიის ლოგოები პრინციპულად არ არის მოწოდებული. ეს ისეთივე ფართოა, როგორც Apple ან Windows. დღეის მდგომარეობით, 8.0 ვერსიას აქვს დაახლოებით 120 ათასი სიმბოლო დაშიფრული.
როდესაც ცდილობთ ინტერნეტის სხვა ფუნქციების დაყენებას, გსურთ ერთხელ დაწეროთ სიტყვა „უნიკოდი“ ეკრანზე. რა არის ეს, ამ სტატიის წაკითხვის შემდეგ გაიგებთ.
ვიზნაჩენნია
Unicode კოდირება არის სიმბოლოების კოდირების სტანდარტი. ის მოწონებულია არაკომერციული ორგანიზაცია Unicode Inc.-ის მიერ. 1991 წლის როკი. სტანდარტი დაყოფილია სხვადასხვა ტიპის სიმბოლოების ყველაზე დიდი რაოდენობის ერთ დოკუმენტში გაერთიანების მიზნით. გვერდი, რომელიც შექმნილია ამ საფუძველზე, შეიძლება შეიცავდეს ასოებს და იეროგლიფებს სხვადასხვა ენიდან (რუსულიდან კორეულამდე) და მათემატიკურ ნიშნებს. ამ შემთხვევაში, კოდის ყველა სიმბოლო გამოჩნდება უპრობლემოდ.
შემოქმედების მიზეზი
კოლი, გაჩენამდე დიდი ხნით ადრე ერთიანი სისტემა„უნიკოდი“, კოდი შეირჩა დოკუმენტის ავტორის მსგავსებიდან გამომდინარე. ამიტომ ერთი დოკუმენტის წასაკითხად ხშირად საჭირო იყო სხვადასხვა ცხრილებში ნავიგაცია. ხანდახან რამდენჯერმე მოგიწიათ მუშაობა, რაც უფრო ართულებდა ცხოვრებას საშუალო პროფესიონალისთვის. როგორც უკვე აღვნიშნეთ, მთავარი პრობლემა 1991 წელს გამოიწვია არაკომერციულმა ორგანიზაციამ Unicode Inc.-მა, რომელმაც შემოიტანა ახალი ტიპის სიმბოლოების კოდირება. ჩვენ გავეცანით მორალურად მოძველებულ და მრავალფეროვან სტანდარტებს. „უნიკოდი“ არის კოდირება, რომელმაც საშუალება მოგვცა მიგვეღწია იმ დროისთვის წარმოუდგენელზე: შეგვექმნა ინსტრუმენტი, რომელიც მხარს უჭერს სიმბოლოების დიდ რაოდენობას. შედეგი, მრავალი კვლევის გავლის შემდეგ, იყო დოკუმენტების გამოჩენა, რომლებსაც შეუძლიათ ერთდროულად შეცვალონ ინგლისური და რუსული ტექსტები, ლათინური და მათემატიკური ენები.
ერთიანი კოდის შექმნა განპირობებული იყო რიგი პრობლემების გადაჭრის აუცილებლობით, რომლებიც წარმოიშვა იმ დროისთვის უკვე მოქმედი სტანდარტების მრავალფეროვნებით. მათგან ყველაზე ვრცელი:
- ელვის ასოები, ჩი "კრაკოზიაბრი";
- სიმბოლოთა ნაკრების ურთიერთდაკავშირება;
- კოდის ხელახალი შექმნის პრობლემა;
- შრიფტების გახმოვანება.
მოკლე ისტორიული ექსკურსია
გაარკვიეთ, რომ ეზო 80-იან წლებშია. Კომპიუტერული ტექნოლოგიაის ჯერ არც ისე ფართოა და დღევანდელისაგან განსხვავებული იერი აქვს. ეს კანის OS უნიკალურია თავისებურად და შეცვლილია კანის მოყვარულთა მიერ კონკრეტული საჭიროებებისთვის. ინფორმაციის გაცვლის საჭიროება წყდება მსოფლიოში ყველაფრის შემდგომი დამუშავებით. სხვადასხვა ოპერაციული სისტემის ქვეშ შექმნილი დოკუმენტის წაკითხვის მცდელობისას, ყველაზე ხშირად ეკრანზე გამოჩნდება სიმბოლოების გაუგებარი ნაკრები და იწყება თამაშები კოდირებით. ყოველთვის არ არის შესაძლებელი სამუშაოს შესრულება და ზოგჯერ საჭირო დოკუმენტის გახსნა შესაძლებელია ერთდროულად, ან მოგვიანებითაც. ადამიანები, რომლებიც ხშირად ცვლიან ინფორმაციას, ქმნიან კონვერტაციის საკუთარ ცხრილებს. და მათ ზემოთ რობოტის ღერძი ავლენს სისუფთავე დეტალს: ისინი უნდა დაიხუროს ორი მიმართულებით: "ჩემიდან შენამდე" და უკან. მანქანას არ შეუძლია შეასრულოს ბანალური ინვერსია; მისთვის მარჯვენა სვეტს აქვს გამომავალი, ხოლო მარცხენას აქვს შედეგი, მაგრამ არანაირად. თუ საჭიროა ვიკორიზმი იყოს გამარჯვებული სპეციალური პერსონაჟებისაჭირო იყო ჯერ დოკუმენტის შევსება, შემდეგ კი პარტნიორისთვის ახსნა, თუ რა უნდა გააკეთოთ, რომ სიმბოლოები არ გადაიქცეს "კრაკოზიაბრად". და არ უნდა დაგვავიწყდეს, რომ კანის კოდის ქვეშ საჭირო იყო უცხოური შრიფტების შემუშავება და ხელახალი წარმოება, რამაც გამოიწვია OS-ში დიდი რაოდენობით დუბლიკატების შექმნა.
გთხოვთ გაითვალისწინოთ, რომ შრიფტის გვერდზე ნახავთ 10 იდენტურ Times New Roman-ს პატარა ხატებით: UTF-8, UTF-16, ANSI, UCS-2-სთვის. ახლა გესმით, რომ უნივერსალური სტანდარტის შემუშავება გადაუდებელი საჭიროება იყო?
"მამები-შემოქმედნი"
Unicode-ის განვითარება დაიწყო 1987 წელს, როდესაც ჯო ბეკერმა Xerox-დან, ლი კოლინზმა და მარკ დევისმა Apple-იდან დაიწყეს უნივერსალური პერსონაჟების ნაკრების პრაქტიკული განვითარების კვლევა. 1988 წელს ჯო ბეკერმა გამოაქვეყნა წინადადების პროექტი 16-ბიტიანი საერთაშორისო მრავალატომიანი კოდირების სისტემის შესაქმნელად.
რამდენიმე თვის შემდეგ სამუშაო ჯგუფი Unicode გაფართოვდა და მოიცავდა კენ უისტლერს, RLG-ს მაიკ კერნეგანს, Sun Microsystems-ის გლენ რაიტს და ბევრ სხვა არქიტექტორს, რამაც საშუალება მისცა სამუშაო დასრულებულიყო კოდირების ერთი სტანდარტის შემუშავებით.
ზაგალნის აღწერა
უნიკოდს აქვს სიმბოლოების კონცეფცია. ამ მნიშვნელობებში ვგულისხმობთ აბსტრაქტულ ფენომენს, რომელიც წარმოიქმნება კონკრეტული ტიპის დამწერლობისგან და რეალიზდება გრაფემებით (მათი „პორტრეტები“). თითოეული სიმბოლო მითითებულია უნიკოდში უნიკალური კოდით, რომელიც შეესაბამება სტანდარტის კონკრეტულ ბლოკს. მაგალითად, გრაფემა B არის როგორც ინგლისური, ასევე რუსული ასოებით, მაგრამ უნიკოდში ის წარმოადგენს 2 სხვადასხვა სიმბოლოს. მათ წინაშე იწყება ხელახალი შექმნა, ისე, რომ თითოეული მათგანი აღწერილია მონაცემთა ბაზის გასაღებით, ავტორიტეტების ნაკრებით და ახალი სახელით.
უნიკოდის უპირატესობები
სხვა თანამედროვე ეპოქაში უნიკოდის კოდირება ასახავდა სიმბოლოების დიდ მარაგს სიმბოლოების „დაშიფვრისთვის“. მარჯვნივ არის ის, რომ მისი ავანსორები არიან პატარა 8 ბიტიანი, ამიტომ ისინი მხარს უჭერენ 28 სიმბოლოს, ხოლო ახალი განვითარების ღერძი არის პატარა უკვე 216 სიმბოლო, რაც წინასწარ დიდი ნაბიჯია. ამან შესაძლებელი გახადა ანბანის თითქმის ყველა არსებითი და ფართო სფეროს დაშიფვრა.
"უნიკოდის" მოსვლასთან ერთად გაჩნდა კონვერტაციის ცხრილების ხელახლა შექმნა: როგორც ერთიანი სტანდარტი, ეს უბრალოდ აღმოფხვრა მათი საჭიროება. ამრიგად, „კრაკოზიაბრიც“ დავიწყებას მიეცა - ერთმა სტანდარტმა ისინი მოუხერხებელი გახადა, რითაც აღმოფხვრა დუბლიკატი შრიფტების შექმნის აუცილებლობა.
Unicode თემა
რა თქმა უნდა, პროგრესი არ ჩერდება და პირველი პრეზენტაციიდან 25 წელი გავიდა. თუმცა, Unicode კოდირება ჯიუტად კარგავს თავის პოზიციას მსოფლიოში. ამის დიდი ნაწილი შესაძლებელი გახდა იმის გამო, რომ იგი გახდა ადვილად გაყიდვადი და გაფართოვდა, როგორც საკუთრების (ფასიანი) და ღია კოდის პროგრამული უზრუნველყოფის აღიარებული დისტრიბუტორი.
აღსანიშნავია, რომ დღეს ჩვენ გვაქვს წვდომა იგივე Unicode კოდზე, რომელიც იყო მეოთხედი საუკუნის წინ. on ნარაზიეს ვერსია შეიცვალა 5.x.x-ით და სიმბოლოების რაოდენობა, რომელთა კოდირებაც შესაძლებელია, გაიზარდა 231-მდე. სიმბოლოების უფრო დიდი მარაგის გამოყენების შესაძლებლობის გათვალისწინებით, შეიქმნა სიმბოლოების უფრო დიდი მარაგი, რათა კვლავ შენარჩუნდეს მხარდაჭერა. Unicode-16-ისთვის (კოდირება, დე მაქსიმუმი და მათი რიცხვი აღინიშნა ნომრით 216). მისი გამოჩენის მომენტიდან "უნიკოდის სტანდარტის" 2.0.0 ვერსიამდე, ადრე შეტანილი სიმბოლოების რაოდენობა პრაქტიკულად გაორმაგდა. შესაძლებლობების ზრდა შემაშფოთებელი იყო ბედის დაწყებისას. 4.0.0 ვერსიამდე საჭირო იყო თავად სტანდარტის გაფართოება, რომელიც უკვე დაშლილი იყო. შედეგად, „უნიკოდმა“ მიიღო ის სახე, რომელიც დღეს ვიცით.
კიდევ რა არის უნიკოდში?
სიმბოლოების დიდი რაოდენობის გარდა, რომლებიც თანდათან ივსება, ემატება ბრინჯის კიდევ ერთი ფენა. მოდით ვისაუბროთ ნორმალიზებაზე ე.წ. ამის ნაცვლად, მთელი დოკუმენტის სიმბოლოების მიხედვით გასავლელად და შესაბამისი ხატების წარმოდგენის ცხრილში, გამოიყენება ნორმალიზაციის ერთ-ერთი სხვა ალგორითმი. რა ენაზეა საუბარი?
იმის ნაცვლად, რომ დახარჯოთ გამოთვლითი მანქანის რესურსები ერთი და იგივე სიმბოლოს რეგულარულ გადამოწმებაზე, რომელიც შეიძლება იყოს მსგავსი სხვადასხვა ანბანში, შემუშავებულია სპეციალური ალგორითმი. ის საშუალებას გაძლევთ შეიყვანოთ მსგავსი სიმბოლოები შემცვლელი ცხრილის მომრგვალებულ სვეტში და გადახვიდეთ მათზე, ვიდრე ყველა მონაცემის განმეორებით შემოწმება.
ასეთი ალგორითმები დაიშალა და დაიშალა. თითოეული მათგანი მიჰყვება მკაცრად მარტივ პრინციპს, რომელიც განსხვავდება სხვებისგან, ამიტომ შეუძლებელია დავასახელოთ რომელი მათგანია ყველაზე ეფექტური. კანი დეზორგანიზებული გახდა სიმღერის საჭიროებისთვის და წარმატებით დაწინაურდა.
გაფართოებული სტანდარტი
მისი ისტორიის 25 წლის განმავლობაში, "უნიკოდის" კოდირება, სავარაუდოდ, ყველაზე გავრცელებული გახდა მსოფლიოში. პროგრამები და ვებ გვერდები ასევე ადაპტირებულია ამ სტანდარტზე. ამ ტენდენციის სიგანე ჩანს იმაში, რომ Unicode ამჟამად გამოიყენება ინტერნეტ რესურსების 60%-ზე.
ახლა თქვენ იცით, რომ Unicode სტანდარტი გამოჩნდა. თქვენ ასევე იცით და შეგიძლიათ დააფასოთ Unicode Inc.-ის ჰაკერების ჯგუფის მიერ შედგენილი შედეგის ყველა მნიშვნელობა. 25 წელზე მეტი ხნის წინ.
(კოდი 0-დან 127-მდე), მაშინ. დაშიფრულია ერთ ბაიტში ლათინური ასოები, რიცხვები და სპეციალური სიმბოლოები. რუსული ასოები (კირილიცა) წარმოდგენილია 16-ბიტიანი (ორმაგი ბაიტი) კოდებით:
110XXXXXX 10XXXXXX,
სადაც X-ს ენიჭება ორნიშნა რიცხვი, რათა მოათავსოთ კოდის სიმბოლო ცხრილში UNICODE.
უნიკოდი (ინგლ. Unicode) არის სიმბოლოების კოდირების სტანდარტი, რომელიც საშუალებას აძლევს სიმბოლოების წარმოდგენას ისე, როგორც ყველა დაწერილი სიმბოლო. უნიკოდში წარმოდგენილი სიმბოლოები დაშიფრულია როგორც ხელმოუწერელი რიცხვები. ამ ციფრებს უნიკოდში ან უბრალოდ სიმბოლოების კოდებს უწოდებენ UNICODE. უნიკოდს აქვს რამდენიმე ფორმა კომპიუტერზე სიმბოლოების წარმოსადგენად: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) და UTF-32 (UTF-32BE, UTF-32LE). (ინგლისური: Unicode transformation format - UTF).
მოდით შევხედოთ როგორ არის კოდირებული UTF-8მწერალი და. Її UNICODE- 1046 10 ჩი 0416 16 ჩი 10000 010110 2 . UNICODEორმაგი ხედით, იგი იყოფა ორ ნაწილად: ხუთი მარცხენა და ექვსი მარჯვენა. მარცხენა ნაწილი ემატება ბაიტს ნიშნით 110 ორმაგი ბაიტი კოდი UTF-8: 110 10000. ორი ბიტი ემატება მარჯვენა მხარეს 10 დიდი ბაიტის კოდის გაგრძელების ნიშნები: 10 010110. დარჩენილი ასო კოდი დავ UTF-8ასე გამოიყურება:
110
10000 10
010110 2
ან D0 96 16
ამ გზით რუსული ასო დაშიფრულია ორი გზით: თავდაპირველად 11-ბიტიანი UNICODEდა შემდეგ - 16-ბიტიანი UTF-8.
გადაიტანეთ ცხრილის ქვემოთ, კოდების ჩათვლით UNICODEі UTF-8მეთექვსმეტე ნომრის სისტემა მოცემულია კოდით UTF-8ვ მეათე სისტემარიცხვები კირიული კოდის კოდთან გასათანაბრებლად CP-1251, სხვაგვარად ე.წ windows-1251.
სიმბოლო | UNICODE | UTF-8 | CP-1251 | ||
---|---|---|---|---|---|
Hex. | ათი | Hex. | ათი | ||
ა | 0410 | 1040 | D090 | 208 144 | 192 |
ბ | 0411 | 1041 | D091 | 208 145 | 193 |
უ | 0412 | 1042 | D092 | 208 146 | 194 |
გ | 0413 | 1043 | D093 | 208 147 | 195 |
დ | 0414 | 1044 | D094 | 208 148 | 196 |
ე | 0415 | 1045 | D095 | 208 149 | 197 |
და | 0416 | 1046 | D096 | 208 150 | 198 |
ზ | 0417 | 1047 | D097 | 208 151 | 199 |
І | 0418 | 1048 | D098 | 208 152 | 200 |
ი | 0419 | 1049 | D099 | 208 153 | 201 |
მანამდე | 041A | 1050 | D09A | 208 154 | 202 |
ლ | 041B | 1051 | D09B | 208 155 | 203 |
მ | 041C | 1052 | D09C | 208 156 | 204 |
ნ | 041D | 1053 | D09D | 208 157 | 205 |
შესახებ | 041E | 1054 | D09E | 208 158 | 206 |
პ | 041F | 1055 | D09F | 208 159 | 207 |
რ | 0420 | 1056 | D0A0 | 208 160 | 208 |
ზ | 0421 | 1057 | D0A1 | 208 161 | 209 |
თ | 0422 | 1058 | D0A2 | 208 162 | 210 |
უ | 0423 | 1059 | D0A3 | 208 163 | 211 |
ფ | 0424 | 1060 | D0A4 | 208 164 | 212 |
X | 0425 | 1061 | D0A5 | 208 165 | 213 |
C | 0426 | 1062 | D0A6 | 208 166 | 214 |
ჰ | 0427 | 1063 | D0A7 | 208 167 | 215 |
შ | 0428 | 1064 | D0A8 | 208 168 | 216 |
SCH | 0429 | 1065 | D0A9 | 208 169 | 217 |
კომერსანტი | 042A | 1066 | D0AA | 208 170 | 218 |
ი | 042B | 1067 | D0AB | 208 171 | 219 |
ბ | 042C | 1068 | D0AC | 208 172 | 220 |
ე | 042D | 1069 | D0AD | 208 173 | 221 |
YU | 042E | 1070 | D0AE | 208 174 | 222 |
მე | 042F | 1071 | D0AF | 208 175 | 223 |
ა | 0430 | 1072 | D0B0 | 208 176 | 224 |
ბ | 0431 | 1073 | D0B1 | 208 177 | 225 |
ვ | 0432 | 1074 | D0B2 | 208 178 | 226 |
გ | 0433 | 1075 | D0B3 | 208 179 | 227 |
დ | 0434 | 1076 | D0B4 | 208 180 | 228 |
ე | 0435 | 1077 | D0B5 | 208 181 | 229 |
და | 0436 | 1078 | D0B6 | 208 182 | 230 |
თ | 0437 | 1079 | D0B7 | 208 183 | 231 |
і | 0438 | 1080 | D0B8 | 208 184 | 232 |
ე | 0439 | 1081 | D0B9 | 208 185 | 233 |
ადრე | 043A | 1082 | D0BA | 208 186 | 234 |
ლ | 043B | 1083 | D0BB | 208 187 | 235 |
მ | 043C | 1084 | D0BC | 208 188 | 236 |
ნ | 043D | 1085 | D0BD | 208 189 | 237 |
ო | 043E | 1086 | D0BE | 208 190 | 238 |
პ | 043F | 1087 | D0BF | 208 191 | 239 |
რ | 0440 | 1088 | D180 | 209 128 | 240 |
თ | 0441 | 1089 | D181 | 209 129 | 241 |
თ | 0442 | 1090 | D182 | 209 130 | 242 |
ზე | 0443 | 1091 | D183 | 209 131 | 243 |
ვ | 0444 | 1092 | D184 | 209 132 | 244 |
X | 0445 | 1093 | D185 | 209 133 | 245 |
ც | 0446 | 1094 | D186 | 209 134 | 246 |
წელიწადი | 0447 | 1095 | D187 | 209 135 | 247 |
ვ | 0448 | 1096 | D188 | 209 136 | 248 |
სჩ | 0449 | 1097 | D189 | 209 137 | 249 |
ъ | 044A | 1098 | D18A | 209 138 | 250 |
ს | 044B | 1099 | D18B | 209 139 | 251 |
ბ | 044C | 1100 | D18C | 209 140 | 252 |
ე | 044D | 1101 | D18D | 209 141 | 253 |
იუ | 044E | 1102 | D18E | 209 142 | 254 |
მე | 044F | 1103 | D18F | 209 143 | 255 |
პოზის სიმბოლოები ზაგალის წესით | |||||
იო | 0401 | 1025 | D001 | 208 101 | 168 |
ე | 0451 | 1025 | D191 | 209 145 | 184 |