რუსული სიმბოლოების Ascii კოდირება. გაოცდით "სიმბოლოების კოდირება" სხვა ლექსიკონებში

კომპიუტერებს შეუძლიათ ინფორმაციის დამუშავება ციფრული ფორმის გარდა. ამიტომ, კომპიუტერზე ტექსტების დამუშავებისას, ტექსტის კანის სიმბოლოს შეიძლება მიენიჭოს ნიშანი. სიმბოლოებისა და რიცხვების სიმრავლეს შორის ურთიერთობების ცხრილს (ციფრული სიმბოლოების კოდები) ეწოდება სიმბოლოების კოდები.

სიმბოლოების კოდირება გამოიყენება კომპიუტერში ტექსტებისა და დოკუმენტების შესატანად, აგრეთვე ადამიანის წასაკითხად ტექსტებისა და დოკუმენტების ჩვენებისთვის (მაგალითად, მონიტორი, პრინტერი და ა.შ.).

კოდირების პარამეტრების ფანჯრიდან "კოდირების ზონაში" შეგიძლიათ დააყენოთ რომელი უნდა შეცვალოთ და რა თანმიმდევრობით უნდა დაარედაქტიროთ. თარგმნეთ ჩინური გამარტივებული ჩინური ტრადიციული ინგლისური ფრანგული გერმანული იტალიური იტალიური პორტუგალიური რუსული ესპანური თურქული.

ეს კომპიუტერი თარგმნის გამომავალ შინაარსს. ჩვენ ვეყრდნობით მხოლოდ ფარულ ინფორმაციას და არ ვართ ვალდებული ვიყოთ მაქსიმალურად ზუსტი. ”არ ვიცი მუშაობს თუ არა ეს ჩემს მანქანაზე!” როდის თქვეს ეს? სიმბოლოები და კოდირება არის მთავარი ცნებები, რომლებზეც პასუხისმგებელნი არიან კანის კეთილშობილები, მიუხედავად ყველაფრისა. ინფორმაციის ამ ეპოქაში, როდესაც მთელი მსოფლიო შორდება, გლობალიზაცია გახდა ნებისმიერი პროდუქტის ერთ-ერთი მთავარი სარგებელი, რომელიც იყიდება და რეალიზდება მთელ მსოფლიოში სხვადასხვა ქვეყნებიდან, სხვადასხვა ქვეყნებიდან სხვა კულტურებისგან.

პატივისცემა. ინოდის კოდირების ცხრილებს კოდის გვერდები ეწოდება.

ვიდი კოდუვანი

ამჟამად არსებობს კოდირების ორი ყველაზე ფართო ტიპი:

  • ერთბაიტიანი კოდირება, რომელშიც ერთი ბაიტი (8 ბიტი) არის კოდირებული ტექსტის ერთი სიმბოლოსთვის;
  • Unicode კოდირება (Unicode) - მასში, ტექსტში ერთი სიმბოლოს კოდირებისთვის გამოიყენება ორი ან მეტი ბაიტი.

ერთბაიტიანი კოდირება იძლევა 256-მდე კოდირების საშუალებას სხვადასხვა პერსონაჟები(1 ბაიტი არის 8 ბიტი, ხოლო 256 არის 28). ასეთი კოდები პირველ კომპიუტერებზე მე-20 საუკუნის შუა ხანებიდან არსებობდა. 1990-იან წლებამდე ყველა სიმბოლოს კოდირება, რომელიც პრაქტიკულად გამოიყენებოდა კომპიუტერებში, იყო ერთბაიტი.

სიმბოლო ან ტექსტის მწკრივი არ გადადის ერთი ენიდან მეორეზე ავტომატურად და გლობალიზაცია არ არის მხოლოდ რესურსების პაკეტების ჩანაცვლება, როგორც თქვენ გჯერათ. პერსონაჟი არის პლატონური აბსტრაქტული არსი, რომელიც არსებობს თეორიულ სივრცეში. ზოგჯერ პერსონაჟი პლატონურია, მას იოგო იმიამს უწოდებენ. მაგალითად, „ინგლისური ასო A“ არის A. თუმცა, ჩვენ ასევე გვაქვს პერსონაჟის ვიზუალური გამოვლინებები, რომლებსაც სიმბოლოს ვუწოდებთ.

ერთი სიმბოლო შეიძლება იყოს გლიფების დედა. სიმბოლოების აბსტრაქტული სივრცე არის მსოფლიოში ყველა სიმბოლოს მთლიანობა. სიმბოლოების აბსტრაქტულ სივრცეში აბსტრაქტული სიმბოლოს კანი გამოსახულია სიმბოლოთა სივრცეში არსებული რამდენიმე გლიფებით. მოდით შევხედოთ პერსონაჟის და გლიფების სხვადასხვა მახასიათებლებს. დიდი და პატარა ასოები.

p align="justify"> ერთბაიტიანი კოდირება ძალიან სასიამოვნო იყო დეველოპერების უმეტესობისთვის - 256 სიმბოლო კოდიც კი სრულიად საკმარისია უმეტეს ენაზე ტექსტების დაშიფვრისთვის. მას შემდეგ რაც კომპიუტერებმა ფართო გამოყენება დაიწყეს მსოფლიოში, ერთბაიტიანი კოდების რაოდენობამ ასობით დაიწყო. ჩვენი ხალხიც კი ძალიან ერკვევა ენაში, მათ ხშირად აქვთ საკუთარი განსაკუთრებული ანბანი (ბერძნული, ებრაული და ა.შ.), რომელიც მოითხოვს საკუთარ კოდს. მანამდე მხოლოდ ერთ ენას ხშირად სჭირდებოდა ბევრი კოდირება. ყველაფერი დაიწყო დაბნეულობამდე და დაბნეულობამდე, განსაკუთრებით მდიდარი დოკუმენტების შექმნით და საერთაშორისო შეთანხმებით. ამიტომ, რიცხვითი ერთბაიტიანი კოდირების ნაცვლად, უნივერსალური Unicode კოდირება სულ უფრო ხშირად გამოიყენება.

ინგლისურ ენას აქვს სიმბოლოების კონცეფცია დიდიდა პატარა, მაგრამ ყველა ენას ვერავინ ესმის მსოფლიოში. მათთვის არ აქვს მნიშვნელობა, რომ აბსტრაქტული სიმბოლო A სემანტიკურად იგივეა, რაც აბსტრაქტული სიმბოლო A, მაგრამ სიმარტივის მიზნით, ისინი განიხილება როგორც ორი განსხვავებული სიმბოლო მანქანების სამყაროში.

ერთი სიმბოლო შეიძლება იყოს გლიფების რაოდენობა, ან ასევე მართალია, რომ რამდენიმე გლიფი შეიძლება იყოს რამდენიმე სიმბოლო. ასეთ გლიფებს, რომლებიც გამოიყენება მიმდებარე სიმბოლოების მიხედვით ფორმის შესაცვლელად, ლიგატურებს უწოდებენ. იშლება სიმბოლოები, რომლებიც შეიძლება დაიშალოს რამდენიმე პატარა სიმბოლოდ.

უნიკოდის კოდი. სულ უფრო მნიშვნელოვანი ხდება უნიკოდის კოდის ცოდნა. მას აქვს ორი ბაიტი კანის სიმბოლოს დაშიფვრისთვის და 4 ბაიტი სხვა სიმბოლოებისთვის (ორი ბაიტი არ იყო საკმარისი).

უნიკოდის კოდიეს არის თითქმის ყველა სიმბოლოს კოდი (სხვადასხვა ენის ანბანის ასოები, მათემატიკური, დეკორატიული სიმბოლოები და ა.შ.). ეს ძალიან მარტივია, უამრავი ახალი პროგრამაა კოდირებისთვის ტექსტური ინფორმაცია Vikorist Unicode კოდი.

სტუმრის აქცენტი და სხვა მსგავსი ნიშნები, როგორიცაა მომრგვალებული, მნიშვნელოვანი აქცენტი, სედილა, მაკრონი, დიარეზისი და ა.შ. დიაკრიტიკას უწოდებენ. ერთი ძირითადი სიმბოლოსთვის არის ერთზე მეტი ვიკორი დიაკრიტული, ყველა სუნი ან გროვდება საბაზისო სიმბოლოს ზედა ნაწილში, ან მიედინება ქვევით საბაზისო სიმბოლოს ბოლოში იმ თანმიმდევრობით, რომლითაც სუნი გამოჩნდება საბაზისო სიმბოლოზე.

ტექნიკურად, ლიგატურას ასევე შეიძლება ეწოდოს wildcard, რადგან ის შეიძლება განაწილდეს სიმბოლოებზე. მაგრამ მათ შორის არის დახვეწილი განსხვავება. მიმდებარე სიმბოლოები ლიგატურაში არის მეორადი და დამოუკიდებელი სიმბოლოები და ასევე შეიძლება დადგეს თავისთავად, მაგრამ არ არის იგივე სიმბოლოებისთვის, რომლებიც გაფართოებულია. მაგალითად, მკვეთრი აქცენტი, რომელიც ნაწილობრივ განვითარებული პერსონაჟისაა, თავისთავად არაფერს ნიშნავს, არამედ მხოლოდ სრული პერსონაჟის კონტექსტში.

ა.ალოშინი

ნომრების გარდა, EOM-ის მონიტორებმა უნდა აჩვენონ სხვა ანონიმური სიმბოლოები. გასაგებია, რომ კანის სიმბოლოს გამოსატანად საჭიროა მანქანის კოდი, რომელიც ნათლად განსაზღვრავს ამ სიმბოლოს და ეს არის წესი, რომელიც შეიძლება გამოყენებულ იქნას ეკრანზე კანის სიმბოლოს სწორი ჩვენების ორგანიზებისთვის. ცხადია, რომ შეყვანისა და გამომავალი ასეთი სისტემა უნდა განვითარდეს ოპტიმალურად, რაც დამოკიდებულია კომპიუტერული რესურსების მოხმარებაზე. ამ შემთხვევაში განსაკუთრებით მნიშვნელოვანია გვახსოვდეს, რომ კომპიუტერული ტექნოლოგიის ადრეულ დღეებში კომპიუტერების პროდუქტიულობა დღევანდელი გადმოსახედიდან უსარგებლო იყო და სისტემური პროგრამებიდა ტექნიკის გამყიდველები იბრძოდნენ კანის ბიტისთვის, მისამართისთვის, ინსტრუქციებისთვის, დარეგისტრირებისთვის, ბილინგისთვის ოპერატიული მეხსიერებადა კომპიუტერის "ჩვილების" მისამართების სივრცე.
ვნახოთ რამდენი სიმბოლოა საჭირო ეკრანზე ინფორმაციის გამოსატანად. ისტორიულად, ეს იყო შემთხვევა, რომ პირველი კომპიუტერული დისტრიბუტორები იყვნენ ინგლისურ ენაზე მოლაპარაკეები. რისი დაცვა სჭირდებოდათ მონიტორზე გამოსატანად? პირველი, ინგლისური ანბანის 26 ასო (რიგები), წინააღმდეგ შემთხვევაში, 26 დიდი, 9 გამყოფი ნიშანი (. , : ! "; ? ()), სივრცე, 10 ციფრი, არითმეტიკული მოქმედებების 5 სიმბოლო (+,-, *, / , ^) რომ სპეციალური პერსონაჟები(არა. % _ # $ და ასე შემდეგ ^, &, >,<, |, \). Получается чуть больше сотни символов. Такой сравнительно не-большой базовый набор символов можно закодировать при помощи таблиц соответствия этого набора машинным кодам (фактически, двоичным числам). Можно вполне ограничиться набором двоичных чисел от 0 до 27 (всего 128 позиций), что и было сделано. Таблица соответствия полу-чила название ASCII (American Standard Code for Information Interchange). В рамках таблицы ASCII создание многоязычных документов являлось очень проблематичной, а в большинстве случаев и совершенно невыполнимой задачей.
თუმცა, კოდების ძირითადი ნაკრები არ იყო ხელმისაწვდომი. სტანდარტული ASCII ცხრილის მზარდი ცოდნის დეფიციტი ჩნდება, რაც ამტკიცებს მის უზარმაზარ გაფართოებას. შედეგად, გამოვიდა ახალი კოდირების ცხრილი, რომელსაც ეწოდა "გაფართოებული ASCII ცხრილი", თითოეული ზრდასრული ადამიანისთვის ნაცნობების რაოდენობა გაიზარდა 28-მდე (256 ნაცნობი). ამ ცხრილმა განსაზღვრა საერთაშორისო სტანდარტის სახელწოდება IS 646, ხოლო რვა ბიტიანი კოდი - Latin-1. აქამდე ძირითადად ლათინური ასოები შტრიხებით და დიაკრიტული სიმბოლოებით იყო დამატებული. გამოცხადდა ახალი სტანდარტი, IS 8859, რომელმაც შემოიღო "კოდის მხარის" კონცეფცია. აკრიფეთ 256 სიმბოლო დანიშნული ენის ან ჯგუფისთვის, შემდეგ. IS 8859-1 არის ლათინური-1, IS 8859-2 სლოვენური ენების ჩათვლით ლათინური ანბანით (ჩესკა, პოლონური, ვერგერსკა), IS 8859-3 თურქული, მალტური, ესპერანტო, გალისიური ენების ჩათვლით და ა.შ. ამ მიდგომის მინუსი ის არის, რომ პროგრამული უზრუნველყოფა შეიძლება მიჰყვეს კოდის გვერდებს, რაც შეუძლებელს ხდის სიტყვების შერევას, გარდა ამისა, არ არის შექმნილი იაპონური და ჩინური ენების კოდის გვერდები.

სიმბოლოების ნაკრები და კოდირების სიმბოლოების ნაკრები

აბსტრაქტული სიმბოლოების ერთობლიობას სიმბოლოთა ნაკრები ეწოდება. პაემნებზე დაქირავება მწყობრიდან არ არის და შესაბამისად, ჩვენ არ ვართ დამნაშავე იმავეს მიღებაში. პერსონაჟების ნაკრები არ არის მარტივი კონცეფცია, როგორც ეს ხშირად განიხილება და საკამათოც კი ხდება პერსონაჟების აღნიშვნის, ნაკრების ან ოჯახის შესახებ დისკუსიებში. მაგალითები მოიცავს ლათინური სიმბოლოების ნაკრები, Devanagari სიმბოლოების ნაკრები, იაპონური სიმბოლოების ნაკრები, უნივერსალური სიმბოლოების ნაკრები და ა.შ.

ამ სიმბოლოების უმეტესობას აქვს სახელები, მაგრამ არ არის საკმარისი მათი ცალსახად იდენტიფიცირებისთვის. თუმცა, მანქანების ამ სამყაროში ყველაფერი წარმოდგენილია როგორც რიცხვი; ამგვარად, სიმბოლოთა სიმრავლის თითოეულ სიმბოლოს ენიჭება რიცხვი მისი ცალსახად იდენტიფიცირების მიზნით. სიმბოლოების ასეთ კრებულს, სადაც თითოეულ სიმბოლოს ეძლევა უნიკალური ნომერი, ეწოდება კოდირებული სიმბოლოების ნაკრები; სიმბოლოსთვის მინიჭებულ უნიკალურ რიცხვს კი მისი სიმბოლო კოდი ეწოდება. დაშიფრული სიმბოლოების ნაკრები არ არის დამოკიდებული რომელიმე პლატფორმაზე, ოპერაციულ სისტემაზე ან პროგრამაზე.

1991 წლიდან დაარსდა UNICODE-ის კონსორციუმი, რითაც შეიმუშავა და დანერგა უნიკოდის სტანდარტი, როგორც ინფორმაციის გაცვლის საერთაშორისო კოდირების სისტემა, ასევე მომავალში ამ სტანდარტის ღირებულების შესანარჩუნებლად ix ვერსიები.

UNICODE 4.0 სტანდარტი არის სიმბოლოების კოდირების ახალი სისტემა, რომელიც ნაჩვენებია მონიტორის ეკრანზე ან პრინტერზე, რომელიც საშუალებას გაძლევთ დაშიფროთ 1,114,112 სიმბოლო (სტანდარტს ჩვეულებრივ უწოდებენ კოდის წერტილებს). სიმბოლოების უმეტესობა, რომლებიც გამოიყენება მსოფლიოს მთავარ ენებში, იკავებს 65536 კოდურ წერტილს, რაც ქმნის ძირითად მრავალენოვან თვითმფრინავს (BMP) (Basic Bagatomovnyi Riven - ჩემი თარგმანი). კოდის წერტილები, რომლებიც დაიკარგა (მილიონზე მეტი) სრულიად საკმარისია ყველა ცნობილი სიმბოლოს, დაბალი სიგანის ენისა და ისტორიული სიმბოლოების ჩათვლით. UNICODE სტანდარტი მხარს უჭერს სამ ფორმას, 32-ბიტიანი (UTF-32), 16-ბიტიანი (UTF-16) და 8-ბიტიანი (UTF-8). რვა ბიტიანი UTF-8 ფორმა დაიშალა ASCII-ზე ორიენტირებული კოდირების სისტემებთან მარტივი თავსებადობისთვის. UNICODE სტანდარტი შეესაბამება საერთაშორისო სტანდარტს ISO/IEC 10646.
UTF-32 ფორმა ყველაზე მარტივი შერეულია. ეს სიმბოლო დაშიფრულია დამატებით 32-ბიტიან ბლოკში. ამიტომ, თითოეულ UTF-32 სიმბოლოს აქვს ცალსახა ურთიერთობა დეკოდირებულ სიმბოლოსა და კოდის ბლოკს შორის. ეს ფორმა შეიძლება იყოს ნიშნის ფიქსირებული თარიღი. ეს მოიცავს UNICODE კოდის მთელ ადგილს – 0...10FFFF16. ეს უზრუნველყოფს სრულ თავსებადობას UTF-16 და UTF-8-თან. UTF-32 ფორმა ყველაზე მნიშვნელოვანია UNIX პლატფორმების უმეტესობაში.
UNICODE სტანდარტი შეიცავს 96382 სიმბოლოს, აღებული მათი მსუბუქი შრიფტებიდან. ეს სიმბოლოები საკმარისზე მეტია მსოფლიოში ყველა ცნობილი სიტყვის გაერთიანებისთვის და მრავალ ენაზე კლასიკური (ისტორიული) შრიფტების დასაწერად. UNICODE მოიცავს ევროპული ანბანის, ცენტრალური აზიის ანბანის, მარჯვნიდან მარცხნივ მიმართულებებს, აზიურ შრიფტებს და ბევრ სხვას. HUN კოდის წერტილები მოიცავს 70,207 იდეოგრაფიულ სიმბოლოს, რომლებიც მინიჭებულია ეროვნულ და ინდუსტრიულ სტანდარტებზე ჩინეთში, იაპონიაში, კორეაში, ტაივანში, ვიეტნამსა და სინგაპურში. გარდა ამისა, UNICODE ათავსებს სასვენ ნიშნებს, მათემატიკურ სიმბოლოებს, ტექნიკურ სიმბოლოებს, დინჯბატებსა და ფონეტიკურ ნიშნებს.

სიმბოლოების კოდირება და გაშიფვრა

კოდის ბლოკების თანმიმდევრობისთვის მიღებული სიმბოლოების კოდის დასახელების ალგორითმს ეწოდება სიმბოლოების კოდირება, ხოლო კოდის ბლოკი არის ბიტის ბლოკი, რომელიც ყოველთვის წარმოდგენილია მრავალ ოქტეტში. სხვა სიტყვებით რომ ვთქვათ, სიმბოლოების კოდირება არის სიმბოლოების კოდის ოქტეტად გადაქცევის ალგორითმი.

დაიმახსოვრეთ, რომ სიმბოლოს, თუ დაშიფრულია, შეიძლება მოჰყვეს ერთ ან ბევრ ოქტეტს, რაც დამოკიდებულია სიმბოლოების კოდისა და კოდირების ალგორითმის ტესტირებაზე. კოდირების ალგორითმს, რომელიც წარმოქმნის ოქტეტების ცვლადი რაოდენობას სხვადასხვა სიმბოლოების კოდებისთვის, ეწოდება ცვლადის კოდირების სქემა. კოდირების ალგორითმები, რომლებიც თანმიმდევრულად ქმნიან ოქტეტების ფიქსირებულ რაოდენობას სხვადასხვა სიმბოლოების კოდებისთვის, ეწოდება ფიქსირებული-ორმაგი კოდირების სქემები.

ნომრების სისტემა- რიცხვების ჩაწერის სიმბოლური მეთოდი, რიცხვების მიცემა დამატებითი წერილობითი სიმბოლოების გამოყენებით.

ნომრების სისტემა:

§ იძლევა რიცხვთა (მთლიანი ან/და მეტყველების) უპიროვნების გამოვლინებას;

§ ანიჭებს კანის ნომერს უნიკალურ იერს (ან, მაგალითად, სტანდარტულ გარეგნობას);

§ წარმოადგენს რიცხვთა ალგებრულ და არითმეტიკულ სტრუქტურას.

სიმბოლოს კოდი შეიძლება დაემატოს კოდირებული სიმბოლოების ნაკრების ნაწილად. დაშიფვრის ალგორითმმა უნდა იცოდეს სიმბოლოების სწორი კოდების რა დიაპაზონი და რა არალეგალური სიმბოლოებია საჭირო სიმბოლოების კოდის სწორად დაშიფვრისთვის. ასევე, კოდირების ალგორითმი პირველად უკავშირდება დაშიფრული სიმბოლოების კომპლექტს.

ძირითადად, სიმბოლოების ერთი კოდირების ნაკრები ასოცირდება ერთ კოდირების ალგორითმთან. მაგრამ ასეთი მკაცრი წესი არ არსებობს. როგორც უკვე აღვნიშნეთ, თუ ნიშანი შერწყმულია დამოუკიდებელ სიმბოლოსთან, არსებობს წინააღმდეგობა ამ დამოუკიდებელ სიმბოლოსთან შერწყმისას.

რიცხვითი სისტემები იყოფა პოზიციური, არაპოზიციურიі შერეული.

რაც უფრო დიდია რიცხვითი სისტემის საფუძველი, მით უფრო ნაკლებია რიცხვების რაოდენობა (ციფრები, რომლებიც იწერება) პოზიციური რიცხვების სისტემებში რიცხვების ჩაწერისას.