Кодування ascii російські символи. Дивитися що таке "Кодування символів" в інших словниках

Комп'ютери можуть обробляти інформацію тільки в числовій формі. Тому при обробці текстів в комп'ютері кожному символу тексту повинно бути співставлено деяке число. Таблиця відповідності між набором символів і числами (числовими кодами символів) називається кодуванням символів.

Кодування символів використовується при введенні текстів та документів в комп'ютер і при виведенні текстів, повідомлень і документів для читання людиною (наприклад, монітор, принтер і т. Д.).

З вікна параметрів кодування в розділі «Область кодування» ви можете налаштувати, які з них використовуються, і порядок, в якому вони використовуються. Перекласти китайський спрощений китайський традиційний англійський французький німецький італійський португальська російська іспанська турецька.

Це комп'ютерний переклад вихідного контенту. Він надається тільки для загальної інформації і не повинен вважатися повним або точним. «Я не знаю, але це працює на моїй машині!» Коли-небудь це говорили? Символи та кодування - це основні поняття, які повинен знати кожен розробник, незважаючи ні на що. У цю епоху інформації, коли весь світ скоротився, глобалізація стала одним з ключових вимог будь-якого продукту, оскільки вона продається і використовується у всьому світі людьми з різних країн, різних мов і різних культур.

Зауваження. Таблиці кодування іноді називають кодовими сторінками.

види кодувань

Зараз найбільш поширені два види кодувань:

  • однобайтні кодування, в яких для кодування одного символу тексту використовується один байт (8 біт);
  • кодування Unicode (Юнікод) - в ній для кодування одного символу тексту використовуються два або чотири байти.

Однобайтні кодування дозволяють закодувати до 256 різних символів  (1 байт - це 8 бітів, а 256 - це 28). Такі кодування застосовувалися ще на найперших комп'ютерах, з середини XX століття. До 1990-х років все кодування символів, практично використовувані в комп'ютерах, були однобайтном.

Символ або текстова рядок не перекладається з однієї мови на іншу автоматично, а глобалізація - це не просто використання пакетів ресурсів, якщо ви так думаєте. Характер - платонічна абстрактна сутність, яка існує в теоретичному просторі. Оскільки персонаж платонічен, його зазвичай називають його ім'ям. Наприклад, «Англійська літера А» - А. Однак ми бачимо візуальне уявлення персонажа, званого його символом.

Один символ може мати кілька гліфів. Абстрактне простір символів - це сукупність всіх символів в цьому світі. Кожен абстрактний символ в абстрактному просторі символів відображає багато гліфів в просторі символів. Давайте подивимося на деякі характеристики персонажа і гліфів. Верхній і нижній регістр символів.

Однобайтні кодування були цілком прийнятні для більшості користувачів - адже 256 кодів символів цілком достатні для кодування текстів на більшості мов. Але, коли комп'ютери стали широко використовуватися в усьому світі, кількість однобайтовим кодувань стало обчислюватися сотнями. Адже мов люди використовують дуже багато, часто ці мови мають свій особливий алфавіт (грецька, єврейська і т. Д.), А тому для них потрібна своя кодування. До того ж, часто для однієї мови входили у вжиток кілька кодувань. Все це стало приводити до складнощів і плутанини, особливо при створенні багатомовних документів і в міжнародному спілкуванні. Тому зараз замість численних однобайтовим кодувань все ширше використовується універсальна кодування Unicode.

Англійська мова має поняття символів верхнього регістру і нижнього регістра, але не всі мови в цьому світі мають це поняття. Незважаючи на те, що абстрактний символ А семантично означає те ж саме, що і абстрактний символ а, але для простоти обидва трактуються як два різних персонажа в світі машин.

Один символ може мати кілька гліфів, але також вірно, що деякі гліфи є кілька символів. Такі гліфи, які об'єднуються для зміни форми на основі суміжних символів, називаються лігатурами. Розкладені символи - це ті, які можна розкласти на кілька менших символів.

Кодування Unicode. В останні роки все більше застосування знаходить кодування Unicode (Юнікод). У ній для кодування кожного символу зазвичай використовується два байта, а для деяких символів - 4 байта (двох байт виявилося мало).

В кодуванні Unicode є коди для практично всіх застосовуваних символів (букв алфавітів різних мов, математичних, декоративних символів і т. д.). Це дуже зручно, тому багато нові програми для кодування текстової інформації  використовують кодування Unicode.

Гострий акцент і інші подібні знаки, такі як округлий, важкий акцент, Седілльо, Макрон, діарезіс і т.д. називаються діакритичні знаки. Якщо для одного базового символу використовується більш одного діакритичного знака, Всі вони зазвичай або складаються вгорі базового символу, або стікають вниз в нижній частині базового символу в тому порядку, в якому вони з'являються щодо базового символу.

Технічно лигатура також може називатися складовим символом, тому що вони також можуть бути розкладені на окремі персонажі. Але між ними є тонка різниця. Окремі символи в лігатурі є повними і незалежними символами і можуть також існувати самі по собі, але це не те ж саме для розкладені символів. Наприклад, гострий акцент, який є частиною розкладені характеру, нічого не означає сам по собі, але тільки в контексті повного характеру.

А. Альошин

Крім цифр, на монітори ЕОМ необхідно виводити ще й безліч символів. Ясно, що для виведення кожного символу необхідний якийсь машинний код, однозначно відповідає цьому символу, або якесь правило, за яким можна організувати коректний висновок кожного символу на дисплей. Зрозуміло, розробляти таку систему введення-виведення слід оптималь-ним чином з точки зору споживання ресурсів комп'ютера. Особливо важливо в цьому випадку пам'ятати про те, що продуктивність комп'ютерів у віддалені часи зародження обчислюва-лительного техніки була незначною, з сучасних позицій, а системні програмісти і раз-работчікі апаратної частини боролися за кожен біт, адреса, інструкцію, регістр, звільняючи оперативну пам'ять  і адресний простір комп'ютерних "малюків".
  Давайте підрахуємо, скільки необхідно символів для виведення інформації на дисплей. Історично склалося так, що перші розробники комп'ютерів були носіями англійсько-го мови. Що їм було необхідно забезпечити для виведення на монітор? По-перше, 26 букв анг-лийского алфавіту (малих), по-друге, 26 прописних, 9 знаків пунктуації (.,:! ";? ()), Пробіл, 10 цифр, 5 знаків арифметичних дій (+, -, *, /, ^) і спеціальні символи  (№% _ # $, і так далі ^, &,\u003e,<, |, \). Получается чуть больше сотни символов. Такой сравнительно не-большой базовый набор символов можно закодировать при помощи таблиц соответствия этого набора машинным кодам (фактически, двоичным числам). Можно вполне ограничиться набором двоичных чисел от 0 до 27 (всего 128 позиций), что и было сделано. Таблица соответствия полу-чила название ASCII (American Standard Code for Information Interchange). В рамках таблицы ASCII создание многоязычных документов являлось очень проблематичной, а в большинстве случаев и совершенно невыполнимой задачей.
Однак базового набору кодів стало швидко не вистачати. Зрослий дефіцит знакомест в стандартній таблиці ASCII зажадав її негайного розширення. В результаті виникла но-вая таблиця кодувань, що отримала назву "розширена таблиця ASCII", число знакомісць в якій зросла до 28 (256 знакомест). Ця таблиця отримала назву міжнародного стандартами-та IS 646, а восьмібітних код - Latin-1. У нього були додані в основному латинські букви зі штрихами і діакритичні символи. Незабаром з'явився новий стандарт IS 8859, в якому вводь-лось поняття "кодова сторінка", тобто набір з 256 символів для визначення мови або групи мов, тобто IS 8859-1 це Latin-1, IS 8859-2 включав слов'янські мови з латинським алфавітом (чеська, польська, вергерскій), IS 8859-3 включав турецька, мальтійський, есперанто, Галісія-ський мови, і т.д. Недоліком такого підходу є те, що програмне забезпечення має стежити за кодовими сторінками, змішувати мови при цьому неможливо, крім того і не були створені кодові сторінки японської та китайської мов.

Набір символів і кодований набір символів

Набір абстрактних символів називається набором символів. Набір за визначенням не має порядку, і, отже, ми не повинні приймати ніяких. Набір символів - це просто поняття, яке часто використовується і дуже корисно в дискусіях, для позначення, набору або сімейства символів. Приклади включають латинський набір символів, набір символів Деванагарі, набір японських символів, універсальний набір символів і т.д.

Більшість цих символів мають імена, але цього недостатньо, щоб ідентифікувати їх однозначно. Більш того, в світі машин все представлено як число; таким чином, кожному символу в наборі символів присвоюється число, щоб ідентифікувати його однозначно. Такий набір символів, де кожному персонажу присвоюється унікальний номер, називається кодованим набором символів; і унікальний номер, присвоєний символу, називається його символьним кодом. Набір кодованих символів не залежить від будь-якої платформи, операційної системи або програми.

У січні 1991 року виник консорціум UNICODE, метою якого є просування, розвиток і реалізація стандарту Unicode як міжнародної системи кодування для обміну інформацією, а також підтримання якості цього стандарту в майбутніх версіях.

Стандарт UNICODE 4.0 являє собою нову систему кодування символів, виводи-дімих на екран монітора або на принтер, що дозволяє закодувати 1 114 112 символів (в стандарті з прийнято називати code points). Більшість символів, що використовуються в основних мовах світу займають 65 536 code points, утворюючи Basic Multilingual Plane (BMP) (Основний Мно-гоязичний Рівень - мій переклад). Решта (понад мільйон) code points цілком достатньо для кодування всіх відомих символів, включаючи малопоширені мови і історичні знаки. Стандарт UNICODE підтримується трьома формами, 32-бітної (UTF-32), 16-бітної (UTF-16) і 8-бітної (UTF-8). Восьмібітного форма UTF-8 була розроблена для зручної совмес-тимость з ASCII-орієнтування системами кодування. Стандарт UNICODE сумісний з Міжнародним стандартом International Standard ISO / IEC 10646.
  Найбільш просто влаштована форма UTF-32. У ній кожен символ закодований за допомогою 32-бітного блоку. Завдяки цьому кожен символ UTF-32 володіє однозначним відповідністю між декодувати символом і блоком коду. Це форма має фіксовану довжину знакі-місця. Вона покриває всі кодове простір UNICODE - 0 ... 10FFFF16. Це гарантує пів-ву сумісність з UTF-16 і UTF-8. Форма UTF-32 є найбільш бажаною для більшості UNIX платформ.
  Стандарт UNICODE містить 96 382 символу, взятих їх світових шрифтів. Цих симво-лов більш ніж достатоно для спілкування на всіх відомих мовах світу, а також для написання класичних (історичних) шрифтів багатьох мов. UNICODE всключает в себе шрифти їв-ропейскіх алфавітів, середньо-азійський лист, направлений праворуч на ліво, шрифти Азії, і багато інших. Підмножина символів (code points) HUN включає 70 207 идеографических символів визначаються за національними і промисловим стандартам Китаю, Японії, Кореї, Тайвані, В'єтнаму і Сінгапуру. Більш того, UNICODE містить знаки пунктуації, математичного-ські символи, технічні символи, герметріческіе фотми і графічні позначки (dingbats), фо-генетичних знаки.

Кодування символів і декодування

Іменований алгоритм для прихованого символьного коду для послідовності блоків коду називається кодуванням символів, де блок коду являє собою блок біт, завжди представлений в кратних октетах. Іншими словами, кодування символів - це алгоритм перетворення символьного коду в октети.

Зверніть увагу, що символ, коли він закодований, може призводити до одного або декількох октетам в залежності від його символьного коду і використовуваного алгоритму кодування. Такий алгоритм кодування, який генерує змінну кількість октетів для різних кодів символів, називається схемою кодування змінної довжини. Алгоритми кодування, які завжди генерують фіксовану кількість октетів для різних кодів символів, називаються схемами кодування з фіксованою довжиною.

Система зчислення  - символічний метод запису чисел, подання чисел за допомогою письмових знаків.

Система зчислення:

§ дає уявлення безлічі чисел (цілих і / або речових);

§ дає кожному числу унікальну виставу (або, принаймні, стандартний вигляд);

§ відображає алгебраїчну і арифметичну структуру чисел.

Код символу може існувати тільки як частина кодованого набору символів. Алгоритм кодування повинен знати, що таке діапазон допустимих кодів символів, і які незаконні символи призначені для правильного кодування символьного коду. Отже, алгоритм кодування також завжди пов'язаний з кодованим набором символів.

В основному один кодований набір символів пов'язаний з одним алгоритмом кодування. Але такого жорсткого правила немає. Як згадувалося раніше, коли знак об'єднання є сусідами з незалежним символом, він має спорідненість, щоб об'єднатися з цим незалежним символом.

Системи числення поділяються на позиційні, непозиційної  і змішані.

Чим більше підставу системи числення, тим менша кількість розрядів (тобто записуються цифр) потрібний при запису числа в позиційних системах числення.