Компьютер обрабатывает информацию
представленную в числовой форме.
Для
представления текста его символы кодируются двоичными
числами.
При
вводе в ПК каждая буква кодируется, а при выводе (на экран
или печать) по этим числам строятся изображения букв.
Кодировка
символов
-
однозначное соответствие между набором
букв и
набором чисел.
Таблица символов
ASCII
Первоначально
для представления печатных символов
определили семиразрядные числа (состоящие из 7 двоичных цифр
и занимающие в памяти 7 бит). Это давало 128
(два
в седьмой степени = 128) чисел для
кодирования символов американского английского: 27
строчных букв, 27 прописных, 10 цифр, знаки пунктуации и
т.д.) Именно такой, 7-битной, является таблица символов
ASCII
(American standard code for information
interchange).
Символы
ASCII
являются материалом для
ASCII
art. |
Восьмибитные
кодировки
В
современных компьютерах минимально адресуемая единица памяти
— 8-битный байт, поэтому там используются 8-битные кодировки
символов.
8-битная
ASCII
позволяет закодировать 256 символов (два в восьмой степени).
Каждый символ кодируется 8 битами (8-разрядным двоичным
числом).
Windows 1251
- 8-битная кодировка
для операционных систем MS Windows.
Другие 8-разрядные кодировки:
LATIN-1
(OEM),
ISO 8859-5,
КОИ-8.
Было создано
множество разных 8-битных кодировок в связи с расширением круга поддерживаемых
языков. Возникли проблемы отображения документов в неправильной кодировке,
ограниченности набора символов, преобразования одной кодировки в другую,
дублирования шрифтов.
Было решено создать единую 16-битную кодировку для всех
языков. |
ЮНИКОД
UNICODE
(UNIversal
CODE) - стандарт
16-разрядного кодирования символов. В 16-разрядном UNICODE
можно закодировать 65 536 символов.
Стандарт
UNICODE
предложен в 1991 году некоммерческой
организацией «Консорциум Юникода» (Unicode® Consortium, Unicode Inc.), объединяющей крупнейшие IT-корпорации.
UNICODE включает практически все современные письменности, в
том числе:
|
-
арабскую,
-
армянскую,
-
бенгальскую,
-
бирманскую,
-
греческую,
-
грузинскую,
-
деванагари,
-
иврит,
-
кириллицу,
-
коптскую,
-
кхмерскую,
-
латинскую,
-
тамильскую,
-
хангыль,
-
китайское
письмо (Китай, Япония, Корея),
-
чероки,
-
эфиопскую,
-
японскую
(катакана, хирагана, кандзи).
|
***
В
декабре 2007
года
UNICODE
стал самой распространенной системой
кодирования символов в Интернете.
***
4
апреля 2008
года принята версия
UNICODE
5.1,
которая поддерживает более 100 000 символов.
***
После
индексации любых сайтов в поисковой системе
Google,
они перекодируются в
UFT-8.
|
|
С академическими целями
в
UNICODE
добавлены многие исторические письменности, в том
числе:
-
руны,
-
древнегреческая,
-
египетские
иероглифы,
-
клинопись,
-
письменность
майя,
-
этрусский
алфавит.
В
UNICODE
представлен широкий набор пиктограмм, математических
и музыкальных символов.
Стандарт
UNICODE
состоит из универсального набора символов
(UCS, Universal Character Set) и семейства кодировок (UTF, Unicode
Transformation Format):
UTF-8,
UTF-16
и
UTF-32.
UTF-8 — обеспечивает наилучшую совместимость со
старыми с8-битными кодировками.
UTF-8 изобретён 2
сентября 1992 года Кеном Томпсоном и Робом Пайком.
Ограничения UNICODE:
-
пока не реализовано
изображение «длинных» надстрочных символов, простирающихся над
несколькими буквами для церковнославянского
языка. -
многие символы из языков
с алфавитами на основе кириллицы не имеют монолитных форм, другие могут быть представлены набором базового символа с последующим диакритическим
знаком. -
не предусмотрено традиционное написание сверху вниз
для китайского,
корейского
и японского
языков -
китайские
иероглифы с разными начертаниями в китайском, японском (кандзи) и
корейском (ханчча) письме обозначаются одним и тем же символом.
29.01.2010
По данным Google доля кодировки
Unicode
в интернет-документах приблизилась к 50%.
Unicode
обогнал все другие кодировки в мае 2008 года. Тогда его доля
составляла около 25%, как и доли
ASCII- и западноевропейской кодировок. В 2001 году доля
ASCII-кодировки составляла около 55%.
Сейчас она снизилась до 20%. Доли
других популярных национальных кодировок, в том числе и
распространенной в России CP-1251 не превышают
5-10%. |
Беларуска-украінская
літара
і
Беларуская
"i" і лацiнская
"i" -
розныя літары.
У кадыроўцы Юнікод:
Галоўная прычына размежавання - неабходнасьць праграмнага
адрознення дзвюх літараў
для
сартавання,
пошуку,
перакладу.
Сартаванне |
слова Пінск ідзе пасьля
слова Петрыкаў; а калі спіс гарадоў будзе
сартаваць праграма, то нябачная замена
літары перанясе "Пiнск" перад Паставамі - бо
лацінскія літары ідуць
раней за кірылічныя |
Пошук |
пошук
па слову "Пiнск", ў якiм
"i" з лацiнскай
раскладкі не
знаходзіць нічога ў Картографе
(http://be.mahaniok.com/2009/08/google-mapmaker-google.html), хоць горад Пінск там, відавочна,
ёсць |
Пераклад |
сайт самай буйной
дзяржаўнай беларускамоўнай газэты "Звязда"
(zvyazda.minsk.by/)
выкарыстоўвае лацінскую "i" заміж
беларускай "i" ва ўсіх артыкулах
i пры перакладзе
(translate.google.com)
атрымліваецца "решили
показать болгарскому "Лiтаксу", что так с
гасцямi абыходзiцца нельзя" |
Гэтыя
дзве літары выглядаюць аднолькава
i нельга візуальна
заўважыць праблему.
Праверыць, якая менавіта "і" выкарыстаная
магчыма так:
-
скапіраваць
тэкст у праграму, якая не падтрымлівае Юнікод (Far
Manager),
-
пашукаць у
Google слова з "плюсікам" наперадзе, і параўнаць
вынік з правільным словам з "плюсікам" (гл. пошукі
па +мiнск (77900
вынікаў) і +мінск (2330000
вынікаў)).
Каб
уставіць літару "і",
калі ў вас няма беларускай раскладкі,
можна:
-
скапіраваць яе
адтуль, дзе яна дакладна
беларуская,
-
ці "уводзіць
праз код" так: уключыце Num Lock, затрымайце Alt, і
ўводзьце на бакавой клявіятуры 0178 ці 0179 (вялікая
і малая літары).
У рускай
мове ёсць літара "с", якая выглядае так жа, як лацінская
літара "c";
Пра тое, што iх
часта блытаюць - гл. пошук
па +моcква.
|
На рисунке справа
отображения слова
Информация
в исходной кодировке Кириллица
Windows 1251,
а также в кодировках:
-
Юниод (UTF-8)
-
Кириллица
(ISO)
-
Кириллица
(KOI-8)
-
Кириллица
(DOS)
|
|
|