Текст в компьютере

 

 

Компьютер обрабатывает информацию представленную в числовой форме.

Для представления текста его символы кодируются двоичными числами.

При вводе в ПК каждая буква кодируется, а при выводе (на экран или печать) по этим числам строятся изображения букв.

Кодировка символов - однозначное соответствие  между набором букв и набором чисел.

 

 

 

Таблица символов ASCII

 

Первоначально для представления печатных символов определили семиразрядные числа (состоящие из 7 двоичных цифр и занимающие в памяти 7 бит). Это давало 128 (два в седьмой степени = 128) чисел для кодирования символов американского английского: 27 строчных букв, 27 прописных, 10 цифр, знаки пунктуации и т.д.) Именно такой, 7-битной, является таблица символов ASCII (American standard code for information interchange).

Символы ASCII являются материалом для ASCII art.

 

 

 

Восьмибитные кодировки

 

В современных компьютерах минимально адресуемая единица памяти — 8-битный байт, поэтому там используются 8-битные кодировки символов.

8-битная ASCII позволяет закодировать 256 символов (два в восьмой степени). Каждый символ кодируется 8 битами (8-разрядным двоичным числом).

Windows 1251 - 8-битная кодировка для операционных систем MS Windows.

Другие 8-разрядные кодировки: LATIN-1 (OEM), ISO 8859-5, КОИ-8.

Было создано множество разных 8-битных кодировок в связи с расширением круга поддерживаемых языков. Возникли проблемы отображения документов в неправильной кодировке, ограниченности набора символов, преобразования одной кодировки в другую, дублирования шрифтов.

Было решено создать единую 16-битную кодировку для всех языков.

 

 

 

ЮНИКОД

 

UNICODE (UNIversal CODE) - стандарт 16-разрядного кодирования символов. В 16-разрядном UNICODE можно закодировать 65 536 символов.

Стандарт UNICODE предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (Unicode® Consortium, Unicode Inc.), объединяющей крупнейшие IT-корпорации.

UNICODE включает практически все современные письменности, в том числе:

  • арабскую,

  • армянскую,

  • бенгальскую,

  • бирманскую,

  • греческую,

  • грузинскую,

  • деванагари,

  • иврит,

  • кириллицу,

  • коптскую,

  • кхмерскую,

  • латинскую,

  • тамильскую,

  • хангыль,

  • китайское письмо (Китай, Япония, Корея),

  • чероки,

  • эфиопскую,

  • японскую (катакана, хирагана, кандзи).

***

В декабре 2007 года UNICODE стал самой распространенной системой кодирования символов в Интернете.

***

4 апреля 2008 года  принята версия UNICODE 5.1, которая поддерживает более 100 000 символов.

***

После индексации любых сайтов в поисковой системе Google, они перекодируются в UFT-8.

С академическими целями в UNICODE добавлены многие исторические письменности, в том числе:

  • руны,

  • древнегреческая,

  • египетские иероглифы,

  • клинопись,

  • письменность майя,

  • этрусский алфавит.

В UNICODE  представлен широкий набор пиктограмм, математических и музыкальных символов.

 

Стандарт UNICODE состоит из универсального набора символов (UCS, Universal Character Set) и семейства кодировок (UTF, Unicode Transformation Format): UTF-8 UTF-16 и UTF-32.

UTF-8 — обеспечивает наилучшую совместимость со старыми с8-битными кодировками.

UTF-8 изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком.

 

Ограничения UNICODE:

  • пока не реализовано изображение «длинных» надстрочных символов, простирающихся над несколькими буквами для церковнославянского языка.

  • многие символы из языков с алфавитами на основе кириллицы не имеют монолитных форм, другие могут быть представлены набором базового символа с последующим диакритическим знаком.

  • не предусмотрено традиционное написание сверху вниз для китайского, корейского и японского языков

  • китайские иероглифы с разными начертаниями в китайском, японском (кандзи) и корейском (ханчча) письме  обозначаются одним и тем же символом.

29.01.2010 По данным  Google доля кодировки Unicode в интернет-документах приблизилась к 50%.

Unicode обогнал все другие кодировки в мае 2008 года. Тогда его доля составляла около 25%, как и доли ASCII- и западноевропейской кодировок. В 2001 году доля ASCII-кодировки составляла около 55%. Сейчас она снизилась до 20%. Доли других популярных национальных кодировок, в том числе и распространенной в России CP-1251 не превышают 5-10%. 

 

 

 

 

Беларуска-украінская літара і

 

Беларуская "i" і лацiнская "i" - розныя літары.

У кадыроўцы Юнікод:

  • беларуская "i" (афіцыйна - "беларуска-украінская") займае  пазыцыі U+0456 (малая) і U+0406 (вялікая);

  • лацінская "i" - займае пазыцыі U+0069 (малая) і U+0049 (вялікая).

Галоўная прычына размежавання - неабходнасьць праграмнага адрознення дзвюх літараў для сартавання, пошуку, перакладу.

 

Сартаванне

слова Пінск ідзе пасьля слова Петрыкаў; а калі спіс гарадоў будзе сартаваць праграма, то нябачная замена літары перанясе "Пiнск" перад Паставамі - бо лацінскія літары ідуць раней за кірылічныя

Пошук

пошук па слову "Пiнск", ў якiм "i" з лацiнскай раскладкі не знаходзіць нічога ў Картографе (http://be.mahaniok.com/2009/08/google-mapmaker-google.html), хоць горад Пінск там, відавочна, ёсць

Пераклад

сайт самай буйной дзяржаўнай беларускамоўнай газэты "Звязда" (zvyazda.minsk.by/) выкарыстоўвае лацінскую "i" заміж беларускай "i" ва ўсіх артыкулах i пры перакладзе (translate.google.com) атрымліваецца "решили показать болгарскому "Лiтаксу", что так с гасцямi абыходзiцца нельзя"

 

Гэтыя дзве літары выглядаюць аднолькава i нельга візуальна заўважыць праблему.


Праверыць, якая менавіта "
і" выкарыстаная магчыма так:

  • скапіраваць тэкст у праграму, якая не падтрымлівае Юнікод (Far Manager),

  • пашукаць у Google слова з "плюсікам" наперадзе, і параўнаць вынік з правільным словам з "плюсікам" (гл. пошукі па +мiнск (77900 вынікаў) і +мінск (2330000 вынікаў)).

Каб уставіць літару "і", калі ў вас няма беларускай раскладкі, можна:

  • скапіраваць яе адтуль, дзе яна дакладна беларуская,

  • ці "уводзіць праз код" так: уключыце Num Lock, затрымайце Alt, і ўводзьце на бакавой клявіятуры 0178 ці 0179 (вялікая і малая літары).
     

У рускай мове ёсць літара "с", якая выглядае так жа, як лацінская літара "c";
Пра тое, што iх часта блытаюць - гл. пошук па +моcква.

 

 

 

 

На рисунке справа  отображения слова Информация в исходной кодировке Кириллица Windows 1251, а также в кодировках:

  • Юниод (UTF-8)

  • Кириллица (ISO)

  • Кириллица (KOI-8)

  • Кириллица (DOS)