КОИ-8
КОИ-8 (код обмена информацией, 8 бит), KOI8 — восьмибитовая кодовая страница, совместимая с ASCII. Разработана для кодирования букв кириллических алфавитов. Была широко распространена как основная русская кодировка в Unix-совместимых ОС и в электронной почте, однако ближе к 2010 году, с распространением Юникода, постепенно выходит из употребления — см. Кодировочные войны в Рунете.
Существует также семибитовая версия кодировки, не полностью совместимая с ASCII — КОИ-7. КОИ-7 и КОИ-8 описаны в ныне не действующем ГОСТ 19768-74.
Разработчики КОИ-8 поместили символы русского алфавита в верхней части кодовой таблицы таким образом, что позиции символов кириллицы соответствуют их фонетическим аналогам в английском алфавите из нижней части таблицы. Это означает, что если в тексте, написанном в КОИ-8, для каждого символа убрать по одному биту слева, то получится относительно читаемый текст, подобный транслиту. Например, слова «Русский Текст» превратятся в «rUSSKIJ tEKST». Из‑за этого символы кириллицы расположены не в алфавитном порядке (см. «Хрюй вербепц»).
Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов, расширяющих определённые коды (общий диапазон 192—255 с 32 русскими буквами в двух регистрах остаётся неизменным во всех вариантах). Русский алфавит описывается в кодировке KOI8-R, украинский — в KOI8-U, таджикский — в KOI8-T.
В 1990-х годах KOI8-R стал фактически стандартом для кодирования русской кириллицы в UNIX-подобных операционных системах и электронной почте. Автор стандарта RFC данной кодировки (RFC 1489) Андрей Чернов в начале 1990-х годов работал в компании Демос и непосредственно участвовал в запуске и наладке первого интернет-канала между Россией и западными странами.
Адепты КОИ-8 утверждают, что она стала первой русской стандартизированной кодировкой в интернете. Данное утверждение имеет, в большей степени, религиозное, чем практическое значение и фактически не точно. Если говорить именно о практической стороне, то КОИ-8 действительно активно применялась на начальных этапах существования русскоязычного интернета, в том числе в network news релкомовской иерархии и сетевой почте, в основном передававшейся по UUCP.
Впрочем, практическое значение у данной заявки всё-таки было, но несколько неожиданное. В тот период, когда Релком и Демос являлись почти монополистами по транзиту UUCP-почты в "большой интернет", попытки протолкнуть использование КОИ-8 в Интернет со стороны сторонников её применения, по мере увеличения числа пользователей сети, работавших под управлением MS-DOS и Windows начали носить истерический характер, приведя, в итоге к скандалу между рядом пользователей Демос и Релком и администрациями этих сетей.
IETF утвердил несколько RFC по вариантам кодировки KOI-8:
- RFC 1489 — KOI8-R (буквы русского алфавита);
- RFC 2319 — KOI8-U (буквы украинского алфавита);
- RFC 1345 — ISO-IR-111 (с ошибкой в определении основного диапазона).
IANA зарегистрировала кодировки в своём списке.
Стандарт RFC 1489 предписывает наличие графических символов «рамок» (псевдографики), однако, это требование выполняется довольно редко.
В Microsoft Windows KOI8-R присвоен код страницы 20866, KOI8-U — 21866.
Начало таблицы кодировки (латиница) полностью соответствует кодировке ASCII.
В приведённых таблицах числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.
Кодировка KOI8-R (русская)[править | править код]
Другие варианты[править | править код]
Показаны только не совпадающие строки таблиц, поскольку всё остальное совпадает.
Кодировка KOI8-U (русско-украинская)[править | править код]
Кодировка KOI8-RU (русско-белорусско-украинская)[править | править код]
Кодировка KOI8-C (Центральная Азия)[править | править код]
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. | ғ 493 |
җ 497 |
қ 49B |
ҝ 49D |
ң 4A3 |
ү 4AF |
ұ 4B1 |
ҳ 4B3 |
ҷ 4B7 |
ҹ 4B9 |
һ 4BB |
▀ 2580 |
ә 4D9 |
ӣ 4E3 |
ө 4E9 |
ӯ 4EF |
9. | Ғ 492 |
Җ 496 |
Қ 49A |
Ҝ 49C |
Ң 4A2 |
Ү 4AE |
Ұ 4B0 |
Ҳ 4B2 |
Ҷ 4B6 |
Ҹ 4B8 |
Һ 4BA |
⌡ 2321 |
Ә 4D8 |
Ӣ 4E2 |
Ө 4E8 |
Ӯ 4EE |
A. | A0 |
ђ 452 |
ѓ 453 |
ё 451 |
є 454 |
ѕ 455 |
і 456 |
ї 457 |
ј 458 |
љ 459 |
њ 45A |
ћ 45B |
ќ 45C |
ґ 491 |
ў 45E |
џ 45F |
B. | № 2116 |
Ђ 402 |
Ѓ 403 |
Ё 401 |
Є 404 |
Ѕ 405 |
І 406 |
Ї 407 |
Ј 408 |
Љ 409 |
Њ 40A |
Ћ 40B |
Ќ 40C |
Ґ 490 |
Ў 40E |
Џ 40F |
Кодировка KOI8-T (таджикская)[править | править код]
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. | қ 49B |
ғ 493 |
‚ 201A |
Ғ 492 |
„ 201E |
… 2026 |
† 2020 |
‡ 2021 |
‰ 2030 |
ҳ 4B3 |
‹ 2039 |
Ҳ 4B2 |
ҷ 4B7 |
Ҷ 4B6 |
||
9. | Қ 49A |
‘ 2018 |
’ 2019 |
“ 201C |
” 201D |
• 2022 |
– 2013 |
— 2014 |
™ 2122 |
› 203A |
||||||
A. | ӯ 4EF |
Ӯ 4EE |
ё 451 |
¤ A4 |
ӣ 4E3 |
¦ A6 |
§ A7 |
« AB |
¬ AC |
AD |
® AE |
|||||
B. | ° B0 |
± B1 |
² B2 |
Ё 401 |
Ӣ 4E2 |
¶ B6 |
· B7 |
№ 2116 |
» BB |
© A9 |
Кодировка KOI8-O, KOI8-S (славянская, старая орфография)[править | править код]
0407Кодировка ISO-IR-111, KOI8-E[править | править код]
Кодировка KOI8-Unified, KOI8-F[править | править код]
Кодировка KOI8-Unified (KOI8-F) предложена компанией «Fingertip Software»[1].
Кодировка KOI8-M[править | править код]
Кодировка KOI8-M представляла собой смесь кодировок KOI8-R и Alt (Альтернативная кодировка CP866 согласно ГОСТ 19768-87).
Некириллические варианты КОИ-8[править | править код]
В некоторых странах СЭВ были созданы модификации КОИ-8 для национальных вариантов латиницы. Базовая идея была та же самая — при «срезании» восьмого бита текст должен оставаться более или менее понятным.
Примечания[править | править код]
- ↑ KOI8 Unified // Fingertip Software site