Лучшие вопросы
Таймлайн
Чат
Перспективы

Кириллица в Юникоде

Из Википедии, свободной энциклопедии

Remove ads

Начиная с версии Юникода 15.0 для кириллицы выделено шесть блоков:

Подробнее название, диапазон кодов (hex) ...

Эти 6 разделов занимают в кодовом пространстве Юникода 544 позиции, из которых 40 пока свободны (не определены). Кроме того, в нижеприведённую большую таблицу включены 5 символов, не входящих в эти 6 разделов (см. «Разное»).

Символы можно разделить на 7 групп:

  1. U+0400 — U+045F — буквы славянских алфавитов из кодировки ISO 8859-5, но перемещённые вверх на 864 позиции (36016).
  2. U+0460 — U+0489 — исторические буквы и символы из старославянского (церковнославянского) алфавита.
  3. U+048A — U+052F — дополнительные буквы для разных языков, использующих кириллицу.
  4. U+1C80 — U+1C8F — старые формы представления кириллических букв.
  5. U+2DE0 — U+2DFF — церковнославянские буквотитлы.
  6. U+A640 — U+A67F — дополнительные буквы и символы для церковнославянского языка.
  7. U+A680 — U+A69F — дополнительные буквы для старой абхазской орфографии.
  8. U+1E030 — U+1E08F — над- и подстрочные буквы-модификаторы.
Remove ads

Проблемы и особенности использования

  • Не регламентируется использование одновременно современных и исторических начертаний в одном тексте. К примеру, несмотря на присутствующую возможность указания варианта начертания символов (variation selectors), для кириллических символов используемые варианты стандартом не определены.
  • Не реализована возможность использования надстрочных символов, простирающихся над несколькими буквами, что требуется в церковнославянском языке.
  • Существует неоднозначность по отношению к кодированию некоторых букв: например, «Й» может быть закодирована как единый символ U+0419 либо как комбинация «И» U+0418 и диакритического знака U+0306. Для приведения таких символов текста к единообразию стандарт определяет формы нормализации текста.
  • Для части букв некоторых языков с алфавитом на основе кириллицы не существует отдельных монолитных знаков, только диакритические комбинации, например, р̆, а̄.
  • Для указания ударения следует использовать акут (U+0301) после соответствующего символа (ы́ э́ ю́ я́).
  • Наличие разных начертаний одних и тех же букв в разных языках иногда приводит к некорректному виду текста: например русский и сербский языки используют разное начертание курсивных букв, например п и т в сербском выглядят как и и ш.
  • Буквы Ё и ё расположены отдельно от остальных букв русского алфавита. Из этого следует, например, необходимость явного указания этих букв в тех местах, где остальные буквы можно упомянуть просто диапазоном (например, в регулярных выражениях).
Remove ads

Компактная таблица

Вся кириллица в Юникоде (версия 16.0)
 0123456789ABCDEF
U+040x Ѐ Ё Ђ Ѓ Є Ѕ І Ї Ј Љ Њ Ћ Ќ Ѝ Ў Џ
U+041x А Б В Г Д Е Ж З И Й К Л М Н О П
U+042x Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
U+043x а б в г д е ж з и й к л м н о п
U+044x р с т у ф х ц ч ш щ ъ ы ь э ю я
U+045x ѐ ё ђ ѓ є ѕ і ї ј љ њ ћ ќ ѝ ў џ
U+046x Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ Ѭ ѭ Ѯ ѯ
U+047x Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ Ѽ ѽ Ѿ ѿ
U+048x Ҁ ҁ ҂ ҃ ҄ ҅ ҆ ҇ ҈ ҉ Ҋ ҋ Ҍ ҍ Ҏ ҏ
U+049x Ґ ґ Ғ ғ Ҕ ҕ Җ җ Ҙ ҙ Қ қ Ҝ ҝ Ҟ ҟ
U+04Ax Ҡ ҡ Ң ң Ҥ ҥ Ҧ ҧ Ҩ ҩ Ҫ ҫ Ҭ ҭ Ү ү
U+04Bx Ұ ұ Ҳ ҳ Ҵ ҵ Ҷ ҷ Ҹ ҹ Һ һ Ҽ ҽ Ҿ ҿ
U+04Cx Ӏ Ӂ ӂ Ӄ ӄ Ӆ ӆ Ӈ ӈ Ӊ ӊ Ӌ ӌ Ӎ ӎ ӏ
U+04Dx Ӑ ӑ Ӓ ӓ Ӕ ӕ Ӗ ӗ Ә ә Ӛ ӛ Ӝ ӝ Ӟ ӟ
U+04Ex Ӡ ӡ Ӣ ӣ Ӥ ӥ Ӧ ӧ Ө ө Ӫ ӫ Ӭ ӭ Ӯ ӯ
U+04Fx Ӱ ӱ Ӳ ӳ Ӵ ӵ Ӷ ӷ Ӹ ӹ Ӻ ӻ Ӽ ӽ Ӿ ӿ
U+050x Ԁ ԁ Ԃ ԃ Ԅ ԅ Ԇ ԇ Ԉ ԉ Ԋ ԋ Ԍ ԍ Ԏ ԏ
U+051x Ԑ ԑ Ԓ ԓ Ԕ ԕ Ԗ ԗ Ԙ ԙ Ԛ ԛ Ԝ ԝ Ԟ ԟ
U+052x Ԡ ԡ Ԣ ԣ Ԥ ԥ Ԧ ԧ Ԩ ԩ Ԫ ԫ Ԭ ԭ Ԯ ԯ
U+1C8x
U+1D2x
U+1D7x
U+20Dx
U+2DEx
U+2DFx ⷿ
U+A64x
U+A65x
U+A66x
U+A67x
U+A68x
U+A69x
U+FE2x
U+1E03x 𞀰 𞀱 𞀲 𞀳 𞀴 𞀵 𞀶 𞀷 𞀸 𞀹 𞀺 𞀻 𞀼 𞀽 𞀾 𞀿
U+1E04x 𞁀 𞁁 𞁂 𞁃 𞁄 𞁅 𞁆 𞁇 𞁈 𞁉 𞁊 𞁋 𞁌 𞁍 𞁎 𞁏
U+1E05x 𞁐 𞁑 𞁒 𞁓 𞁔 𞁕 𞁖 𞁗 𞁘 𞁙 𞁚 𞁛 𞁜 𞁝 𞁞 𞁟
U+1E06x 𞁠 𞁡 𞁢 𞁣 𞁤 𞁥 𞁦 𞁧 𞁨 𞁩 𞁪 𞁫 𞁬 𞁭
U+1E07x
U+1E08x 𞂏
     — позиции некириллических символов
     — зарезервированные кодовые позиции
Remove ads

Символы кириллицы в версии Юникода 9.0

Суммиров вкратце
Перспектива
Краткие факты

В нижеприведённой таблице строчные буквы упорядочены в порядке возрастания их юникодовских номеров (за исключением Ё, поставленной на своём алфавитном месте, и украинской Ґ, перемещённой в конец блока дополнительных знаков для современных славянских языков). Прописные буквы стоят непосредственно перед соответствующими строчными буквами.

Колонка «КР» означает «каноническое разложение» — если ячейка в этом столбце не пуста, то символ можно представить в виде сочетания базового символа и диакритического знака.

Колонка «ВЮ» означает версию Юникода, в которой впервые появился данный символ (самой ранней версией считается 1.1, а не 1.0)[1].

Английские названия символов, написанные заглавными буквами (колонка «название») являются частью стандарта Юникода. Названия на других языках, включая русский и прочие языки на кириллической основе, в стандарте Юникода не прописаны. При этом для многих символов официальных названий на русском языке нет, а некоторые другие символы имеют разные названия в разных кириллических языках (например, «Ъ» в русском алфавите называется «Твёрдый знак», в церковнославянском — «Еръ», а в болгарском — «Ер голям»).

Всего в таблицу включено 429 символов.

Подробнее код, символ ...
Remove ads

См. также

Примечания

Ссылки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads