Вариант формы (Unicode) - Variant form (Unicode)

А вариантная форма это другой глиф для символа, закодированный в Unicode через механизм последовательности вариаций: последовательности в Unicode, которые состоят из базового символа, за которым следует селектор вариантов персонаж.

Вариант формы обычно имеет очень похожий внешний вид и значение, что и его основная форма. Механизм предназначен для вариантных форм, где, как правило, если вариантная форма недоступна, отображение основного символа не меняет смысла текста и может даже не быть заметным для многих читателей.

Unicode определяет два типа вариационных последовательностей:

  • Стандартизированные последовательности вариаций определено в StandardizedVariants.txt[1]
  • Последовательности идеографических вариаций определено в базе данных идеографических вариаций (IVD)[2][3]

Символы селектора вариации находятся в нескольких блоках Unicode:

Селекторы вариантов не требуются для арабских и латинских символов скорописи, где замена глифов может происходить в зависимости от контекста: глифы могут быть соединены вместе в зависимости от того, является ли символ начальным символом в слове, конечным символом, средним символом или изолированным персонаж. Эти типы замены глифов легко обрабатываются контекстом символа без какого-либо другого авторского ввода. Авторы также могут использовать специальные символы, такие как присоединяющиеся и не присоединяющиеся, для принудительного использования альтернативной формы глифа там, где он иначе не появился бы. Лигатуры - аналогичные случаи, когда глифы могут быть заменены простым включением или выключением лигатур как богатый текст атрибут.

При замене других глифов намерение автора может быть закодировано с текстом и не может быть определено контекстно. Так обстоит дело с символами / глифами, называемыми гайдзи, где разные глифы используются для одного и того же символа либо исторически, либо для идеограмм для фамилий. Это одна из серых областей при различении глифа и символа: если имя семейства немного отличается от символа идеограммы, от которого оно происходит, то это простой вариант глифа или вариант символа?

Замена символов также может происходить вне Unicode, например, с помощью OpenType Теги макета.[4]

Блоки со стандартизованными последовательностями вариаций

Начиная с Unicode 13.0, стандартизованные последовательности вариантов, специально предназначенные для представления эмодзи / текста, определены для основных символов в двадцати блоках:[1]

Другие стандартизованные вариационные последовательности формируются из следующих одиннадцати блоков с базовыми символами:[1]

Блоки с идеографическими вариациями последовательностей

По состоянию на 6 ноября 2020 г., последовательности идеографических вариантов определены для основных символов в восьми блоках:[2][3]

Смотрите также

Рекомендации

  1. ^ а б c «UCD: стандартизованные последовательности вариаций». Консорциум Unicode.
  2. ^ а б «База данных идеографических вариаций». Консорциум Unicode.
  3. ^ а б "UTS # 37, База данных идеографических вариаций Unicode". Консорциум Unicode.
  4. ^ «Теги языковой системы». Microsoft.