Комбинирующий характер - Combining character

Кириллица Y в сочетании с бреве дает ў.

В цифровая типографика, объединение персонажей находятся символы которые предназначены для изменения других символов. Чаще всего в латинском алфавите сочетаются символы объединение диакритические знаки (включая сочетание акцентов).

Unicode также содержит много заранее составленные символы, так что во многих случаях можно использовать как комбинацию диакритических знаков, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к необходимости выполнения Юникод нормализация перед сравнением двух строк Unicode и тщательно спроектировать конвертеры кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных.[1]

В Юникоде основной блок совмещения диакритических знаков для европейских языков и Международный фонетический алфавит это U + 0300 – U + 036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Юникоде диакритические знаки всегда добавляются после главного символа (в отличие от некоторых старых наборов комбинированных символов, таких как ANSEL ), и можно добавить несколько диакритических знаков к одному и тому же символу, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут плохо их отображать.

Диапазоны Unicode

Следующие блоки предназначены специально для комбинирования символов:

  • Объединение диакритических знаков (0300–036F), начиная с версии 1.0, с изменениями в последующих версиях до 4.1.
  • Расширенное объединение диакритических знаков (1AB0–1AFF), версия 7.0
  • Дополнение по комбинированным диакритическим знакам (1DC0–1DFF), версии с 4.1 по 5.2
  • Объединение диакритических знаков для символов (20D0–20FF), начиная с версии 1.0, с модификациями в последующих версиях до 5.1
  • Комбинированные полуметки (FE20 – FE2F), версии 1.0, с модификациями в последующих версиях до 8.0

Комбинирование символов не ограничивается этими блоками; например, комбинирование дакутэн (U + 3099) и комбинируя Handakuten (U + 309A) находятся в Блок Хирагана, то Деванагари Блок содержит комбинированные знаки гласных и другие знаки для использования с этим скриптом и так далее. Комбинированным символам присваивается Основная категория Unicode «М» («Марка»).

Комбинирование диакритических знаков[1]
Таблица кодов официального консорциума Unicode (PDF)
 0123456789АBCDEF
U + 030x◌̀◌́◌̂◌̃◌̄◌̅◌̆◌̇◌̈◌̉◌̊◌̋◌̌◌̍◌̎◌̏
U + 031x◌̐◌̑◌̒◌̓◌̔◌̕◌̖◌̗◌̘◌̙◌̚◌̛◌̜◌̝◌̞◌̟
U + 032x◌̠◌̡◌̢◌̣◌̤◌̥◌̦◌̧◌̨◌̩◌̪◌̫◌̬◌̭◌̮◌̯
U + 033x◌̰◌̱◌̲◌̳◌̴◌̵◌̶◌̷◌̸◌̹◌̺◌̻◌̼◌̽◌̾◌̿
U + 034x◌̀◌́◌͂◌̓◌̈́◌ͅ◌͆◌͇◌͈◌͉◌͊◌͋◌͌◌͍◌͎ CGJ
U + 035x◌͐◌͑◌͒◌͓◌͔◌͕◌͖◌͗◌͘◌͙◌͚◌͛◌͜◌͝◌͞◌͟
U + 036x◌͠◌͡◌͢◌ͣ◌ͤ◌ͥ◌ͦ◌ͧ◌ͨ◌ͩ◌ͪ◌ͫ◌ͬ◌ͭ◌ͮ◌ͯ
Примечания
1.^ Начиная с версии Unicode 13.0

Кодовые точки U + 032A и U + 0346–034A являются IPA символы:

Кодовые точки U + 034B – 034E являются диакритическими знаками IPA для нарушение речи:

  • U + 034B◌͋: побег из носа
  • U + 034C◌͌: небно-глоточное трение
  • U + 034D◌͍: губное распространение
  • U + 034E◌͎: свистящая артикуляция

U + 034F - это "объединение графема "(CGJ) и не имеет видимого глифа.

Кодовые точки U + 035C – 0362 являются двойные диакритические знаки, диакритические знаки размещены поперек двух букв.

Кодовые точки U + 0363–036F - это средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, появляющиеся в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до XIX века. Например, U + 0364 - это е написано над предыдущей буквой, чтобы использоваться для (Рано ) Новый верхненемецкий умляут обозначения, такие как u для современного немецкого ü.

Объединение диакритических знаков расширено[1][2]
Таблица кодов официального консорциума Unicode (PDF)
 0123456789АBCDEF
U + 1ABx◌᪰◌᪱◌᪲◌᪳◌᪴◌᪵◌᪶◌᪷◌᪸◌᪹◌᪺◌᪻◌᪼◌᪽◌᪾◌ᪿ
U + 1ACx◌ᫀ
U + 1ADx
U + 1AEx
U + 1AFx
Примечания
1.^ Начиная с версии Unicode 13.0
2.^ Серые области обозначают неназначенные кодовые точки
Дополнение для комбинирования диакритических знаков[1][2]
Таблица кодов официального консорциума Unicode (PDF)
 0123456789АBCDEF
U + 1DCx◌᷀◌᷁◌᷂◌᷃◌᷄◌᷅◌᷆◌᷇◌᷈◌᷉◌᷊◌᷋◌᷌◌᷍◌᷎◌᷏
U + 1DDx◌᷐◌᷑◌᷒◌ᷓ◌ᷔ◌ᷕ◌ᷖ◌ᷗ◌ᷘ◌ᷙ◌ᷚ◌ᷛ◌ᷜ◌ᷝ◌ᷞ◌ᷟ
U + 1DEx◌ᷠ◌ᷡ◌ᷢ◌ᷣ◌ᷤ◌ᷥ◌ᷦ◌ᷧ◌ᷨ◌ᷩ◌ᷪ◌ᷫ◌ᷬ◌ᷭ◌ᷮ◌ᷯ
U + 1DFx◌ᷰ◌ᷱ◌ᷲ◌ᷳ◌ᷴ◌᷵◌᷶◌᷷◌᷸◌᷹◌᷻◌᷼◌᷽◌᷾◌᷿
Примечания
1.^ Начиная с версии Unicode 13.0
2.^ Серая область указывает неназначенную кодовую точку
Комбинирование диакритических знаков для символов[1][2]
Таблица кодов официального консорциума Unicode (PDF)
 0123456789АBCDEF
U + 20Dx◌⃐◌⃑◌⃒◌⃓◌⃔◌⃕◌⃖◌⃗◌⃘◌⃙◌⃚◌⃛◌⃜◌⃝◌⃞◌⃟
U + 20Ex◌⃠◌⃡◌⃢◌⃣◌⃤◌⃥◌⃦◌⃧◌⃨◌⃩◌⃪◌⃫◌⃬◌⃭◌⃮◌⃯
U + 20Fx◌⃰
Примечания
1.^ Начиная с версии Unicode 13.0
2.^ Серые области обозначают неназначенные кодовые точки
Объединение половинок[1]
Таблица кодов официального консорциума Unicode (PDF)
 0123456789АBCDEF
U + FE2x◌︠◌︡◌︢◌︣◌︤◌︥◌︦◌︧◌︨◌︩◌︪◌︫◌︬◌︭◌︮◌︯
Примечания
1.^ Начиная с версии Unicode 13.0

OpenType

OpenType имеет ccmp "тег функции" для определения глифов, которые представляют собой композиции или декомпозиции, включающие комбинирование символов, отметка тег, чтобы определить положение комбинируемых символов на базовом глифе, и мкМк для позиционирования совмещения символов друг с другом.

Текст Zalgo

Текст Zalgo.

Комбинирование символов использовалось для создания так называемых "Текст Zalgo"- текст, который выглядит" поврежденным "или" жутким "из-за чрезмерного использования диакритических знаков. В результате текст растягивается по вертикали, перекрывая другой текст.[2]

Смотрите также

Примечания

  1. ^ Например, при преобразовании между окна-1258 и VISCII, в первом случае используется сочетание диакритических знаков, а во втором - большой выбор предварительно составленных символов, поэтому преобразователь, использующий простое сопоставление между кодовыми значениями и кодовыми точками Unicode, будет повреждать текст при преобразовании между ними.
  2. ^ Корпела, Юкка К. "Как работает текст Zalgo?". Переполнение стека. Получено 11 апреля 2019.

внешняя ссылка