Объединение Grapheme Joiner - Combining Grapheme Joiner

В объединение графема (CGJ), U + 034F ͏ ОБЪЕДИНЕНИЕ GRAPHEME JOINER (HTML͏) это Unicode символ, который не имеет видимого глифа и "по умолчанию игнорируется" приложениями. Его название неправильное и не описывает его функцию: персонаж не присоединяется к графемам.[1] Его цель - семантически отдельный персонажи, которые должны нет считать диграфы а также заблокировать каноническое изменение порядка объединение знаков в течение нормализация.

Например, в Венгерский язык контекст, соседние буквы c и s обычно считается эквивалентным cs орграф. Если они разделены CGJ, они будут рассматриваться как две отдельные графемы. Однако в отличие от соединитель нулевой ширины и подобных символов, CGJ не влияет на то, являются ли две буквы оказано отдельно или в виде лигатуры или курсивного соединения - поведение по умолчанию для этого определяется шрифтом.[2]

CGJ также необходим для сложные скрипты. Например, в большинстве случаев иврит кантилляция акцент метег должен появиться слева от гласная и по умолчанию большинство систем отображения будут отображать это так, даже если оно напечатано перед гласной. Но в некоторых словах в Библейский иврит метег появляется справа от гласной, и чтобы указать механизму отображения, чтобы он правильно отображал его справа, необходимо ввести CGJ между метегом и гласной. Сравнивать:

онה
патха (гласная)ַ
метегֽ
он + патх + метегהַֽ
он + метег + патахהַֽ
он + метег + CGJ + pathahהֽ͏ַ

В случае нескольких последовательных сочетание диакритических знаков, промежуточный CGJ указывает, что они не должны подвергаться каноническому изменению порядка.[2]

Напротив, "не соединяющийся с нулевой шириной "при U + 200C в Общая пунктуация диапазон, который предотвращает превращение двух соседних символов в лигатуру.

Рекомендации

  1. ^ «UTN # 27: Известные аномалии в именах символов Юникода».
  2. ^ а б «Стандартная версия Unicode 6.0 - основная спецификация» (PDF). www.unicode.org. Получено 2020-04-16.

внешняя ссылка