Специальные (блок Unicode) - Specials (Unicode block)

Специальные
Классифицировать	U + FFF0..U + FFFF; (16 кодовых точек)
Самолет	BMP
Скрипты	Общий
Назначенный	5 кодовых точек
Неиспользованный	9 зарезервированных кодовых точек ; 2 не символов
История версий Unicode
1.0.0	1 (+1)
2.1	2 (+1)
3.0	5 (+3)
	Примечание:

Специальные короткий Unicode блок выделяется в самом конце Базовая многоязычная плоскость, при U + FFF0 – FFFF. Из этих 16 кодовых точек пять были присвоены начиная с Unicode 3.0:

U + FFF9 МЕЖЛИНЕЙНЫЙ ЯКОРЬ АННОТАЦИИ, отмечает начало аннотированный текст
U + FFFA МЕЖЛИНЕЙНЫЙ СЕПАРАТОР АННОТАЦИЙ, отмечает начало аннотирующего символа (ов)
U + FFFB ТЕРМИНАТОР МЕЖЛИНЕЙНЫХ АННОТАЦИЙ, отмечает конец блока аннотации
U + FFFC ХАРАКТЕР ЗАМЕНЫ ОБЪЕКТА, заполнитель в тексте для другого неуказанного объекта, например, в составной документ.
U + FFFD � ЗАМЕНА ХАРАКТЕРА используется для замены неизвестного, нераспознанного или непредставимого персонажа
U + FFFE <noncharacter-FFFE> не персонаж.
U + FFFF <noncharacter-FFFF> не персонаж.

FFFE и FFFF не являются неназначенными в обычном смысле, но гарантировано, что это не символы Unicode. Их можно использовать, чтобы угадать схему кодировки текста, поскольку любой текст, содержащий их, по определению не является правильно закодированным текстом Unicode. Юникод U + FEFF МАРКА ЗАКАЗА БАЙТОВ может быть вставлен в начало текста Unicode, чтобы обозначить его порядок байтов: программа, читающая такой текст и обнаруживающая 0xFFFE, будет знать, что она должна изменить порядок байтов для всех следующих символов.

Его имя блока в Unicode 1.0 было Специальный.^[3]

Замещающий персонаж

Замещающий персонаж

В замещающий символ (часто черный ромб с белым вопросительным знаком или пустая квадратная рамка) - это символ, встречающийся в Unicode стандарт в кодовой точке U + FFFD в Специальные Таблица. Он используется для обозначения проблем, когда система не может преобразовать поток данных в правильный символ. Обычно это видно, когда данные недействительны и не соответствуют ни одному символу:

Рассмотрим текстовый файл, содержащий немецкое слово мех (что означает "для") в ISO-8859-1 кодировка (0x66 0xFC 0x72). Этот файл теперь открывается в текстовом редакторе, который предполагает, что ввод UTF-8. Первый и последний байт являются действительными кодировками UTF-8 ASCII, но средний байт (0xFC) не является допустимым байтом в UTF-8. Следовательно, текстовый редактор может заменить этот байт символом замены, чтобы получить допустимую строку Unicode. кодовые точки. Теперь вся строка выглядит так: «f r».

Плохо реализованный текстовый редактор может сохранить замену в форме UTF-8; тогда данные текстового файла будут выглядеть так: 0x66 0xEF 0xBF 0xBD 0x72, который будет отображаться в ISO-8859-1 как "fï¿½r" (это называется моджибаке ). Поскольку замена одинакова для всех ошибок, восстановить исходный символ невозможно. Лучше (но труднее реализовать) дизайн - сохранить исходные байты, включая ошибку, и преобразовать в замену только тогда, когда отображение текст. Это позволит текстовому редактору сохранить исходную последовательность байтов, по-прежнему показывая пользователю индикатор ошибки.

Когда-то заменяющий символ часто использовался, когда в шрифте для этого символа не было глифа. Однако большинство современных систем рендеринга текста вместо этого используют шрифт .notdef символ, который в большинстве случаев представляет собой пустое поле (или "?" в поле^[4]), иногда называемый "тофу "(в этом браузере отображается ). Для этого символа нет кода Unicode.

Таким образом, заменяющий символ теперь виден только для ошибок кодирования, таких как недопустимый UTF-8. Некоторое программное обеспечение пытается скрыть это, переводя байты недопустимого UTF-8 в совпадающие символы в Окна-1252 (поскольку это наиболее вероятный источник этих ошибок), поэтому символ замены никогда не отображается.

Диаграмма Unicode

Специальные^[1]^[2]^[3] Таблица кодов официального консорциума Unicode (PDF)
	0	1	2	3	4	5	6	7	8	9	А	B	C	D	E	F
U + FFFx										Я А	Я S	Я Т		�
Примечания 1.^ Начиная с версии Unicode 13.0 2.^ Серые области обозначают неназначенные кодовые точки 3.^ Черные области обозначают несимволы (кодовые точки, которые гарантированно никогда не будут назначены как закодированные символы в стандарте Unicode)

История

Следующие документы, связанные с Unicode, фиксируют цель и процесс определения определенных символов в блоке Specials:

Версия	Окончательный код^[а]	Считать	универсальное глобальное время Я БЫ	L2 Я БЫ	WG2 Я БЫ	Документ
1.0.0	U + FFFD	1				(быть определенным)
	U + FFFE..FFFF	2				(быть определенным)
				L2 / 01-295R		Мур, Лиза (2001-11-06), "Движение 88-М2", Протокол встречи UTC / L2 # 88
				L2 / 01-355	N2369 (HTML, док )	Дэвис, Марк (2001-09-26), Запрос на разрешение FFFF, FFFE в UTF-8 в тексте ISO / IEC 10646
				L2 / 02-154	N2403	Умамахесваран, В. С. (2002-04-22), "9.3 Разрешение FFFF и FFFE в UTF-8", Проект протокола заседания 41 РГ 2, отель Phoenix, Сингапур, 19 октября 2001 г.
2.1	U + FFFC	1	UTC / 1995-056			Сарджент, Мюррей (1995-12-06), Рекомендация кодировать символ WCH_EMBEDDING
			UTC / 1996-002			Алипранд, Жанна; Харт, Эдвин; Гринфилд, Стив (1996-03-05), «Встроенные объекты», UTC # 67 минут
					N1365	Сарджент, Мюррей (1996-03-18), Сводка предложения - символ замены объекта
					N1353	Umamaheswaran, V. S .; Ксар, Майк (1996-06-25), "8.14", Проект протокола заседания WG2 Копенгаген №30
				L2 / 97-288	N1603	Умамахесваран, В. С. (1997-10-24), "7.3", Неподтвержденный протокол заседания РГ 2, заседание № 33, Ираклион, Крит, Греция, 20 июня - 4 июля 1997 г.
				L2 / 98-004R	N1681	Текст ISO 10646 - AMD 18 для регистрации PDAM и бюллетеня FPDAM, 1997-12-22
				L2 / 98-070		Алипранд, Жанна; Винклер, Арнольд, «Дополнительные комментарии к 2.1», Протокол совместной встречи UTC и L2 встречи в Купертино, 25-27 февраля 1998 г.
				L2 / 98-318	N1894	Пересмотренный текст 10646-1 / FPDAM 18, ПОПРАВКА 18: Символы и прочее, 1998-10-22
3.0	U + FFF9..FFFB	3		L2 / 97-255R		Алипранд, Джоан (1997-12-03), "Предложение 3.D по встроенной нотации (рубин)", Утвержденный протокол - совместное заседание UTC № 73 и L2 № 170, Пало-Альто, Калифорния - 4-5 августа 1997 г.
				L2 / 98-055		Фрейтаг, Асмус (22 февраля 1998 г.), Поддержка реализации встроенных и подстрочных аннотаций
				L2 / 98-070		Алипранд, Жанна; Винклер, Арнольд, «3.C.5. Поддержка реализации встроенных и подстрочных аннотаций», Протокол совместной встречи UTC и L2 встречи в Купертино, 25-27 февраля 1998 г.
				L2 / 98-099	N1727	Фрейтаг, Асмус (1998-03-18), Поддержка внедрения подстрочных аннотаций, используемых в восточноазиатской типографике
				L2 / 98-158		Алипранд, Жанна; Винклер, Арнольд (1998-05-26), «Встроенные и подстрочные аннотации», Проект протокола - совместное заседание подгруппы L2 # 173 UTC № 76 и NCITS, Тредифрин, Пенсильвания, 20-22 апреля 1998 г.
				L2 / 98-286	N1703	Umamaheswaran, V. S .; Ксар, Майк (1998-07-02), "8.14", Неподтвержденный протокол собрания, РГ 2, заседание № 34, Редмонд, Вашингтон, США; 1998-03-16-20
				L2 / 98-270		Хиура, Хидеки; Кобаяши, Тацуо (1998-07-29), Предложение к предложению встроенной и подстрочной аннотации
				L2 / 98-281R (pdf, html )		Алипранд, Джоан (1998-07-31), "Встроенная и подстрочная аннотация (III.C.1.c)", Неподтвержденные протоколы - СОВМЕСТНОЕ ВСТРЕЧА UTC № 77 и NCITS L2 № 174, Редмонд, Вашингтон, 29-31 июля 1998 г.
				L2 / 98-363	N1861	Сато, Т. К. (1 сентября 1998 г.), Рубиновые маркеры
				L2 / 98-372	N1884R2 (pdf, док )	Уистлер, Кен; и другие. (1998-09-22), Дополнительные символы для ПСК
				L2 / 98-416	N1882.zip	Поддержка реализации подстрочных аннотаций, 1998-09-23
				L2 / 98-329	N1920	Комбинированный бюллетень регистрации и рассмотрения PDAM на WD для ISO / IEC 10646-1 / Amd. 30, ПОПРАВКА 30: Дополнительные латинские и другие символы, 1998-10-28
				L2 / 98-421R		Suignard, Мишель; Хиура, Хидеки (1998-12-04), Примечания относительно знаков подстрочной аннотации PDAM 30
				L2 / 99-010	N1903 (pdf, html, док )	Умамахесваран, В. С. (1998-12-30), "8.2.15", Протокол заседания РГ 2 № 35, Лондон, Великобритания; 1998-09-21-25
				L2 / 98-419 (pdf, док )		Алипранд, Джоан (1999-02-05), "Подстрочные символы аннотации", Утвержденный протокол - совместное заседание подгруппы L2 # 175 UTC и NCITS, Сан-Хосе, Калифорния - 1-4 декабря 1998 г.
			UTC / 1999-021			Дюрст, Мартин; Босак, Джон (1999-06-08), Оператор W3C XML CG для символов аннотации
				L2 / 99-176R		Мур, Лиза (1999-11-04), "Заявление о взаимодействии с W3C по аннотационным персонажам", Протокол совместного заседания UTC / L2 в Сиэтле 8-10 июня 1999 г.
				L2 / 01-301		Уистлер, Кен (2001-08-01), "E. Обозначено как" настоятельно не рекомендуется "для обмена открытым текстом", Анализ устаревания символов в стандарте Unicode
^ Предлагаемые кодовые точки и имена символов могут отличаться от окончательных кодовых точек и имен.

Смотрите также

Управляющие символы Unicode

Специальные (блок Unicode) - Specials (Unicode block)

Содержание

Замещающий персонаж

Диаграмма Unicode

История

Смотрите также

Рекомендации

Специальные
Классифицировать	U + FFF0..U + FFFF (16 кодовых точек)
Самолет	BMP
Скрипты	Общий
Назначенный	5 кодовых точек
Неиспользованный	9 зарезервированных кодовых точек 2 не символов
История версий Unicode

1.0.0	1 (+1)
2.1	2 (+1)
3.0	5 (+3)

Примечание: ^[1]^[2]