Самолет (Юникод) - Plane (Unicode)

в Unicode стандарт, а самолет является непрерывной группой 65 536 (216) кодовые точки. Всего имеется 17 плоскостей, обозначенных номерами от 0 до 16, что соответствует возможным значениям 00–10.16 первых двух позиций в шести позициях шестнадцатеричный формат (U +ччхххх). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами».[1] Последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи самолетам присвоены кодовые точки (символы), а пяти даны имена.

Лимит в 17 самолетов связан с UTF-16, который может кодировать 220 кодовые точки (16 плоскостей) как пары слова, плюс BMP одним словом.[2] UTF-8 был разработан с гораздо большим пределом 231 (2 147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 221 (2097152) кодовых точек (32 самолета) даже при текущем ограничении в 4 байты.[3]

На 17 самолетах можно разместить 1114 112 кодовых точек. Из них 2048 - суррогаты (используется для создания пар в UTF-16), 66 - это не персонажи, а 137 468 - зарезервировано для частного использования, оставив 974 530 человек для государственных нужд.

Самолеты подразделяются на Блоки Unicode, которые, в отличие от самолетов, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно нанесены на карту для большинства известных современных и древних систем письма.[4]

Обзор

Назначенные символы в Unicode версии 13.0
СамолетВыделенные кодовые точки[примечание 1]Назначенные символы[заметка 2]
0 BMP65,47255,503
1 SMP24,70422,279
2 SIP60,91260,866
3 СОВЕТ4,9444,939
14 SSP368337
15 СПУА-А65,536
16 СПУА-Б65,536
Итоги287,472143,924
  1. ^ Кодовые баллы, присвоенные Блок Юникода.
  2. ^ Общее количество графических, форматных и управляющих символов (т. Е. Исключая символы частного использования, несимволы и суррогатные кодовые точки).

Базовая многоязычная плоскость

Карта базовой многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Первый самолет, самолет 0, то Базовая многоязычная плоскость (BMP) содержит символы почти всех современных языков, а также большое количество символы. Основная цель BMP - поддерживать унификацию предшествующих наборов символов, а также символов для письмо. Большинство назначенных кодовых точек в BMP используются для кодирования китайского, японского и корейского (CJK ) символы.

Высокий суррогат (U + D800 – U + DBFF) и низкий суррогатный (U + DC00 – U + DFFF) коды зарезервированы для кодирование не-BMP символов в UTF-16 используя пара из 16-кусочек коды: один высокий суррогат и один низкий суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.

65 472 из 65 536 кодовых точек в этой плоскости были выделены Блок Юникода, оставляя только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек в 2FE0..2FEF).

Начиная с Unicode 13.0БМП состоит из 163 блоков:

Дополнительная многоязычная плоскость

Карта дополнительной многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Самолет 1, то Дополнительная многоязычная плоскость (SMP), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Скрипты включают Линейное письмо B, Египетские иероглифы, и клинопись скрипты. Он также включает орфографии английской реформы, такие как Шавиан и Deseret, и некоторые современные скрипты, например Осейдж, Варанг Сити, и Адлам. Символы и примечания включают исторические и современные нотные записи; математические буквы и цифры; сокращения; Эмодзи и другие пиктографические наборы; и игровые символы для играя в карты, Mah Jongg, и домино.

Начиная с Unicode 13.0, SMP состоит из следующих 134 блоков:

Дополнительная идеографическая плоскость

Карта дополнительной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Самолет 2, то Дополнительная идеографическая плоскость (ГЛОТОК), используется для идеографов CJK, в основном Единые иероглифы CJK, которые не были включены в более ранние стандарты кодировки символов.

Начиная с Unicode 13.0, SIP состоит из следующих шести блоков:

Третичная идеографическая плоскость

Карта третичной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Самолет 3 это третичная идеографическая плоскость (TIP). Расширение унифицированных иероглифов CJK G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года.[5] Он также ориентировочно выделен на Сценарий Oracle Bone, Бронзовый сценарий, и Небольшой сценарий печати.[6]

Начиная с Unicode 13.0, ТИП состоит из следующего блока:

Неназначенные самолеты

Самолеты с 4 по 13 (самолеты 4 к D в шестнадцатеричный ): Персонажи с 4 по 13 еще не назначены.

Дополнительный самолет специального назначения

Карта дополнительного самолета специального назначения. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Самолет 14 (E в шестнадцатеричной системе счисления) Дополнительный самолет специального назначения (SSP). состоящий из следующих двух блоков с Unicode 13.0:

Самолеты для частного использования

Два самолеты 15 и 16 (самолеты F и 10 в шестнадцатеричном формате), обозначаются как "Зоны частного использования ". Они содержат блоки, называемые Зона дополнительного частного использования-A (PUA-A) и -B (PUA-B), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.

Рекомендации

  1. ^ Глоссарий Консорциума Unicode - Дополнительные плоскости
  2. ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode. https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode. https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. ^ Дорожные карты Unicode
  5. ^ Unicode, Inc. "Объявление о стандарте Unicode® версии 13.0".
  6. ^ «Предлагаемые новые персонажи: трубопровод». www.unicode.org.