Самолет (Юникод) - Plane (Unicode)
Эта статья нужны дополнительные цитаты для проверка.Июль 2016) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
в Unicode стандарт, а самолет является непрерывной группой 65 536 (216) кодовые точки. Всего имеется 17 плоскостей, обозначенных номерами от 0 до 16, что соответствует возможным значениям 00–10.16 первых двух позиций в шести позициях шестнадцатеричный формат (U +ччхххх). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами».[1] Последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи самолетам присвоены кодовые точки (символы), а пяти даны имена.
Лимит в 17 самолетов связан с UTF-16, который может кодировать 220 кодовые точки (16 плоскостей) как пары слова, плюс BMP одним словом.[2] UTF-8 был разработан с гораздо большим пределом 231 (2 147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 221 (2097152) кодовых точек (32 самолета) даже при текущем ограничении в 4 байты.[3]
На 17 самолетах можно разместить 1114 112 кодовых точек. Из них 2048 - суррогаты (используется для создания пар в UTF-16), 66 - это не персонажи, а 137 468 - зарезервировано для частного использования, оставив 974 530 человек для государственных нужд.
Самолеты подразделяются на Блоки Unicode, которые, в отличие от самолетов, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно нанесены на карту для большинства известных современных и древних систем письма.[4]
Обзор
Самолет | Выделенные кодовые точки[примечание 1] | Назначенные символы[заметка 2] |
---|---|---|
0 BMP | 65,472 | 55,503 |
1 SMP | 24,704 | 22,279 |
2 SIP | 60,912 | 60,866 |
3 СОВЕТ | 4,944 | 4,939 |
14 SSP | 368 | 337 |
15 СПУА-А | 65,536 | |
16 СПУА-Б | 65,536 | |
Итоги | 287,472 | 143,924 |
- ^ Кодовые баллы, присвоенные Блок Юникода.
- ^ Общее количество графических, форматных и управляющих символов (т. Е. Исключая символы частного использования, несимволы и суррогатные кодовые точки).
Базовая многоязычная плоскость
Первый самолет, самолет 0, то Базовая многоязычная плоскость (BMP) содержит символы почти всех современных языков, а также большое количество символы. Основная цель BMP - поддерживать унификацию предшествующих наборов символов, а также символов для письмо. Большинство назначенных кодовых точек в BMP используются для кодирования китайского, японского и корейского (CJK ) символы.
Высокий суррогат (U + D800 – U + DBFF) и низкий суррогатный (U + DC00 – U + DFFF) коды зарезервированы для кодирование не-BMP символов в UTF-16 используя пара из 16-кусочек коды: один высокий суррогат и один низкий суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.
65 472 из 65 536 кодовых точек в этой плоскости были выделены Блок Юникода, оставляя только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек в 2FE0..2FEF).
Начиная с Unicode 13.0[Обновить]БМП состоит из 163 блоков:
- Базовая латынь (Нижняя половина ИСО / МЭК 8859-1: ISO / IEC 646: 1991-IRV он же ASCII ) (0000–007F)
- Дополнение Latin-1 (Верхняя половина ИСО / МЭК 8859-1 ) (0080–00FF)
- Расширенная латиница-A (0100–017F)
- Расширенная латиница-B (0180–024F)
- Расширения IPA (0250–02AF)
- Буквы модификатора интервала (02B0–02FF)
- Комбинирование диакритических знаков (0300–036F)
- Греческий и коптский (0370–03FF)
- Кириллица (0400–04FF)
- Дополнение к кириллице (0500–052F)
- Армянский (0530–058F)
- арамейский Скрипты:
- иврит (0590–05FF)
- арабский (0600–06FF)
- Сирийский (0700–074F)
- Дополнение на арабском языке (0750–077F)
- Thaana (0780–07BF)
- N'Ko (07C0–07FF)
- Самаритянин (0800–083F)
- Мандайский (0840–085F)
- Сирийское дополнение (0860–086F)
- Арабский расширенный-A (08A0–08FF)
- Брахмический скрипты:
- Деванагари (0900–097F)
- Бенгальский (0980–09FF)
- Гурмукхи (0A00–0A7F)
- Гуджарати (0A80–0AFF)
- Ория (0B00–0B7F)
- Тамильский (0B80–0BFF)
- телугу (0C00–0C7F)
- Каннада (0C80–0CFF)
- Малаялам (0D00–0D7F)
- Сингальский (0D80–0DFF)
- Тайский (0E00–0E7F)
- Лаосский (0E80–0EFF)
- тибетский (0F00–0FFF)
- Мьянма (1000–109F)
- Грузинский (10A0–10FF)
- Хангыль джамо (1100–11FF)
- Эфиопский (1200–137F)
- Эфиопское дополнение (1380–139F)
- Чероки (13A0–13FF)
- Единая слоговая речь канадских аборигенов (1400–167F)
- Огам (1680–169F)
- Рунический (16A0–16FF)
- Филиппинский скрипты:
- Тагальский (1700–171F)
- Хануноо (1720–173F)
- Бухид (1740–175F)
- Tagbanwa (1760–177F)
- Кхмерский (1780–17FF)
- Монгольский (1800–18AF)
- Унифицированная слоговая речь канадских аборигенов расширенная (18B0–18FF)
- Лимбу (1900–194F)
- Тай скрипты:
- Тай Ле (1950–197F)
- Новый Тай Лю (1980–19DF)
- Кхмерские символы (19E0–19FF)
- Бугийский (1A00–1A1F)
- Тай Тхам (1A20–1AAF)
- Объединение диакритических знаков расширено (1AB0–1AFF)
- Балийский (1B00–1B7F)
- Суданский (1B80–1BBF)
- Батак (1BC0–1BFF)
- Лепча (1C00–1C4F)
- Ol Chiki (1C50–1C7F)
- Кириллица расширенная-C (1C80–1C8F)
- Грузинский расширенный (1C90–1CBF)
- Сунданская добавка (1CC0–1CCF)
- Ведические расширения (1CD0–1CFF)
- Латинские добавки:
- Фонетические расширения (1D00–1D7F)
- Дополнение к фонетическим расширениям (1D80–1DBF)
- Дополнение к комбинированным диакритическим знакам (1DC0–1DFF)
- Латинская расширенная дополнительная (1E00–1EFF)
- Греческий расширенный (1F00–1FFF)
- Символы:
- Общая пунктуация (2000–206F)
- Верхние и нижние индексы (2070–209F)
- Символы валюты (20A0–20CF)
- Комбинирование диакритических знаков для символов (20D0–20FF)
- Буквенные символы (2100–214F)
- Числовые формы (2150–218F)
- Стрелки (2190–21FF)
- Математические операторы (2200–22FF)
- Разное Техническое (2300–23FF)
- Контрольные изображения (2400–243F)
- Оптическое распознавание символов (2440–245F)
- Вложенные буквенно-цифровые символы (2460–24FF)
- Рисунок Коробки (2500–257F)
- Блочные элементы (2580–259F)
- Геометрические фигуры (25A0–25FF)
- Разные символы (2600–26FF)
- Дингбаты (2700–27BF)
- Разные математические символы-A (27C0–27EF)
- Дополнительные стрелки-A (27F0–27FF)
- Шаблоны Брайля (2800–28FF)
- Дополнительные стрелки-B (2900–297F)
- Разные математические символы-B (2980–29FF)
- Дополнительные математические операторы (2A00–2AFF)
- Разные символы и стрелки (2B00–2BFF)
- Глаголица (2C00–2C5F)
- Расширенная латиница-C (2C60–2C7F)
- Коптский (2C80–2CFF)
- Грузинская добавка (2D00–2D2F)
- Тифинаг (2D30–2D7F)
- Эфиопский расширенный (2D80–2DDF)
- Кириллица расширенная-A (2DE0–2DFF)
- Дополнительная пунктуация (2E00–2E7F)
- CJK скрипты и символы:
- Приложение CJK Radicals (2E80–2EFF)
- Kangxi Radicals (2F00–2FDF)
- Символы идеографического описания (2FF0–2FFF)
- Символы и знаки препинания CJK (3000–303F)
- Хирагана (3040–309F)
- Катакана (30A0–30FF)
- Бопомофо (3100–312F)
- Совместимость с хангыль Джамо (3130–318F)
- Канбун (3190–319F)
- Бопомофо расширенный (31A0–31BF)
- CJK инсульты (31C0–31EF)
- Фонетические расширения катаканы (31F0–31FF)
- Приложенные письма и месяцы CJK (3200–32FF)
- Совместимость с CJK (3300–33FF)
- Расширение унифицированных иероглифов CJK A (3400–4DBF)
- Символы гексаграммы Ицзин (4DC0–4DFF)
- Единые иероглифы CJK (4E00–9FFF)
- Yi слоги (A000 – A48F)
- Yi Radicals (A490 – A4CF)
- Лису (A4D0 – A4FF)
- Вай (A500 – A63F)
- Кириллица расширенная-B (A640 – A69F)
- Бамум (A6A0 – A6FF)
- Тональные буквы модификатора (A700 – A71F)
- Расширенная латиница-D (A720 – A7FF)
- Силоти Нагри (A800 – A82F)
- Общие индийские числовые формы (A830 – A83F)
- Phags-pa (A840 – A87F)
- Саураштра (A880 – A8DF)
- Деванагари расширенный (A8E0 – A8FF)
- Кая Ли (A900 – A92F)
- Rejang (A930 – A95F)
- Хангыль Джамо расширенный-А (A960 – A97F)
- Яванский (A980 – A9DF)
- Мьянма Extended-B (A9E0 – A9FF)
- Чам (AA00 – AA5F)
- Мьянма Extended-A (AA60 – AA7F)
- Тай Вьет (AA80 – AADF)
- Расширения Meetei Mayek (AAE0 – AAFF)
- Эфиопский язык Extended-A (AB00 – AB2F)
- Расширенная латиница-E (AB30 – AB6F)
- Дополнение Cherokee (AB70 – ABBF)
- Митей Майек (ABC0 – ABFF)
- Слоги хангыль (AC00 – D7AF)
- Хангыль Джамо расширенный-B (D7B0 – D7FF)
- Суррогаты:
- Высокие суррогаты (D800 – DB7F)
- Суррогаты с высоким уровнем частного использования (DB80 – DBFF)
- Низкие суррогаты (DC00 – DFFF)
- Зона частного использования (E000 – F8FF)
- Идеографы совместимости CJK (F900 – FAFF)
- Алфавитные формы представления (FB00 – FB4F)
- Формы представления на арабском языке-A (FB50 – FDFF)
- Селекторы вариаций (FE00 – FE0F)
- Вертикальные формы (FE10 – FE1F)
- Объединение половинок (FE20 – FE2F)
- Формы совместимости CJK (FE30 – FE4F)
- Варианты малой формы (FE50 – FE6F)
- Формы представления на арабском языке-B (FE70 – FEFF)
- Формы половинной и полной ширины (FF00 – FFEF)
- Специальные (FFF0 – FFFF)
Дополнительная многоязычная плоскость
Самолет 1, то Дополнительная многоязычная плоскость (SMP), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Скрипты включают Линейное письмо B, Египетские иероглифы, и клинопись скрипты. Он также включает орфографии английской реформы, такие как Шавиан и Deseret, и некоторые современные скрипты, например Осейдж, Варанг Сити, и Адлам. Символы и примечания включают исторические и современные нотные записи; математические буквы и цифры; сокращения; Эмодзи и другие пиктографические наборы; и игровые символы для играя в карты, Mah Jongg, и домино.
Начиная с Unicode 13.0[Обновить], SMP состоит из следующих 134 блоков:
- Архаический греческий и другие сценарии с написанием слева направо:
- Слоговое письмо линейного письма B (10000–1007F)
- Идеограммы линейного письма Б (10080–100FF)
- Эгейские числа (10100–1013F)
- Древнегреческие числа (10140–1018F)
- Древние символы (10190–101CF)
- Фестский диск (101D0–101FF)
- Ликийский (10280–1029F)
- Карийский (102A0–102DF)
- Коптские номера эпактов (102E0–102FF)
- Старый курсив (10300–1032F)
- Готика (10330–1034F)
- Старая Пермь (10350–1037F)
- Угаритский (10380–1039F)
- Древнеперсидский (103A0–103DF)
- Deseret (10400–1044F)
- Шавиан (10450–1047F)
- Османья (10480–104AF)
- Осейдж (104B0–104FF)
- Эльбасан (10500–1052F)
- Кавказский албанский (10530–1056F)
- Линейное письмо А (10600–1077F)
- Скрипты с написанием справа налево:
- Кипрская слоговая азбука (10800–1083F)
- Императорский арамейский (10840–1085F)
- Пальмирена (10860–1087F)
- Набатейский (10880–108AF)
- Хатран (108E0–108FF)
- Финикийский (10900–1091F)
- Лидийский (10920–1093F)
- Меройские иероглифы (10980–1099F)
- Меройский курсив (109A0–109FF)
- Kharoshthi (10A00–10A5F)
- Старый южноаравийский (10A60–10A7F)
- Старый северноаравийский (10A80–10A9F)
- Манихейский (10AC0–10AFF)
- Авестийский (10B00–10B3F)
- Письменный парфянский (10B40–10B5F)
- Пехлеви с надписью (10B60–10B7F)
- Псалтырь Пехлеви (10B80–10BAF)
- Древнетюркский (10C00–10C4F)
- Древневенгерский (10C80–10CFF)
- Ханифи Рохинджа (10D00–10D3F)
- Цифровые символы Руми (10E60–10E7F)
- Езиды (10E80–10EBF)
- Старый согдийский (10F00–10F2F)
- Согдийский (10F30–10F6F)
- Хорезмист (10FB0–10FDF)
- Elymaic (10FE0–10FFF)
- Брахмический скрипты:
- Брахми (11000–1107F)
- Kaithi (11080–110CF)
- Сора Сомпенг (110D0–110FF)
- Чакма (11100–1114F)
- Махаджани (11150–1117F)
- Шарада (11180–111DF)
- Сингальские архаические числа (111E0–111FF)
- Хойки (11200–1124F)
- Мултани (11280–112AF)
- Худавади (112B0–112FF)
- Гранта (11300–1137F)
- Newa (11400–1147F)
- Тирхута (11480–114DF)
- Сиддхам (11580–115FF)
- Моди (11600–1165F)
- Монгольское дополнение (11660–1167F)
- Такри (11680–116CF)
- Ахом (11700–1173F)
- Догра (11800–1184F)
- Варанг Сити (118A0–118FF)
- Дайвс Акуру (11900–1195F)
- Нандинагари (119A0–119FF)
- Площадь Занабазар (11A00–11A4F)
- Соёмбо (11A50–11AAF)
- Пау Чин Хау (11AC0–11AFF)
- Бхайкуки (11C00–11C6F)
- Марчен (11C70–11CBF)
- Масарам Гонди (11D00–11D5F)
- Гунджала Гонди (11D60–11DAF)
- Макасар (11EE0–11EFF)
- Дополнение Lisu (11FB0–11FBF)
- Тамильское дополнение (11FC0–11FFF)
- Клинопись (12000–123FF)
- Клинописные числа и знаки препинания (12400–1247F)
- Раннединастическая клинопись (12480–1254F)
- Египетские иероглифы (13000–1342F)
- Органы управления форматом египетских иероглифов (13430–1343F)
- Анатолийские иероглифы (14400–1467F)
- Бамум Дополнение (16800–16A3F)
- Mro (16A40–16A6F)
- Басса Вах (16AD0–16AFF)
- Пахау Хмонг (16B00–16B8F)
- Медефайдрин (16E40–16E9F)
- Мяо (16F00–16F9F)
- Идеографические символы и знаки препинания (16FE0–16FFF)
- Тангутский (17000–187FF)
- Тангутские компоненты (18800–18AFF)
- Киданьский маленький шрифт (18B00–18CFF)
- Тангутское дополнение (18D00–18D8F)
- Дополнение кана (1B000–1B0FF)
- Кана Расширенная-А (1B100–1B12F)
- Маленькое расширение Кана (1B130–1B16F)
- Нушу (1B170–1B2FF)
- Дуплоян (1BC00–1BC9F)
- Элементы управления сокращенным форматом (1BCA0–1BCAF)
- Дополнительные символы:
- Музыкальная нотация:
- Византийские музыкальные символы (1D000–1D0FF)
- Музыкальные символы (1D100–1D1FF)
- Древнегреческая музыкальная нотация (1D200–1D24F)
- Цифры майя (1D2E0–1D2FF)
- Математические символы:
- Символы Тай Сюань Цзин (1D300–1D35F)
- Счетные числа на стержнях (1D360–1D37F)
- Математические буквенно-цифровые символы (1D400–1D7FF)
- Знак Саттона (1D800–1DAAF)
- Музыкальная нотация:
- Дополнение к глаголице (1E000–1E02F)
- Nyiakeng Puachue Hmong (1E100–1E14F)
- Wancho (1E2C0–1E2FF)
- Менде Кикакуи (1E800–1E8DF)
- Адлам (1E900–1E95F)
- Индийские числа сияк (1EC70–1ECBF)
- Османские числа Siyaq (1ED00–1ED4F)
- Арабские математические алфавитные символы (1EE00–1EEFF)
- Игровые плитки и карты:
- Маджонг Плитки (1F000–1F02F)
- Домино Плитка (1F030–1F09F)
- Играя в карты (1F0A0–1F0FF)
- Прилагаемое буквенно-цифровое приложение (1F100–1F1FF)
- Прилагаемое идеографическое приложение (1F200–1F2FF)
- Разные символы и пиктограммы (1F300–1F5FF)
- Смайлики (1F600–1F64F)
- Декоративные дингбаты (1F650–1F67F)
- Транспортные и картографические символы (1F680–1F6FF)
- Алхимические символы (1F700–1F77F)
- Расширенные геометрические фигуры (1F780–1F7FF)
- Дополнительные стрелки-C (1F800–1F8FF)
- Дополнительные символы и пиктограммы (1F900–1F9FF)
- Шахматные символы (1FA00–1FA6F)
- Расширенные символы и пиктограммы-A (1FA70–1FAFF)
- Символы для устаревших вычислений (1FB00–1FBFF)
Дополнительная идеографическая плоскость
Самолет 2, то Дополнительная идеографическая плоскость (ГЛОТОК), используется для идеографов CJK, в основном Единые иероглифы CJK, которые не были включены в более ранние стандарты кодировки символов.
Начиная с Unicode 13.0[Обновить], SIP состоит из следующих шести блоков:
- Расширение B унифицированных иероглифов CJK (20000–2A6DF)
- Расширение унифицированных иероглифов CJK C (2A700–2B73F)
- Расширение унифицированных иероглифов CJK D (2B740–2B81F)
- Расширение унифицированных иероглифов CJK E (2B820–2CEAF)
- Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
- Приложение к идеографам совместимости CJK (2F800–2FA1F)
Третичная идеографическая плоскость
Самолет 3 это третичная идеографическая плоскость (TIP). Расширение унифицированных иероглифов CJK G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года.[5] Он также ориентировочно выделен на Сценарий Oracle Bone, Бронзовый сценарий, и Небольшой сценарий печати.[6]
Начиная с Unicode 13.0[Обновить], ТИП состоит из следующего блока:
- Расширение унифицированных иероглифов CJK G (30000–3134F)
Неназначенные самолеты
Самолеты с 4 по 13 (самолеты 4 к D в шестнадцатеричный ): Персонажи с 4 по 13 еще не назначены.
Дополнительный самолет специального назначения
Самолет 14 (E в шестнадцатеричной системе счисления) Дополнительный самолет специального назначения (SSP). состоящий из следующих двух блоков с Unicode 13.0[Обновить]:
- Теги (E0000 – E007F)
- Дополнение к селекторам вариаций (E0100 – E01EF) - используется для обозначения альтернативных глифов для символов.
Самолеты для частного использования
Два самолеты 15 и 16 (самолеты F и 10 в шестнадцатеричном формате), обозначаются как "Зоны частного использования ". Они содержат блоки, называемые Зона дополнительного частного использования-A (PUA-A) и -B (PUA-B), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.
Рекомендации
- ^ Глоссарий Консорциума Unicode - Дополнительные плоскости
- ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode. https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode. https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ^ Дорожные карты Unicode
- ^ Unicode, Inc. "Объявление о стандарте Unicode® версии 13.0".
- ^ «Предлагаемые новые персонажи: трубопровод». www.unicode.org.