TRON (кодировка) - TRON (encoding) - Wikipedia
Язык (и) | Английский, китайский, японский, корейский |
---|---|
Сделано | Проект TRON |
Классификация | DBCS |
Преобразует / кодирует | JIS X 0208, JIS X 0212, JIS X 0213, ГБ 2312, KS X 1001, Big5, ГБ 18030, другие |
Код TRON это многобайтовый кодировка символов используется в Проект TRON. Это похоже на Unicode но не использует Unicode Ханьское объединение процесс: каждый персонаж из каждого CJK набор символов кодируется отдельно, включая архаичные и исторические эквиваленты современных символов. Это означает, что тексты на китайском, японском и корейском языках можно смешивать без какой-либо двусмысленности в отношении точной формы символов; однако это также означает, что многие[который? ] символы с эквивалентной семантикой будут кодироваться более одного раза, что усложняет некоторые операции.
TRON имеет место для 150 миллионов кодовых точек. Отдельные кодовые точки для китайского, корейского и японского вариантов более 70 000 символов хань в Unicode 4.1 (если это будет сочтено необходимым) потребуют более 200 000 кодовых точек в TRON. TRON включает символы, отличные от Han, из Unicode 2.0, но он не соответствует последним выпускам Unicode, поскольку Unicode выходит за рамки Базовая многоязычная плоскость и добавляет символы в существующие скрипты. Кодировка TRON была обновлена, чтобы включить другие недавние обновления кодовой страницы, такие как JIS X 0213.[1]
Шрифты для кодировки TRON доступны, но имеют ограничения для коммерческого использования.[2]
Структура
Каждый символ в коде TRON составляет два байта. Аналогично ISO / IEC 2022 кодировка символов TRON обрабатывает символы из нескольких наборов символов в рамках единой кодировки символов с помощью управляющих последовательностей, называемых кодами спецификатора языка, для переключения между плоскостями из 48 400 кодовых точек. Наборы символов, включенные в код TRON, включают существующие наборы символов, такие как JIS X 0208 и ГБ 2312, а также другие источники символов, такие как Дай Кан-Ва Дзитен, и некоторые скрипты, не включенные в другие кодировки, такие как Символы донгба.
Благодаря включению полных наборов символов в код TRON многие символы с эквивалентной семантикой кодируются несколько раз; например, все символы кандзи в GT Typeface получают свои собственные кодовые точки, несмотря на то, что многие из них перекрываются с другими наборами символов кандзи, которые уже включены, такими как JIS X 0208. Одним из таких примеров является символ 亜 (расположенный в Unicode в U + 4E9C), который появляется в области JIS X 0208 по адресу 1-3021, области GT Typeface по адресу 2-2464 и области Dai Kan-Wa Jiten по адресу 8-2373.
Коды управления
Байты в диапазоне от 0x00 до 0x20 и 0x7F зарезервированы для использования в управляющих кодах.
Коды символов
Персонажи в каждой плоскости разделены на четыре зоны. Каждая зона выделяется отдельно; например, в плоскости 1 символы JIS X 0208 находятся в зоне A, начиная с 0x2121, символы JIS X 0213 находятся как в зоне A, так и в зоне B, а символы GB 2312 находятся в зоне C, начиная с 0x2180.
Зона | Первый байт | Второй байт |
---|---|---|
Зона А | 0x21 - 0x7E | 0x21 - 0x7E |
Зона B | 0x80 - 0xFD | 0x21 - 0x7E |
Зона C | 0x21 - 0x7E | 0x80 - 0xFD |
Зона D | 0x80 - 0xFD | 0x80 - 0xFD |
Кодовые точки обозначаются как X-YYYY, где X - это номер плоскости в десятичном формате, а YYYY - это кодовая точка в шестнадцатеричном формате. В качестве альтернативы можно использовать нотацию 0xNNYYYY, где NN - второй байт кода спецификатора языка. Текстовый формат "& TNNYYYY;" может использоваться для обозначения кодовой точки TRON в тексте ASCII аналогично ссылки на числовые символы в HTML.
Коды спецификатора языка
Коды спецификатора языка имеют префикс 0xFE. Допустимые суффиксы: от 0x21 до 0x7E и от 0x80 до 0xFE, многие из которых нераспределены.
Специальные и escape-коды
Специальные коды имеют префикс 0xFF.
Самолеты
Ниже приведены плоскости, выделенные для использования в коде TRON, вместе с соответствующими кодами спецификаторов языка и описанием наборов символов, включенных в каждую плоскость.
Самолет | Код спецификатора языка | Описание |
---|---|---|
1 | FE 21 | JIS X 0208, JIS X 0212, JIS X 0213, ГБ 2312, KS X 1001 и Шрифт Брайля |
2 | FE 22 | Символы гарнитуры GT |
3 | FE 23 | Символы гарнитуры GT (продолжение) |
6 | FE 26 | Big5 |
8 | FE 28 | Дай Кан-Ва Дзитен символы |
9 | FE 29 | Дай Кан-Ва Дзитен продолжил: хентайгана и разные персонажи |
10 | FE 2A | Скрипты меньшинств (символы донгба) |
16 | FE 30 | Unicode 2.0 (за исключением CJK Unified и Hangul) |
17 | FE 31 | Unicode 2.0 (за исключением CJK Unified и Hangul) продолжение |
22 | FE 36 | ГБ 18030 |
23 | FE 37 | GB 18030 продолжение |
Самолеты с 11 по 15 изначально предназначались для хранения Модзикё набор символов, но споры привели к исключению самолетов. Все остальные самолеты до 31 в настоящее время зарезервированы для использования в будущем.
Смотрите также
внешняя ссылка
- TRON コ ー 系 体系 Система кодов Tron в документе спецификации BTRON
- TRON 文字 収録 セ ン タ ー Центр сбора персонажей Трон
- 超 漢字 Операционная система со стандартом BTRON
- GT 明朝 Шрифт Tron GT-Mincho
- Архив проекта ITRON
- Страница активного персонажа TRON
- Обработка китайских символов и кода TRON
Рекомендации
- ^ «Название T-Engine Forum было изменено на TRON Forum». T-engine.org. 2015-04-01. Получено 2018-09-16.
- ^ "T フ ォ ン ト プ ロ ジ ェ ク ト 利用 規定". Charcenter.t-engine.org. Получено 2018-09-16.