DBCS - DBCS

А двухбайтовый набор символов (DBCS) это кодировка символов в котором либо все символы (включая управляющие символы ) кодируются двумя байтами или просто каждые графический персонаж не может быть представлен сопровождающим однобайтовый набор символов (SBCS ) кодируется двумя байты (Ханьские персонажи обычно содержит большинство этих двухбайтовых символов). DBCS поддерживает национальные языки, содержащие множество уникальных символов или символов (максимальное количество символов, которое может быть представлено одним байтом, составляет 256 символов, а два байта могут представлять до 65,536 символы). Примеры таких языков включают японский и китайский. Корейский Хангыль не содержит столько символов, но KS X 1001 поддерживает как хангыль, так и Ханджа, и использует два байта на символ.

В вычислениях CJK (китайский / японский / корейский)

Период, термин DBCS традиционно относится к кодировке символов, при которой каждый графический символ кодируется двумя байтами.

В 8-битном коде, например Большой-5 или же Shift JIS, символ из DBCS представлен ведущим (первым) байтом с старший бит установлен (т.е.больше семи бит) и соединен с однобайтовым набором символов (SBCS). По практической причине обеспечения совместимости с неизмененным, стандартным программным обеспечением SBCS ассоциируется с символы половинной ширины и DBCS с полноширинные символы. В 7-битном коде, например ISO-2022-JP, escape-последовательности или же коды смен используются для переключения между SBCS и DBCS.

Иногда использование термина «DBCS» может подразумевать базовую структуру, которая не соответствует ISO 2022. Например, "DBCS" иногда может означать двухбайтовую кодировку, которая специально не Расширенный код Unix (EUC).

Это первоначальное значение DBCS отличается от того, что некоторые считают правильным использованием сегодня. Некоторые настаивают на том, чтобы эти кодировки символов правильно назывались многобайтовые наборы символов (MBCS) или кодировки переменной ширины, потому что кодировки символов, такие как EUC-JP, EUC-KR, EUC-TW, GB18030, и UTF-8 используйте более двух байтов для одних символов, и они поддерживают один байт для других символов.

Двусмысленность

Некоторые люди используют DBCS для обозначения UTF-16 и UTF-8 кодировок, в то время как другие люди используют термин DBCS для обозначения более старых (доUnicode ) кодировки символов, в которых для каждого символа используется более одного байта. Shift JIS, GB2312 и Big5 это несколько кодировок символов, которые могут содержать более одного байта на символ, но даже использование термина DBCS для этих кодировок символов является неправильной терминологией, потому что эти кодировки символов действительно кодировки переменной ширины. Немного IBM мэйнфреймы действительно имеют настоящие кодовые страницы DBCS, которые содержат только двухбайтовую часть многобайтовой кодовой страницы.

Если человек использует термин «поддержка DBCS» для программного обеспечения интернационализация, они используют неоднозначную терминологию. Они либо имеют в виду, что хотят писать программное обеспечение для Восточная Азия рынки, использующие старую технологию с кодовыми страницами, или планируют использовать Unicode. Иногда этот термин также подразумевает перевод на восточноазиатский язык. Обычно «включение Unicode» означает интернационализацию программного обеспечения с использованием Unicode, а «включение DBCS» означает использование несовместимых кодировок символов, которые существуют между различными странами Восточной Азии для интернационализации программного обеспечения. Поскольку Unicode, в отличие от многих других кодировок символов, поддерживает все основные языки в Восточной Азии, обычно проще включать и поддерживать программное обеспечение, использующее Unicode. Включение DBCS (не-Unicode) обычно требуется только тогда, когда более старые операционные системы или приложения не поддерживают Unicode.

TBCS

Трехбайтовый набор символов (TBCS) - это кодировка символов, в которой символы (включая управляющие символы) кодируются тремя байтами.

Смотрите также

внешняя ссылка