Персонаж (вычисление) - Character (computing)
В компьютер и машинные телекоммуникации терминология характер это единица Информация что примерно соответствует графема, графемоподобный блок, или символ, например, в алфавит или слоговое письмо в написано форма естественный язык.[1]
Примеры символов включают письма, числовые цифры, общие пунктуация знаки (такие как "." или "-") и пробел. В концепцию также входят управляющие символы, которые соответствуют не видимым символам, а инструкциям по форматированию или обработке текста. Примеры управляющих символов включают возврат каретки или вкладка, а также инструкции к принтеры или другие устройства, отображающие или иным образом обрабатывающие текст.
Персонажи обычно объединяются в струны.
Исторически термин характер также использовался для обозначения определенного количества смежных биты. Хотя обычно предполагается, что символ относится к 8 битам (один байт ) сегодня другие определения, например 4 бита[2] или 6 бит,[3][4] также использовались в прошлом.
Кодирование
Компьютеры и оборудование связи представляют персонажей с помощью кодировка символов который присваивает каждому персонажу что-то - целое число количество, представленное последовательностью цифры, как правило - это может быть хранится или переданы через сеть. Два примера обычных кодировок: ASCII и UTF-8 кодирование для Unicode. Хотя большинство кодировок символов отображают символы в числа и / или битовые последовательности, азбука Морзе вместо этого представляет символы, использующие серию электрических импульсов различной длины.
Терминология
Эта секция нужны дополнительные цитаты для проверка.Январь 2019) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Исторически термин характер широко используется профессионалами отрасли для обозначения закодированный символ, часто в соответствии с определением языка программирования или API. Точно так же набор символов широко используется для обозначения определенного набора символов, которые были отображены в определенные последовательности битов или числовые коды. Период, термин глиф используется для описания определенного внешнего вида персонажа. Многие компьютерные шрифты состоят из глифов, индексированных числовым кодом соответствующего символа.
С появлением и повсеместным принятием Unicode[5] и бит-агностик кодированные наборы символов,[требуется разъяснение ] персонаж все чаще рассматривается как единица Информация, независимо от какого-либо конкретного визуального проявления. В Международный стандарт ISO / IEC 10646 (Unicode) определяет характер, или абстрактный персонаж как «член набора элементов, используемых для организации, управления или представления данных». Определение Unicode дополняет это пояснительными примечаниями, которые, среди прочего, побуждают читателя различать символы, графемы и глифы. Такая дифференциация является примером более широкой темы разделение презентации и содержания.
Например, Письмо на иврите алеф ("א") математики часто используют для обозначения определенных видов бесконечность (ℵ), но он также используется в обычном еврейском тексте. В Юникоде эти два использования считаются разными символами и имеют два разных числовых идентификатора Юникода ("кодовые точки "), хотя они могут отображаться одинаково. И наоборот, Китайский логограмма для воды ("水") может иметь немного другой вид в Японский текстов, чем в китайских текстах, а местные шрифты может отражать это. Но, тем не менее, в Юникоде они считаются одним и тем же символом и имеют один и тот же код.
Стандарт Unicode также различает эти абстрактные символы и закодированные символы или закодированные символы которые были объединены с числовыми кодами, которые облегчают их представление в компьютерах.
Комбинирующий характер
В сочетание характера также обрабатывается Unicode. Например, Unicode выделяет кодовую точку каждому из
- 'я' (U + 0069),
- сочетание диэрезис (U + 0308) и
- «ï» (U + 00EF).
Это позволяет кодировать средний символ слова «наивный» либо как одиночный символ «ï», либо как комбинацию символов. 'я' с комбинированным диэрезисом: (U + 0069 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I + U + 0308 КОМБИНИРОВАННЫЙ ДИАРЕЗ); это также отображается как «ï».
Они считаются канонически эквивалентными по стандарту Unicode.
char
А char в Язык программирования C это тип данных размером ровно один байт,[6] который, в свою очередь, определяется как достаточно большой, чтобы содержать любой член «базового набора символов выполнения». Точное количество битов можно проверить через CHAR_BIT
макрос. Безусловно, наиболее распространенный размер - 8 бит, и стандарт POSIX требует это должно быть 8 бит.[7] В новых стандартах C char требуется держать UTF-8 кодовые единицы[6] для которого требуется минимальный размер 8 бит.
А Unicode кодовая точка требует 21 бит.[8] Это не поместится в char в большинстве систем, поэтому для некоторых из них используется более одного, как в кодировке с переменной длиной UTF-8 где каждая кодовая точка занимает от 1 до 4 байтов. Кроме того, для «символа» может потребоваться более одной кодовой точки (например, с объединение персонажей ), в зависимости от того, что подразумевается под словом «персонаж».
Тот факт, что символ исторически хранился в одном байте, привел к тому, что два термина («char» и «character») использовались взаимозаменяемо в большей части документации. Это часто сбивает с толку или вводит в заблуждение документацию, когда используются многобайтовые кодировки, такие как UTF-8, и приводит к неэффективным и неправильным реализациям функций манипулирования строками (например, вычислению «длины» строки как количества единиц кода, а не байтов). Современная документация POSIX пытается исправить это, определяя «символ» как последовательность из одного или нескольких байтов, представляющих один графический символ или управляющий код, и пытается использовать «байт» при обращении к данным типа char.[9][10] Однако он все еще содержит ошибки, такие как определение массива char как массив символов (а не байтовый массив).[11]
Юникод также может храниться в строках, состоящих из кодовых единиц, размер которых превышает char. Они называются "широкие персонажи ". Первоначальный тип C назывался wchar_t. Из-за того, что некоторые платформы определяют wchar_t как 16 бит и другие, определяющие его как 32 бита, последние версии добавили char16_t, char32_t. Даже тогда сохраняемые объекты могут не быть символами, например, переменной длины UTF-16 часто хранится в массивах char16_t.
На других языках также есть char тип. Некоторые, такие как C ++ используйте 8 бит, как C. Другие, такие как Ява использовать 16 бит для char для представления значений UTF-16.
Символ слова
Символ «слово» имеет особое значение в некоторых аспектах вычислений. «Символ слова» в ASCII обычно означает букву алфавита A – Z (верхний или нижний регистр), цифры от 0 до 9 и знак подчеркивания.[12][nb 1]
Это может зависеть от используемой локализации и кодировки. Например, $ и | не являются символами слов, в то время как «é» (по-французски), «æ» или «я» (по-русски) или «ά» (по-гречески) используются в таких словах, как fédération, Αγορά или Примечания.
Смотрите также
- Символьный литерал
- Персонаж (символ)
- Заполнить символ
- Комбинирующий характер
- Персонажи универсального набора символов
- Гомоглиф
Заметки
- ^ См. Также
[:слово:]
класс символов регулярного выражения.
использованная литература
- ^ «Определение ХАРАКТЕРА». www.merriam-webster.com. Получено 2018-04-01.
- ^ «Термины и сокращения». Руководство по программированию на языке ассемблера MCS-4 - Руководство по программированию микрокомпьютерной системы INTELLEC 4 (PDF) (Предварительная ред.). Санта-Клара, Калифорния, США: Корпорация Intel. Декабрь 1973 г., стр. V, 2–6. MCS-030-1273-1. В архиве (PDF) из оригинала 2020-03-01. Получено 2020-03-02.
[…] Немного - Наименьшая единица информации, которая может быть представлена. (Бит может находиться в одном из двух состояний I 0 или 1). […] Байт - Группа из 8 смежных битов, занимающих одну ячейку памяти. […] Символ - группа из 4 смежных битов данных. […]
(NB. Это Intel 4004 в руководстве используется термин характер ссылаясь на 4-битный а не 8-битный данные сущности. Intel перешла на более общий термин грызть для 4-битных сущностей в документации к последующему процессору 4040 уже в 1974 г.) - ^ Дрейфус, Филипп (1958). «Системное проектирование Гамма 60». Управление знаниями требований, Международный семинар, Лос-Анджелес. Нью-Йорк. С. 130–133. Дои:10.1109 / AFIPS.1958.32.
[…] Используется внутренний код данных: Количественные (числовые) данные кодируются в 4-битном десятичном коде; качественные (буквенно-цифровые) данные кодируются в 6-битном буквенно-цифровом коде. внутренний код инструкции означает, что инструкции закодированы в прямом двоичном коде.
Что касается длины внутренней информации, то информационный квант называется "катена, "и состоит из 24 битов, представляющих либо 6 десятичных цифр, либо 4 буквенно-цифровых символа. Этот квант должен содержать кратное 4 и 6 битам для представления целого числа десятичных или буквенно-цифровых символов. Было обнаружено, что 24 бита представляют собой хороший компромисс между минимальными 12 битами, которые привели бы к слишком низкому потоку передачи из параллельного считывающего ядра памяти, и 36 битами или более, которые были сочтены слишком большими квантами информации. Катена должна рассматриваться как эквивалент символа в переменной слово длины машин, но его нельзя так назвать, так как он может содержать несколько символов. Он последовательно передается в основную память и из нее.
Не желая называть «квант» словом или набор символов буквой (слово - это слово, а квант - это что-то еще), было создано новое слово, которое было названо «катена». Это английское слово существует в Вебстера хотя это не по-французски. Вебстер определяет слово «катена» как «связный ряд»; следовательно, 24-битный информационный элемент. Слово катена будет использоваться в дальнейшем.
Таким образом, внутренний код был определен. Каковы же коды внешних данных? Они зависят в первую очередь от задействованного устройства обработки информации. В Гамма 60 предназначен для обработки информации, относящейся к любой структуре с двоичным кодом. Таким образом, перфокарта с 80 столбцами считается 960-битным информационным элементом; 12 строк, умноженных на 80 столбцов, равняются 960 возможным ударам; хранится в виде точного изображения в 960 магнитных сердечниках основной памяти с двумя столбцами карты, занимающими одну катену. […] - ^ Блаау, Геррит Энн; Брукс младший, Фредерик Филлипс; Бухгольц, Вернер (1962), «4: Естественные единицы данных» (PDF), в Бухгольц, Вернер (ред.), Планирование компьютерной системы - Project Stretch, McGraw-Hill Book Company, Inc. / The Maple Press Company, Йорк, Пенсильвания, стр. 39–40, LCCN 61-10466, в архиве (PDF) из оригинала от 03.04.2017, получено 2017-04-03,
[…] Термины, используемые здесь для описания конструкции, обусловленной конструкцией машины, в дополнение к немного, перечислены ниже.
Байт обозначает группу битов, используемых для кодирования символа, или количество битов, передаваемых параллельно в блоки ввода-вывода и из них. Термин, отличный от характер используется здесь, потому что данный символ может быть представлен в разных приложениях более чем одним кодом, а разные коды могут использовать разное количество бит (т. е. разные размеры байтов). При передаче ввода-вывода группировка битов может быть совершенно произвольной и не иметь отношения к реальным символам. (Термин придуман из кусать, но переделан, чтобы избежать случайной мутации в немного.)
А слово состоит из количества битов данных, передаваемых параллельно из памяти или в память за один цикл памяти. Размер слова таким образом определяется как структурное свойство памяти. (Период, термин катена был придуман для этой цели дизайнерами Бык ГАММА 60 компьютер.)
Блокировать относится к количеству слов, переданных в или из блока ввода-вывода в ответ на одну команду ввода-вывода. Размер блока - это структурное свойство устройства ввода-вывода; это могло быть исправлено разработкой или оставлено для изменения программой. […] - ^ Дэвис, Марк (2008-05-05). «Переход на Unicode 5.1». Блог Google. Получено 2008-09-28.
- ^ а б «§1.7 Модель памяти C ++ / §5.3.3 Sizeof». ИСО / МЭК 14882: 2011.
- ^ "
" . pubs.opengroup.org. Получено 2018-04-01. - ^ «Глоссарий терминов Unicode - Code Point». Получено 2019-05-14.
- ^ «Определение символа POSIX».
- ^ "Ссылка на POSIX strlen".
- ^ «Определение массива символов в POSIX».
- ^ Гойвертс, янв. «Учебное пособие по регулярному выражению - классы символов или наборы символов». www.regular-expressions.info. Получено 2018-04-01.
внешние ссылки
- Персонажи: краткое введение от Информационного проекта Linux (LINFO)
- ISO / IEC TR 15285: 1998 обобщает модель символов ISO / IEC, уделяя особое внимание определениям терминологии и различению символов и глифов.