Корейский язык и компьютеры - Korean language and computers
Система письма Корейский, Хангыль, представляет собой алфавит, организованный в блоки слоги; символы нельзя писать просто слева направо. Из-за этого все возможные слоги в корейском языке должны быть представлены как блоки слогов с помощью шрифт, или быть закодированный раздельно. Unicode использует последний вариант. Например, слог 하 (ha) состоит из символов ㅎ (h) и ㅏ (a), но все они кодируются отдельно.
Кодировки символов
В RFC 1557, метод, известный как ISO-2022-KR для 7-битной кодировки корейских символов в электронное письмо был описан. Если разрешено 8 бит, EUC-KR кодирование является предпочтительным. Эти две кодировки объединяют US-ASCII (ISO 646 ) с корейским стандартом KS X 1001:1992[1] (ранее назывался KS C 5601: 1987). В Северная Корея, отдельный набор символов называется КПС 9566 используется, что очень похоже на KS X 1001.
Международный Unicode стандарт содержит специальные символы для представления корейского языка на родном языке. хангыль фонетическая система. Unicode поддерживает два способа. Путь, используемый Майкрософт Виндоус должен иметь каждый из 11,172 комбинации слогов в виде кода и заранее сформированного шрифтового символа. Другой способ - закодировать буквы (Хамос ), и позволить программе объединить их в правильные комбинации, что не поддерживается в Windows. Конечно, первый способ требует больше памяти для шрифтов, но дает возможность получить более точные формы, поскольку сложно создать полностью стилистически правильные комбинации, которые могут быть предпочтительнее при создании документов.
Также есть возможность просто сложить (последовательность) медиальный (s) (Чжонсон) - а затем (последовательность) окончательный (s) (Чонсон) и / или Среднекорейский отметка поля, при необходимости - поверх (последовательности) исходный (s) (выбрал), если у шрифта есть медиальный и конечный Хамос с интервалом нулевой ширины, которые вставляются слева от курсора или каретки, таким образом появляясь в нужном месте ниже или справа от начальной буквы. Если в слоге есть горизонтальная медиальная (ㅗ, ㅛ, ㅜ, ㅠ или же ㅡ), начальная буква, вероятно, будет располагаться дальше слева в полном слоге, чем в случае предварительно сформированных слогов, из-за пространства, которое должно быть зарезервировано для вертикальной медиальной части, что придает эстетически плохой вид тому, что может быть единственным способом отображения среднего Текст корейского хангыля без использования изображений, латинизации, замены устаревшего хамо или нестандартных кодировок. Однако большинство современных шрифтов не поддерживают это.
В Unicode стандарт также попытался создать унифицированный CJK набор символов, который может представлять китайский (Ханзи ), а также японцы (Кандзи ) и корейский (Ханджа ) производные от этого скрипта через Ханьское объединение процесс, который не различает по языку или региону для отображения китайских иероглифов, пока различные типографские традиции не привели к серьезным различиям в том, как выглядит символ - см. Изображение: Xin-jiu-zixing.png для примеров персонажей, чей внешний вид недавно претерпел лишь незначительные изменения в материковом Китае. Объединение ханьцев было встречено некоторой критикой.
Ввод текста
На клавиатуре корейского компьютера текст обычно вводится простым нажатием клавиши для соответствующего Джамо; операционная система создает каждый составной символ на лету. В зависимости от IME и раскладка клавиатуры, двойные согласные можно вводить, удерживая кнопку Shift. Когда все хамо, составляющие слоговой блок, введены, пользователь может инициировать преобразование в ханджа или другие специальные символы с помощью сочетания клавиш или кнопки интерфейса; На южнокорейских клавиатурах для этого есть отдельная клавиша. Последующее полуавтоматическое преобразование ханджа в различной степени поддерживается текстовыми редакторами.
При использовании клавиатуры на другом языке большинство операционных систем требуют, чтобы пользователь набирал текст с использованием оригинальной корейской раскладки клавиатуры, наиболее распространенной из которых является 2 (ду) -беолсик. Это контрастирует с некоторыми другими языками, такими как японский, где текст можно вводить с использованием системы латинизации на неродных клавиатурах.
Не так, что большинство операционных систем, таких как Linux, позволяют двигатель / хангыль / хангыль-клавиатура = 'ро' , в результате получается клавиатура ромаджа, где при вводе «сонгье» получается 성계.[2] В этой конфигурации ㄲ получается с помощью "gg", а не shift-g. Это позволяет вводить «jasanGun» для получения 자산 군 вместо ввода «jasangun», которое давало бы 자 상운.
Ханджа
Помимо проблем с преобразованием, упомянутых выше, некоторые корейские шрифты изначально не включают ханджа. В то же время современные текстовые процессоры не позволяют пользователю указывать, какой шрифт использовать в качестве запасного варианта для любого ханджа, которое может встречаться в тексте. В этом случае каждая последовательность ханджа должна быть отформатирована вручную, чтобы она отображалась желаемым шрифтом.
Особые ситуации
Имея текст размещается вертикальными линиями плохо или не поддерживается HTML и большинством текстовых процессоров, хотя это не проблема для современного корейского языка, поскольку он обычно пишется горизонтально. Однако до второй половины 20 века корейский язык часто писали вертикально. Тексты 15-го века, написанные на хангыле, имели отметки высоты тона слева от слогов, которые включены в Unicode, хотя большинство современных шрифтов также не поддерживают их должным образом.
См. Раздел о кодировки символов выше для устаревшего хамо.
Программ
Известные программы, специально разработанные для использования на корейском языке, включают:
- Распознавание языка
- Северокорейский распознавание речи Программа, как говорят, распознает 100 000 слов и достигает более 90% успеха.[3]
- Mongnan (목란; KCC,[4] Северная Корея) - Программное обеспечение для оптического распознавания символов с предполагаемой вероятностью успеха 99% для печатного текста и 95% для распознавание почерка.[3]
- Редакторы методов ввода
- Тан'гун (단군; Информационный центр Пхеньяна, Северная Корея) - позволяет использовать хангыль в английских версиях Windows.[4]
- Редактор метода ввода Nalgaeset Hangul (날개 셋 한글 입력기); Kim Yongmook, Южная Корея) - метод ввода хангыль, специально разработанный для раскладки клавиатуры 3 (se) -beolsik (работает только в Microsoft Windows).
- Наби (나비), ами (아미; Южная Корея) - позволяет набирать хангыль на Linux.
- m17n - Позволяет использовать измененную латинизацию для ввода хангыль в Unix.
- SCIM и iBus - Позволяет набирать хангыль и ханджа на POSIX операционные системы, включая Linux и BSD.
- Текстовые процессоры - Все программы, перечисленные ниже, включают домашние шрифты хангыль, шрифты не хангыль и хангыль-ханья утилита преобразования.
- Хангыль (Haansoft, Южная Корея)
- Чангдук (창덕; ПИК,[4] Северная Корея) - эта популярная программа существует в MS-DOS версия разработана в апреле 1990 г. [1] и версия для Windows, разработанная в 1996 году.[5] Он включает своеобразный культ личности особенность, с помощью которой нажатие Ctrl+я или же Ctrl+J производит возвышающие титулы Ким Ир Сен и Ким Чен Ир, соответственно.[6]
Хангыль в Юникоде
Буквы хангыль подробно описаны в нескольких отдельных частях спецификации Unicode:
- Слоги хангыль (AC00 – D7A3)
- Хангыль джамо (1100–11FF)
- Совместимость с хангыль Джамо (3130–318F)
- Хангыль Джамо расширенный-А (A960 – A97F)
- Хангыль Джамо расширенный-B (D7B0 – D7FF)
Блок слогов хангыль
Предварительно составленные слоги хангыль в блоке слогов хангыль в Юникоде определяются алгоритмически с использованием следующей формулы:
- [(начальный) × 588 + (средний) × 28 + (конечный)] + 44032
- Начальные согласные
- Средние гласные
- Конечные согласные
Например, если кто-то хочет найти кодовую точку "한 "в Юникоде:
- Значение начальной согласной ㅎ равно 18.
- Значение средней гласной ㅏ равно 0.
- Значение последней согласной ㄴ равно 4.
Подставляя эти значения в формулу выше, получаем [(18 × 588) + (0 × 28) + 4] + 44032 = 54620. Это означает, что значение Unicode для of равно 54620 в десятичной системе, 한
посредством ссылка на числовой символ, и U + D55C в шестнадцатеричной нотации Unicode.
Совместимость с хангылем Jamo block
Совместимость с хангыль Джамо блок является частью Unicode, который был выделен для совместимости с KS X 1001 набор символов. Обычно он используется для обозначения какого-то хангыль-джамо само по себе, без различия исходный и окончательный.
Блоки хангыль-джамо
Хангыль джамо, Хангыль Джамо расширенный-А и Хангыль Джамо расширенный-B блоки содержат начальное джамо, медиальное джамо и последнее джамо, в том числе устаревшее джамо.
Код города Ханьян для частного использования
Хангыль (текстовый процессор) поставляется со шрифтами из Информация и коммуникация Hanyang. Их шрифты отображают устаревшие символы хангыль на Зона частного использования Юникода. Несмотря на использование Зоны частного использования вместо выделенных кодовых точек, отображение Hanyang было по состоянию на 2007 г.[Обновить] самый популярный способ изобразить устаревший хангыль в Южной Корее.
Начиная с хангыля 2010, Hancom устарел PUA-код Hanyang и решил представлять устаревшие символы хангыль с помощью хангыль джамо в Юникоде.
Смотрите также
- Японский язык и компьютеры
- Вьетнамский язык и компьютеры
- Список шрифтов CJK
- МакКьюн – Райшауэр
- Йельский романизация корейского языка
- Пересмотренная романизация
- Новая корейская орфография
Рекомендации
- ^ "KS X 1001: 1992" (PDF).
- ^ https://github.com/libhangul/ibus-hangul
- ^ а б 김치관 (2 декабря 2000 г.). 문답 으로 보는 북한 정보화 의 현주소. Tongilnews.com (на корейском). Получено 3 декабря, 2006.
- ^ а б c 김효석 (2 декабря 2000 г.). "<국회 자료집> 북한 S / W 현황 과 시연 자료". Tongilnews.com (на корейском). Получено 3 декабря, 2006.
- ^ Йонхап (7 января 1998 г.). 북한 의 컴퓨터 산업 어디 까지 왔나. Tongilnews.com (на корейском). Получено 3 декабря, 2006.[мертвая ссылка ]
- ^ «북한 용어 사전: 평양 정보 센터 (PIC)» (на корейском). Архивировано из оригинал 28 сентября 2007 г.. Получено 3 декабря, 2006.
внешняя ссылка
- Корейская виртуальная клавиатура онлайн
- Система ввода InputKing Online, онлайн-инструмент для набора корейского
- «Джамо в Юникоде» (PDF). (186 КБ)
- "Слоги хангыль" (PDF). (3,86 МБ)
- Хоффманн, Франк. «Корееведение: конвертер Unicode». koreanstudies.com., онлайн-инструмент для преобразования корейского текста в различные форматы кодирования и наоборот.