ISO 639-3 - ISO 639-3
ISO 639-3: 2007, Коды для представления названий языков - Часть 3: Код Alpha-3 для всестороннего охвата языков, это международный стандарт для языковые коды в ISO 639 серии. Он определяет трехбуквенные коды для идентификации языков. Стандарт был опубликован Международная организация по стандартизации (ISO) 1 февраля 2007 г.[1]
ISO 639-3 расширяет ISO 639-2 альфа-3 коды с целью охватить все известные естественные языки. Расширенный языковой охват был основан прежде всего на языковых кодах, используемых в Этнолог (тома 10-14) опубликовано SIL International, который сейчас регистрирующий орган для ISO 639-3.[2] Он обеспечивает максимально полное перечисление языков, включая живые и вымершие, древние и искусственно созданные, основные и второстепенные, письменные и ненаписанные.[1] Однако он не включает реконструированные языки Такие как Протоиндоевропейский.[3]
ISO 639-3 предназначен для использования в качестве метаданные коды в широком спектре приложений. Он широко используется в компьютерных и информационных системах, таких как Интернет, в которых требуется поддержка многих языков. В архивах и других хранилищах информации он используется в системах каталогизации, указывая, на каком языке находится ресурс. Коды также часто используются в лингвистической литературе и в других местах, чтобы компенсировать тот факт, что названия языков могут быть неясными или двусмысленными.
Найдите язык |
---|
Введите код ISO 639-3, чтобы найти статью на соответствующем языке. |
Коды языков
ISO 639-3 включает все языки в ISO 639-1 и все отдельные языки в ISO 639-2. ISO 639-1 и ISO 639-2 ориентированы на основные языки, наиболее часто представленные в общей части мировой литературы. Поскольку ISO 639-2 также включает языковые коллекции, а Часть 3 - нет, ISO 639-3 не является расширенным набором ISO 639-2. Где B и T коды существуют в ISO 639-2, ISO 639-3 использует T-коды.
Язык | 639-1 | 639-2 (Б / Т) | 639-3 тип | 639-3 код |
---|---|---|---|---|
английский | en | eng | индивидуальный | eng |
Немецкий | де | гер / деу | индивидуальный | deu |
арабский | ар | ара | макрос | ара |
индивидуальный | вилка + другие | |||
Китайский | ж | чи / чжо[4][5] | макрос | жо |
Мандарин | индивидуальный | cmn | ||
Кантонский | индивидуальный | юэ | ||
Миннан | индивидуальный | нан |
По состоянию на 30 января 2020 г.[Обновить], стандарт содержит 7 868 записей.[6] Перечень языков основан на ряде источников, включая: отдельные языки, содержащиеся в 639-2, современные языки из Этнолог, исторические разновидности, древние языки и искусственные языки от Список лингвистов,[7] а также языки, рекомендованные в рамках ежегодного периода общественного обсуждения.
Машиночитаемые данные файлы предоставляются регистрирующим органом.[6] Сопоставления из ISO 639-1 или ISO 639-2 в ISO 639-3 могут быть выполнены с использованием этих файлов данных.
ИСО 639-3 предполагает различия, основанные на критериях, которые не являются полностью субъективными.[8] Он не предназначен для документирования или предоставления идентификаторов диалектов или других вариантов подязыков.[9] Тем не менее, суждения относительно различий между языками могут быть субъективными, особенно в случае языковых разновидностей без устоявшихся литературных традиций, использования в образовании или СМИ или других факторов, способствующих стандартизации языка. Следовательно, стандарт не следует рассматривать как авторитетное заявление о том, какие различные языки существуют в мире (в отношении чего могут быть существенные разногласия в некоторых случаях), а скорее как один полезный способ точного определения различных языковых разновидностей.
Кодовое пространство
Поскольку код состоит из трех букв алфавита, верхняя граница количества языков, которые могут быть представлены, составляет 26 × 26 × 26 = 17 576. Поскольку ISO 639-2 определяет специальные коды (4), зарезервированный диапазон (520) и коды B-only (22), 546 кодов нельзя использовать в части 3. Следовательно, более строгая верхняя граница составляет 17 576 - 546 = 17 030.
Верхняя граница становится еще более строгой, если вычесть языковые коллекции, определенные в 639-2, и те, которые еще не определены в ISO 639-5.
Макроязыки
В ISO 639-2 есть 58 языков, которые для целей стандарта считаются «макроязыками» в ISO 639-3.[10]
Что-нибудь из этого макроязыки не имел индивидуального языка, как определено ISO 639-3 в кодовом наборе ISO 639-2, например «ара» (общий арабский). У других, таких как 'nor' (норвежский), есть две отдельные части ('nno' (Нюнорск ), 'nob' (Букмол )) уже в ISO 639-2.
Это означает, что некоторые языки (например, «arb», стандартный арабский), которые считались ISO 639-2 диалектами одного языка («ara»), теперь включены в ISO 639-3 в определенных контекстах, которые сами считаются отдельными языками.
Это попытка иметь дело с разновидностями, которые могут лингвистически отличаться друг от друга, но рассматриваются их носителями как две формы одного и того же языка, например в случаях диглоссия.
Например:
- http://www-01.sil.org/iso639-3/documentation.asp?id=ara (Общий арабский, 639-2)
- http://www-01.sil.org/iso639-3/documentation.asp?id=arb (Стандартный арабский, 639-3)
Видеть[11] для полного списка.
Коллективные языки
«Элемент совокупного языкового кода - это идентификатор, который представляет группу отдельных языков, которые не считаются одним языком в любом контексте использования».[12] Эти коды не совсем точно представляют конкретный язык или макроязык.
Хотя ISO 639-2 включает трехбуквенные идентификаторы для собирательных языков, эти коды исключены из ISO 639-3. Следовательно, ISO 639-3 не является расширением ISO 639-2.
ISO 639-5 определяет трехбуквенные коллективные коды для языковых семей и групп, включая коллективные коды языков из ISO 639-2.
Специальные коды
Четыре кода выделены в ISO 639-2 и ISO 639-3 для случаев, когда ни один из конкретных кодов не подходит. Они предназначены в первую очередь для таких приложений, как базы данных, где требуется код ISO независимо от того, существует ли он.
мисс
(некодированные языки, первоначально сокращение от «разное») предназначен для языков, которые (еще) не были включены в стандарт ISO.мул
(несколько языков) предназначен для случаев, когда данные включают более одного языка, и (например) для базы данных требуется один код ISO.унд
(неопределенный) предназначен для случаев, когда язык в данных не был идентифицирован, например, когда он неправильно маркирован или никогда не был маркирован. Он не предназначен для таких случаев, как Троян где непроверенному языку было дано имя.zxx
(без лингвистического содержания / неприменимо) предназначен для данных, которые вообще не являются языком, таких как крики животных.[13]
Кроме того, 520 кодов в диапазоне qaa
–qtz
«зарезервированы для местного использования». Например, Список лингвистов использует их для вымершие языки. Linguist List присвоил одному из них общее значение: qnp
, безымянный протоязык. Это используется для предлагаемых промежуточных узлов в генеалогическом дереве, у которых нет имени.
Процессы обслуживания
Кодовая таблица ISO 639-3 открыта для изменений. В целях защиты стабильности существующего использования разрешенные изменения ограничиваются:[14]
- изменения справочной информации для записи (включая имена или категоризации для типа и области действия),
- добавление новых записей,
- отказ от повторяющихся или поддельных записей,
- объединение одной или нескольких записей в другую запись, и
- разделение существующей языковой записи на несколько новых языковых записей.
Код, присвоенный языку, не изменяется, если также не изменяется обозначение.[15]
Изменения вносятся в годовой цикл. Каждому запросу дается как минимум три месяца для публичного рассмотрения.
На веб-сайте ISO 639-3 есть страницы, описывающие «объемы обозначения»[16] (томный типы) и типы языков,[17] которые объясняют, какие концепции входят в область кодирования и определенные критерии, которые необходимо соблюдать. Например, сконструированные языки можно закодировать, но только если они предназначены для человеческого общения и имеют массу литературы, предотвращающей запросы на идиосинкразические изобретения.
Регистрирующий орган документирует на своем веб-сайте инструкции, содержащиеся в тексте стандарта ISO 639-3, относительно того, как должны поддерживаться кодовые таблицы.[18] Он также документирует процессы, используемые для получения и обработки запросов на изменение.[19]
Предоставляется форма запроса на изменение, и есть вторая форма для сбора информации о предлагаемых дополнениях. Любая сторона может подавать запросы на изменение. После подачи заявки сначала проверяются регистрирующим органом на полноту.
Когда получен полностью задокументированный запрос, он добавляется в опубликованный индекс запросов на изменение. Кроме того, объявления отправляются в общий список обсуждения LINGUIST в Linguist List и другие списки, которые регистрирующий орган может счесть уместными, с приглашением на общественное рассмотрение и внесение предложений по запрошенному изменению. Любой владелец списка или физическое лицо может запрашивать уведомления о запросах на изменение для определенных регионов или языковых семей. Полученные комментарии публикуются для просмотра другими сторонами. На основе консенсуса в полученных комментариях запрос на изменение может быть отозван или повышен до «статуса кандидата».
За три месяца до окончания годового цикла проверки (обычно в сентябре) в список обсуждения LINGUIST и другие списки вносится объявление о запросах на изменение статуса кандидата. Все запросы остаются открытыми для рассмотрения и комментариев до конца годового цикла обзора.
Решения объявляются в конце годового цикла обзора (обычно в январе). В это время запросы могут быть приняты полностью или частично, изменены и перенесены в следующий цикл проверки или отклонены. Отклонения часто включают предложения о том, как изменить предложения для повторной подачи. Публичный архив каждого запроса на изменение ведется вместе с принятыми решениями и их обоснованием.[20]
Критика
Лингвисты Мори, Пост и Фридман высказывают различную критику ISO 639, в частности ISO 639-3:[15]
- Сами по себе трехбуквенные коды проблематичны, потому что, хотя они официально являются произвольными техническими обозначениями, они часто являются производными от мнемонических сокращений названий языков, некоторые из которых носят уничижительный характер. Например, Йемса был присвоен код
jnj
, от уничижительного "Janejero". Таким образом, носители языка могут посчитать эти коды оскорбительными, но коды в стандарте, однажды назначенные, не могут быть изменены. - Применение стандарта проблематично, поскольку SIL - это миссионерская организация с недостаточной прозрачностью и подотчетностью. Решения о том, что следует закодировать как язык, принимаются внутри компании. В то время как сторонний вклад может приветствоваться или не приветствоваться, сами решения непрозрачны, и многие лингвисты отказались от попыток улучшить стандарт.
- Постоянная идентификация языка несовместима с изменением языка.
- Языки и диалекты часто невозможно строго различить, и диалект континуум могут быть подразделены по-разному, тогда как стандартные привилегии дают один выбор. Такие различия часто основываются на социальных и политических факторах.
- ISO 639-3 может быть неправильно понят и неправильно использован властями, которые принимают решения относительно идентичности и языка людей, отменяя право говорящих идентифицировать или отождествлять себя с разнообразием своей речи. Хотя SIL чувствителен к таким вопросам, эта проблема присуща природе установленного стандарта, который может использоваться (или неправильно использоваться) способами, которые ISO и SIL не предполагают.
Мартин Хаспельмат согласен с четырьмя из этих пунктов, но не с пунктом об изменении языка.[21] Он не согласен, потому что любое описание языка требует его идентификации, и мы можем легко идентифицировать различные стадии языка. Он предполагает, что лингвисты могут предпочесть использовать кодификацию, сделанную в томный уровень, поскольку «для лингвистов редко имеет значение, является ли то, о чем они говорят, языком, диалектом или сплоченной семьей языков». Он также сомневается, уместен ли стандарт ISO для идентификации языка, поскольку ISO является промышленной организацией, в то время как он рассматривает языковую документацию и номенклатуру как научное мероприятие. Он ссылается на первоначальную потребность в стандартизированных языковых идентификаторах как на «экономическое значение перевода и локализация программного обеспечения, "для чего были установлены стандарты ISO 639-1 и 639-2. Но он сомневается в необходимости отрасли во всеобъемлющем охвате, обеспечиваемом стандартом ISO 639-3, включая" малоизвестные языки небольших сообществ, которые никогда или почти не используются в письменной форме и часто находятся под угрозой исчезновения ".
использование
- Этнолог
- Список лингвистов
- OLAC: сообщество архива открытых языков[22]
- Microsoft Windows 8:[23] Поддерживает все коды ISO 639-3 на момент выпуска.
- Фонд Викимедиа: новые языковые проекты (например, Википедии на новых языках) должны иметь идентификатор из ISO 639-1, -2 или -3.[24]
- Другие стандарты, основанные на ISO 639-3:
- Языковые теги как определено Инженерная группа Интернета (IETF), как описано в:
- В ePub Стандарт 3.0 для языковых метаданных[26] использует элементы метаданных Dublin Core. Эти языковые элементы метаданных в ePub должны содержать допустимые RFC 5646 коды для языков.[26] RFC5646 указывает на ISO 639-3 для языков без более коротких кодов IANA.
- Инициатива по метаданным Дублинского ядра: Срок действия метаданных DCMI[27] для языка через IETF RFC 4646 (теперь заменено RFC 5646 ).
- Управление по присвоению номеров в Интернете (IANA) Усилия W3C по интернационализации рекомендуют использовать реестр языковых вложенных тегов IANA для выбора кодов для языков.[28] Реестр языковых подтэгов IANA[29] зависит от кодов ISO 639-3 для языков, которые ранее не имели кодов в других частях стандарта ISO 639.
- HTML5:[30] через BCP 47 IETF.
- MARC библиотечные коды.
- МОДЫ коды библиотеки:[31] Включает IETF RFC 3066 (теперь заменено RFC 5646 ).
- Инициатива кодирования текста (TEI):[32] через BCP 47 IETF.
- Структура лексической разметки: Спецификация ISO для представления машиночитаемых словарей.
- Unicode с Общий репозиторий локальных данных: Использует несколько сотен кодов из ISO 639-3, не включенных в ISO 639-2.
Рекомендации
- ^ а б «Статус и реферат ISO 639-3». iso.org. 2010-07-20. Получено 2012-06-14.
- ^ «Сопровождающие и регистрирующие органы». ISO.
- ^ «Типы отдельных языков - Древние языки». sil.org. Получено 2018-06-11.
- ^ Отчет этнолога для кода ISO 639: zho В архиве 2014-09-12 в Wayback Machine на ethnologue.com
- ^ ISO639-3 на SIL.org
- ^ а б «Кодовый набор ISO 639-3». Sil.org. 2007-10-18. Получено 2012-06-14.
- ^ «ИСО 639-3». sil.org.
- ^ «Объем обозначения: отдельные языки». sil.org.
- ^ «Объем обозначения: диалекты». sil.org.
- ^ «Объем обозначения: макроязыки». sil.org. Получено 2012-06-14.
- ^ «Макроязыковые сопоставления». sil.org. Получено 2012-06-14.
- ^ «Объем обозначения: Коллективные языки». sil.org. Получено 2012-06-14.
- ^ Полевые записи криков обезьян-верветок. Запись в каталог Консорциум лингвистических данных. Проверено 4 сентября 2012.
- ^ «Подача запросов на изменение ISO 639-3: типы изменений». sil.org.
- ^ а б Мори, Стивен; Пост, Марк У .; Фридман, Виктор А. (2013). Коды языков ISO 639: преждевременная, в конечном итоге недоступная и, возможно, вредная стандартизация. Конференция PARADISEC RRR. Архивировано из оригинал на 2016-02-23. Получено 2015-11-03.
- ^ «Объем обозначения языковых идентификаторов». sil.org.
- ^ «Типы языков». sil.org.
- ^ «ISO 639-3 Управление изменениями». sil.org.
- ^ «Подача запросов на изменение ISO 639-3». sil.org.
- ^ «Индекс запросов на изменение ISO 639-3». sil.org.
- ^ Мартин Хаспельмат, «Можно ли стандартизировать языковую идентичность? О критике ISO 639-3 Мори и др.», Комментарий по лингвистике разнообразия, 2013/12/04
- ^ «Расширение языка OLAC». language-archives.org. Получено 3 августа 2015.
- ^ «Более 7000 языков, всего 1 Windows». Microsoft. 2014-02-05.
- ^ «Политика языковых предложений». wikimedia.org. Получено 3 августа 2015.
- ^ «BCP 47 - Теги для идентификации языков». ietf.org. Получено 3 августа 2015.
- ^ а б «Публикации EPUB 3.0». idpf.org. Получено 3 августа 2015.
- ^ «Условия метаданных DCMI». purl.org. Получено 3 августа 2015.
- ^ «Двухбуквенные или трехбуквенные коды языков ISO». w3.org. Получено 3 августа 2015.
- ^ «Реестр языков». Iana.org. Получено 2015-08-12.
- ^ «3 Семантика, структура и API документов HTML - HTML5». w3.org. Получено 3 августа 2015.
- ^ «Элементы - Руководство пользователя MODS: Схема описания объекта метаданных: MODS (Библиотека Конгресса)». loc.gov. Получено 3 августа 2015.
- ^ "Язык элементов TEI". tei-c.org. Получено 3 августа 2015.
дальнейшее чтение
- Аристар, Энтони (2006). «Стандартизированные языковые коды ISO и Ethnologue» (PDF). SSILA Бюллетень. 247. Архивировано из оригинал (PDF) 20 мая 2014 г.
- Добрин, Лиза М .; Хорошо, Джефф (2009). «Практическое развитие языка: чья миссия?» (PDF). Язык. 85 (3): 619–629. Дои:10.1353 / lan.0.0152.
- Эппс, Терпение (2006). «Против принятия языковых кодов Ethnologue для ISO 639-3» (PDF). Бюллетень SSILA. 246. Архивировано из оригинал (PDF) 20 мая 2014 г.
- Голла, Виктор, изд. (2006). «Заявление SSILA о языковых кодах ISO 639-3» (PDF). Бюллетень SSILA. 249. Архивировано из оригинал (PDF) 20 мая 2014 г.
- Хорошо, Джефф; Cysouw, Майкл (2013). "Лангоид, документ и глоссоним: формализация понятия" язык "'". Языковая документация и сохранение. 7: 331–359. HDL:10125/4606.