ISO 639 - ISO 639

ISO 639 это набор стандартов Международная организация по стандартизации что касается представления имен для языки и языковые группы.

Это также было название оригинального стандарта, утвержденного в 1967 г. (как ISO 639 / R)[1] и сняты в 2002 году.[2] Набор ISO 639 состоит из пяти частей.

Использование кодов ISO 639

Коды языков, определенные в нескольких разделах ISO 639, используются в библиографических целях и в вычислительной среде и в Интернете как ключевой элемент локаль данные. Коды также находят применение в различных приложениях, таких как Википедия URL-адреса для разных языковых версий.

Текущие и исторические части стандарта

СтандартИмя (Коды для представления названий языков - ...)Орган регистрацииПервое изданиеток№ в списке (по состоянию на 30 января 2020 г.)
ISO 639-1Часть 1: код Alpha-2Инфотермс1967 (как ISO 639)2002184
ISO 639-2Часть 2: код Alpha-3Библиотека Конгресса19981998482 + 20 только B + 4 специальных + 520 для местного использования[3][4]
ISO 639-3Часть 3: Код Alpha-3 для всестороннего охвата языковSIL International200720077868 + 4 специальных + 520 для местного использования[5]
ISO 639-4Часть 4: Рекомендации по реализации и общие принципы языкового кодированияISO / TC 37 /СК 22010-07-162010-07-16(не список)
ISO 639-5Часть 5: Код Alpha-3 для языковых семей и группБиблиотека Конгресса2008-05-152013-02-11[6]115 (включая 36 оставшихся + 29 обычных групп из ISO 632-2)[7]
ISO 639-6Часть 6: Представление Alpha-4 для всестороннего охвата языковых вариантов (снято)Геоланг2009-11-17снято21,000+

Каждая часть стандарта поддерживается агентством по техническому обслуживанию, которое добавляет коды и при необходимости меняет статус кодов. Стандарт ISO 639-6 был отменен в 2014 году.[8]

Характеристики индивидуальных кодов

Области применения:

  • Индивидуальные языки
  • Макроязыки (Часть 3)
  • Сборники языков (части 1, 2, 5). Часть 1 содержит только один сборник (бх), некоторые коллекции уже были в Части 2, а другие добавлены только в Части 5:
    • Остальные группы: 36 коллекций в Части 2 и 5 относятся к этому типу (включая одну, которая также была закодирована в Части 1) - для совместимости с Частью 2, когда Часть 5 еще не была опубликована, остальные группы не содержат никаких языков и коллекций. это уже было закодировано в Части 2 (однако новые приложения, совместимые с Частью 5, могут обрабатывать эти группы включительно, если они соблюдают иерархию включения, опубликованную в Части 5, и используют наиболее конкретную коллекцию при группировании языков);
    • Обычные группы: 29 коллекций в Частях 2 и 5 относятся к этому типу - для совместимости с Частью 2 они не могут содержать другие группы;
    • Семейства: 50 новых коллекций, закодированных только в Части 5 (включая одну, содержащую регулярную группу, уже закодированную в Части 2) - для совместимости с Частью 2 они могут содержать другие коллекции, кроме остаточных групп.
  • Диалекты: они должны были быть включены в Часть 6 (предложена, но теперь снята).
  • Особые ситуации (части 2, 3).
  • Зарезервировано для местного использования (части 2, 3). Также иногда используется в приложениях, где требуется код alpha-2, например стандартные коды в частях 1 и 2 (где специальный код мисс не подходит), или код alpha-3 для коллекций, таких как стандартные коды в Части 5.

Типы (для отдельных языков):

  • Живые языки (Части 2, 3) (все макроязыки - живые языки)[9]
  • Вымершие языки (Части 2, 3) (608,[10] 5 из них находятся в Части 2: chb, chg, полицейский, lui, Сэм; в Части 1 нет)
  • Древние языки (Части 1, 2, 3) (124,[11] 19 из них находятся в Части 2; и 5 из них, а именно аве, Чу, широта, пли и сан, также есть код в Части 1: ае, у.е., ля, Пи, са)
  • Исторические языки (Части 2, 3) (83,[12] 16 из них находятся в Части 2; в Части 1 нет)
  • Сконструированные языки (Части 1, 2, 3) (22,[13] 9 из них в Части 2: аффх, эпо, я делаю, ile, в, jbo, tlh, объем, zbl; 5 из них в Части 1: эо, ia, т.е., io, vo)

Отдельные языки и макроязыки с двумя различными кодами альфа-3 в Части 2:

  • Библиографические (некоторые из них устарели, ни один не был определен в Части 3): это устаревшие коды (основанные на названиях языков на английском языке).
  • Терминологические (также определенные в Части 3): это предпочтительные коды (основанные на именах на родном языке, при необходимости латинизированные).
  • Все остальные (включая наборы языков и специальные / зарезервированные коды) имеют только один код alpha-3 для обоих целей.

Отношения между частями

Различные части ISO 639 разработаны для совместной работы таким образом, что никакой код не означает одно в одной части и что-то другое в другой. Однако не все языки входят в состав всех частей, и существует множество различных способов обработки отдельных языков и других элементов в разных частях. Это зависит, например, от того, включен ли язык в Части 1 или 2, имеет ли он отдельные коды B / T в Части 2 или классифицируется как макроязык в Части 3 и так далее.

Эти различные методы лечения подробно описаны в следующей таблице. В каждой группе строк (по одной для каждой области применения ISO 639-3) последние четыре столбца содержат коды для репрезентативного языка, который иллюстрирует конкретный тип связи между частями ISO 639, второй столбец дает объяснение взаимосвязи. , а в первом столбце указано количество элементов, имеющих этот тип связи. Например, есть четыре элемента, которые имеют код в Части 1, имеют код B / T и классифицируются как макроязыки в Части 3. Одним из представителей этих четырех элементов является «персидский». фа/на/фас.

ОбъемКоличество делОписаниеПример соответствия кодов
ISO 639-1ISO 639-2ISO 639-3ISO 639-5
Индивидуальные языки
("Я")
128Отдельные языки, не являющиеся частью макроязыка, с кодом в каждой части 1, 2 и 3 (только один код в части 2).
В Части 1 имеется 184 присвоенных кода для отдельных языков, макроязыков или групп; вычтите те, что указаны в строках ниже, это оставляет: 184 - (2 "I (бывший B / T)") - (3 + 11 "I") - (3 + 2 "I (B / T)") - (28 + 4 + 1 + 1 «M») - (1 «C») = 128 кодов.
eneng
2Отдельные языки с кодами в каждой части 1, 2 и 3, которые имели отдельные коды B / T в части 2, но чьи коды B были отозваны (с 2008-06-28), сохраняя свои коды T для всех видов использования. Это: час/(scr)/грн, и SR/(сер)/SRP.
Оба являются частью одного макроязыка. hbs добавлен в части 3, чтобы включить также другие недавно закодированные отдельные языки, но его код ш в Части 1 также была отозвана, и в ней не было кода, определенного в Части 2.
час(scr) / грн (B / T)грн
3Отдельные языки, принадлежащие к макроязыку в Части 3, с одним кодом в Части 2, а также имеющие код в Части 1. Это: bs/БОС (часть макроязыка hbs), nb/благородный и nn/не (обе части макроязыка нет/ни).nbблагородный
11Отдельные языки с отдельными кодами B / T в Части 2, но не в каких-либо особых случаях в следующих строках.
В Части 2 есть 20 пар отдельных кодов B / T, присвоенных отдельным языкам или макроязыкам; вычтите указанные ниже особые случаи, это оставляет: 20 - (3 + 2 «M») - (4 «C») = 11 пар кодов.
дегер / деу (B / T)deu
3Отдельные языки с отдельными кодами B / T в Части 2, но буквы из кода Части 1 не являются первыми двумя буквами T кода Части 2. Это: cs/чешский/ces, ми/мао/мрт, и sk/slo/slk.cscze / ces (B / T)ces
3Отдельные языки в частях 2 и 3 (не принадлежат к макроязыку), но которые были охвачены в Части 1 кодом, эквивалент которого в части 2 является коллективным. Это: бхо, май, и mag.(бх)бхо
несколькоЛюбой другой отдельный язык в частях 2 и 3, без кода в части 1.аст
1Отдельные языки добавлены в Части 3 без кодов в Частях 1 и 2, но были охвачены макроязыком в Частях 2 и 3, также закодированными в Части 1.(ар)(ара)вилка
1Отдельный язык в Части 3, без кода в Части 2, но был охвачен в Части 1 кодом, эквивалентом которого в Части 2 является коллективная группа (см. Запись для этой группы ниже).(бх)(би)sck
> 7,000Любой другой индивидуальный язык в Части 3 без кода в Частях 1 и 2 (возможно, охваченный в Части 2 коллективным кодом, например ник Остальная группа "Нигер-Кодофанян (Другое)").(ник)ааа
Макроязыки
("М")
28Макроязыки в Части 3, которые также имеют коды в Частях 1 и 2.
В Части 3 для макроязыков присвоено 62 кода; вычтите те, которые имеют особые случаи ниже, это оставляет: 62 - (4 «B / T») - 1 - (25 + 1 + 3 «не в Части 1») = 28 кодов.
арара
4Макроязыки в Части 3 с отдельными кодами B / T в Части 2. Это: фа/на/фас, РС/может/мса, кв/Альб/sqi, и ж/чи/жо.фаза / фас (B / T)фас
1Макроязык в Части 3, содержащий языки, имеющие коды в Части 1. Только: нет/ни (содержащий: nb/благородный, и nn/не).нетни
25Макроязыки в частях 2 и 3, но без кода в части 1.бал
1Макроязык в Части 3, без кода в Части 2, и чей код в Части 1 является устаревшим.(ш)hbs
3Макроязыки в Части 3, без кодов в Частях 1 или 2. Это: bnc, kln, и luy.bnc
Семьи и группы (коллектив)
("C")
1Бихари помечена как коллективная и имеет код ISO 639-2 и является единственной языковой группой, также имеющей код ISO 639-1 (где все остальные коды являются отдельными языками или зарезервированы). Причина в том, что три отдельных языка бихари (которые достаточно разные, чтобы образовывать один и тот же макроязык для ISO 639-3) получили отличительные коды ISO 639-2 (бхо, май, mag), что сделало бихари остальной группой для целей ISO 639-2 (включающей языки группы, кроме этих трех).бхbihbih
35Остальные группы в Части 2, то есть тот же код, но включены разные языки. В части 2, афа относится к афро-азиатскому языку, который не имеет идентификатора индивидуального языка в Части 2, и который не попадает в три остальные группы: бер "Берберское (Другое)", cus «Кушитик (Другое)», или сем «Семитские (другие)», все из которых принадлежат к афро-азиатским языковым группам.афаафа
29Обычная группа в Части 2, такая же, как языковая семья в Части 5, без кода в Части 1. Среди них обычная группа ypk в Части 2 была единственной, которая была закодирована в Части 5 как часть другой новой регулярной группы в Части 5, которая не была закодирована в Части 2 (см. ниже).аусаус
50Обычные группы, добавленные только в Части 5, ранее не кодировавшиеся в Частях 1, 2 и 3. Большинство этих новых регулярных групп могли быть ранее представлены другим коллективным кодом в Части 2 как часть остаточной группы (например, остальная группа ине для новой постоянной группы sqj), кроме 7 из них: aav, esx, euq, хм, jpx, urj, а также Сид (входит в состав новой регулярной группы urj). Обычная группа ypk (часть новой регулярной группы esx), однако уже был закодирован в Части 2. См. иерархию языковых групп в Список кодов ISO 639-5.sqj
Специальные коды
("S")
1Доступно для использования в одноязычном контексте, когда требуется индивидуальный код языка, но сам язык не имеет стандартного кода. Более точной альтернативой может быть использование остаточной группы из ISO 639-2 или кода семейства языков из ISO 639-5, если другие языки в такой группе не должны быть исключены (поскольку они разделены своим собственным кодом) или отсутствует стандартный коллективный код. подходящий. Некоторые приложения могут предпочесть использовать более конкретный код из тех, что зарезервированы для локального использования.мисс
1Многоязычный контент (включает как минимум два языка в отдельных частях). Используется, когда для всего контента ожидается единый языковой код. Отдельные языки или макроязыки для каждой части контента, возможно, еще не закодированы (и могут быть представлены как мисс а точнее с коллективным кодом).мул
1Не определено (содержание включает ноль, один или несколько языков в произвольной комбинации).унд
1Никакой лингвистической информации (добавлено 11 января 2006 г.). Контент (например, графика, фотографии или аудио / видео записи, не включающие текст на человеческом языке или технические метаданные и большая часть исходного кода программ) можно использовать как есть на любом языке, и его не следует переводить (за исключением его описания, возможно связанного в отдельных содержание или для несущественных фрагментов содержания).zxx
Зарезервировано для местного использования
("Р")
20Коды Alpha2 в Части 1, в диапазоне qa .. qt. Эти коды не рекомендуются, но оставлены неназначенными в Части 1.qa
520Коды Alpha3 в частях 2 и 3, в диапазоне qaa ... qtz. Эти коды могут также использоваться для коллективных языков (или других особых случаев), но никакие стандартные языковые семьи и группы не будут присвоены им в Части 5.qaa

Эти различия связаны со следующими факторами.

В ISO 639-2, два различных кода были присвоены 22 отдельным языкам, а именно: библиографический и терминологический код (коды B / T).[14] Коды B были включены по историческим причинам, потому что в предыдущих широко используемых библиографических системах использовались языковые коды, основанные на английском названии языка. В отличие от этого, коды ISO 639-1 основывались на родном названии языка, и было также сильное желание иметь коды 639-2 (T-коды) для этих языков, которые были бы похожи на соответствующий двухсимвольный код в ISO 639-1.

  • Например, немецкий язык (Часть 1: де) имеет два кода в Части 2: гер (Код B) и deu (T-код), тогда как в Части 2 есть только один код, eng, для английский язык.
  • 2 бывших кода B были отозваны, и сегодня осталось только 20 пар кодов B / T.

Отдельные языки в Части 2 всегда имеют код в Части 3 (там повторно используется только терминологический код Части 2), но могут иметь или не иметь код в Части 1, как показано в следующих примерах:

  • Часть 3 eng соответствует Части 2 eng и Часть 1 en
  • Часть 3 аст соответствует Части 2 аст но отсутствует код в части 1.

Некоторые коды (62) в Части 3 являются макроязыками. Это группы, состоящие из нескольких отдельных языков, которые хорошо понимают друг друга и обычно смешиваются или путаются. Некоторые макроязыки разработали стандартную форму по умолчанию на одном из своих отдельных языков (например, китайский макроязык подразумевается по умолчанию для китайского макроязыка, другие отдельные языки по-прежнему могут различаться, если необходимо, но конкретный код cmn для мандарина используется редко).

  • Макроязык 1 имеет код Части 2 и Код Части 1, в то время как отдельные языки, входящие в его состав, также имеют коды в Части 1 и Части 2: ни/нет содержит не/nn, благородный/nb; или
  • 4 макроязыка имеют два кода Части 2 (B / T) и код Части 1: на/фас/фа, может/мса/РС, Альб/sqi/кв, и чи/жо/ж;
  • 28 макроязыков имеют код Части 2, но не Код Части 1;
  • 29 других макроязыков имеют коды только в части 3.

Коллективные коды в Части 2 имеют код в Части 5: например, аус в частях 2 и 5, что означает Австралийские языки.

  • Один коллективный код в Части 2 также имеет код в Части 1: bih/бх.
  • Некоторые коды были добавлены в Части 5, но не имели кода в Части 2: например, sqj

Части 2 и 3 также имеют зарезервированный диапазон и четыре специальных кода:

  • Коды qaa через qtz зарезервированы для местного использования.
  • Есть четыре специальных кода: мисс для языков, которым еще не присвоен код, мул для "нескольких языков", унд для "undefined" и zxx для «без лингвистического содержания, не применимо».

Кодовое пространство

Кодовое пространство Alpha-2

Коды «Альфа-2» (для кодов, состоящих из 2 букв Базовый латинский алфавит ISO ) используются в ISO 639-1. Когда требовались коды для более широкого диапазона языков, можно было охватить более двух буквенных комбинаций (максимум 262 = 676), ISO 639-2 был разработан с использованием кодов Alpha-3. (Однако последняя была официально опубликована первой.[15][16])

Кодовое пространство Alpha-3

Коды «Альфа-3» (для кодов, состоящих из 3 букв Базовый латинский алфавит ISO ) используются в ISO 639-2, ISO 639-3, и ISO 639-5. Количество языков и языковых групп, которые могут быть представлены таким образом, составляет 26.3 = 17,576.

Обычное использование кодов Alpha-3 в трех частях ISO 639 требует некоторой координации в рамках более крупной системы.

Часть 2 определяет четыре специальных кода мисс, мул, унд, zxx, зарезервированный диапазон qaa-qtz (20 × 26 = 520 кодов) и имеет 20 двойных записей (коды B / T) плюс 2 записи с устаревшими B-кодами. В сумме получается 520 + 22 + 4 = 546 кодов, которые нельзя использовать в части 3 для представления языков или в части 5 для представления языковых семей или групп. Остаток 17 576 - 546 = 17 030.

Сегодня на Земле существует около шести или семи тысяч языков.[17] Таким образом, этих 17 030 кодов достаточно для присвоения уникального кода каждому языку, хотя некоторые языки могут иметь произвольные коды, которые не похожи на традиционные названия этого языка.

Кодовое пространство Alpha-4 (отозвано)

Коды «Альфа-4» (для кодов, состоящих из 4 букв Базовый латинский алфавит ISO ) предлагалось использовать в ISO 639-6, который был отозван. Максимальное количество представленных языков и диалектов - 26.4 = 456,976.

Смотрите также

Примечания и ссылки

  1. ^ «ISO / R 639: 1967». Iso.org. 1988-03-01. Получено 2012-08-05.
  2. ^ «ISO 639: 1988». Iso.org. Получено 2012-08-05.
  3. ^ «Коды расположены в алфавитном порядке по коду альфа-3 / ISO 639-2». Библиотека Конгресса. 2013-07-25. Получено 2019-01-10.
  4. ^ «Коды ISO-639-2». Библиотека Конгресса. Получено 2019-01-10.
  5. ^ «Кодовые таблицы ISO 639». Sil.org. Получено 2020-02-04.
  6. ^ «Уведомление об изменении ISO 639-5». Офис развития сети и стандартов MARC. Библиотека Конгресса. Получено 12 декабря, 2018.
  7. ^ «Коды ISO 639-5 упорядочены по идентификатору». Офис развития сети и стандартов MARC. Библиотека Конгресса. Получено 12 декабря, 2018.
  8. ^ ISO 639-6: 2009, ISO.
  9. ^ «Кодовые таблицы ISO 639: макроязыки». Sil.org. Получено 2012-08-05.
  10. ^ «Кодовые таблицы ISO 639: вымершие». Sil.org. Получено 2012-08-05.
  11. ^ «Кодовые таблицы ISO 639: древние». Sil.org. Получено 2019-01-10.
  12. ^ «Кодовые таблицы ISO 639: история». Sil.org. Получено 2012-08-05.
  13. ^ «Кодовые таблицы ISO 639: построены». Sil.org. Получено 2019-02-03.
  14. ^ «ISO 639-2 - Часто задаваемые вопросы». loc.gov. 2014-05-05. Получено 2014-12-12.
  15. ^ «Коды для представления названий языков - Часть 2: Код Alpha-3». Международная организация по стандартам. ISO. Получено 10 января 2019. Дата публикации: 1998-10
  16. ^ «Коды для представления названий языков - Часть 1: Код Альфа-2». Международная организация по стандартам. ISO. Получено 15 февраля 2018. Дата публикации: 2002-07
  17. ^ «Статистические сводки». Этнолог. Получено 2012-08-05.

внешние ссылки