Хорватский национальный корпус - Croatian National Corpus

Хорватский национальный корпус (хорватский: Hrvatski nacionalni korpus, HNK) самый большой и самый важный корпус из Хорватский язык. Его составление началось в 1998 году в Институте языкознания.[1] из Факультет гуманитарных и социальных наук, Загребский университет следуя идеям Марко Тадич. Теоретические основы и выражение потребности в универсальном, репрезентативном и многомиллионном корпусе хорватского языка стали появляться еще раньше.[2] Хорватский национальный корпус составлен из избранных текстов, написанных на хорватском языке, охватывающих все области, темы, жанры и стили: от литературных и научных текстов до учебников, газет, групп пользователей и чатов.

Первоначальный состав был разделен на две составляющие:

  1. 30-миллионный корпус современного хорватского языка (30м), куда включены образцы текстов с 1990 г. Критериями включения образцов текста были: написаны носителями языка, разные области, жанры и темы. Переведенный текст или стихи были исключены.
  2. Хорватский электронный текстовый архив (HETA), где был включен полный текст, особенно серийные публикации (тома, серии, издания и т. Д.), Которые нарушили бы 30-метровый баланс, если бы они были там вставлены.

С 2004 года с принятием концепции корпуса 3-го поколения от двухкомпонентной структуры отказались в пользу нескольких субкорпусов и большего размера. С 2005 года 105 миллионов токенов HNK и состоит из множества различных подкорпораций, которые можно искать по отдельности и все вместе в целом корпусе. С 2004 года HNK также перешла на новую серверную платформу, а именно сервер-клиентскую архитектуру Manatee / Bonito. Для поиска в HNK (сегодня все еще есть бесплатный тестовый доступ) бесплатная клиентская программа Bonito[3] необходим. Автор этого корпуса-менеджера - Павел Рыхлы[4] из Лаборатории обработки естественного языка[5] факультета информатики,[6] Масариковский университет в Брно, Чехия. Его интерфейс включает сложные и более сложные запросы по корпусу, различные типы статистических результатов, полные или частичные списки слов в соответствии с различными критериями запроса (с их частотой), частотное распределение типов, автоматическое определение словосочетания и т. Д.

Последняя версия этого корпуса (версия 3)[7] имеет 216,8 млн токенов. Онлайн-поиск доступен через поиск в веб-интерфейсе Bonito 2, который является частью NoSketch Engine,[8] ограниченная версия программного обеспечения Sketch Engine.

Рекомендации

  1. ^ Институт лингвистики
  2. ^ Тадич 1990, 1996 В архиве 2006-02-10 на Wayback Machine, 1998 В архиве 2006-02-10 на Wayback Machine
  3. ^ Бонито
  4. ^ Рыхлы, Павел (2007). «Ламантин / бонито - модульный корпус-менеджер» (PDF). 1-й семинар по последним достижениям в обработке славянского естественного языка. Масариковский университет: 65–70.
  5. ^ Лаборатория обработки естественного языка В архиве 2005-10-28 на Wayback Machine
  6. ^ Факультет информатики
  7. ^ Тадич, Марко (2009). «Новая версия Хорватского национального корпуса». После полувека обработки славянского естественного языка. Масариковский университет: 199–205.
  8. ^ NoSketch Engine

внешняя ссылка