Текстовый корпус AsoSoft - AsoSoft text corpus

В Текстовый корпус AsoSoft это первая масштабная Курдский текстовый корпус, собранные и обработанные группой исследований и разработок AsoSoft. Он содержит 458000 документов (188 миллионов токенов), которые собраны из таких источников, как веб-сайты, информационные агентства, книги и журналы. Корпус частично размечен по темам, поэтому его можно использовать для задач идентификации тем. Кроме того, это применимо для извлечения информации о языковой модели и вычислительной лексике. Часть корпуса (75 миллионов токенов) доступна онлайн для некоммерческого использования. Корпус использует формат TEI.[1]

использованная литература

  1. ^ Вейси, Хади; Мохаммад Амини, Мохаммад; Хоссейни, Хоре (8 февраля 2019 г.). «К обработке курдского языка: эксперименты по сбору и обработке корпуса текстов AsoSoft». Цифровая стипендия в области гуманитарных наук. Дои:10.1093 / llc / fqy074.

внешние ссылки