IndoWordNet - IndoWordNet

IndoWordNet[1] представляет собой связанную лексическую базу знаний из словарных сетей из 18 запланированные языки Индии, а именно ассамский, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей (манипури), маратхи, непальский, одия, пенджаби, санскрит, тамильский, телугу и урду.

Задний план

В начале 90-х годов в сети для английского языка называлось Princeton WordNet - была создана в Принстонском университете Джорджем Миллером и Кристиан Феллбаум, получившими в 2006 году престижную премию Замполи.[2] Затем последовали EuroWordNet - конгломерат европейских языковых сетей, созданный в 1998 году.[3] Wordnet теперь является важным ресурсом для Обработка естественного языка, Извлечение информации, Устранение неоднозначности смысла слов и другие подобные вычисления с участием текста.

Важность индийских языков

Индийские языки составляют очень значительную часть языкового ландшафта мира. На Индийском субконтиненте действуют 4 потока языковой типологии: индоевропейский, дравидийский, тибето-бирманский и австроазиатский.[4] Многие языки входят в десятку лучших в мире по количеству говорящего на них населения, например, 5-й хинди-урду, 7-й бангла, 12-й маратхи и т. Д. Список языков по количеству носителей языка. Поэтому создание словарных сетей индийских языков является очень важным научно-техническим и лингвистическим проектом.

Генезис словарных сетей индийского языка

Такой проект действительно начался в 2000 году, когда Хинди WordNet был создан Обработка естественного языка группа в Центре индийских языковых технологий (CFILT) на факультете компьютерных наук и инженерии в ИИТ Бомбей.[5] Он стал общедоступным в 2006 году под лицензией GNU. Хинди WordNet был создан при поддержке проекта TDIL Министерства связи и информационных технологий Индии, а также частично Министерства развития человеческих ресурсов Индии.

Затем этому примеру последовали сети словаря других языков Индии. Крупный общенациональный проект создания сетей слова на индийском языке получил название проекта IndoWordNet. IndoWordNet[1] представляет собой связанную лексическую базу знаний из словарных сетей из 18 запланированные языки Индии, а именно ассамский, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей, маратхи, непальский, ория, пенджаби, санскрит, тамильский, телугу и урду. Вордовые сети создаются с использованием подход к расширению из хинди WordNet. WordNet на хинди был создан на основе первых принципов (упомянутых ниже) и был первым WordNet для индийского языка. Использованный метод был таким же, как и Princeton WordNet для английского.

Польский WordNet отображается в Princeton WordNet на основе стратегии, которой придерживается IndoWordNet.[6]

Принципы построения wordnet

Wordnets следуют принципам минимальности, охвата и заменяемости наборов слов. Это означает, что в синсете должен быть по крайней мере «основной» набор лексем, которые однозначно задают концепцию, представленную синсетом (минимальность), например, {дом, семья} означает понятие «семья» («она из дворянского дома »). Затем синсет должен охватывать ВСЕ слова, представляющие концепцию на языке (охват), например, слово «menage» должно появиться в синсете «семья», хотя и ближе к концу синсета, поскольку его использование редко. . Наконец, слова в начале синсета должны иметь возможность заменять друг друга в разумном количестве корпусов (возможность замены), например, «дом» и «семья» могут заменять друг друга в предложении «она из благородного дома» .

Статистика словарных сетей индийского языка

Количество синсетов (по состоянию на август 2014 г.) для языков и институтов, создающих языковые сети WordNets, указано ниже:

ЯзыкSynsetsИнститут
Ассамский14958Университет Гувахати, Гувахати, Ассам
Бенгальский36346Индийский статистический институт, Калькутта, Западная Бенгалия
Бодо15785Университет Гувахати, Гувахати, Ассам
Гуджарати35599Университет Дхарамсинх Десаи, Надиад, Гуджарат
хинди38607ИИТ Бомбей, Мумбаи, Махараштра
Каннада20033Майсурский университет, Майсур, Карнатака
Кашмири29469Кашмирский университет, Сринагар, Джамму и Кашмир
Конкани32370Университет Гоа, Талейгао, Гоа
Малаялам30060Университет Амриты, Коимбатур, Тамил Наду
Маратхи29674ИИТ Бомбей, Мумбаи, Махараштра
Meitei16351Университет Манипура, Импхал, Манипур
Непальский11713Ассамский университет, Силчар, Ассам
Ория35284Центральный университет Хайдарабада, Хайдарабад, Андхра-Прадеш
Пенджаби32364Университет Тапар и Пенджабский университет, Патиала, Пенджаб
санскрит23140ИИТ Бомбей, Мумбаи, Махараштра
Тамильский25431Тамильский университет, Танджавур, Тамил Наду
телугу21925Дравидийский университет, Куппам, Андхра-Прадеш
Урду34280Университет Джавахарлала Неру, Нью-Дели

Резюме

IndoWordNet очень похож на EuroWordNet. Однако основным языком является хинди, который, конечно же, связан с английским WordNet. Также типичные явления индийского языка, такие как сложные предикаты и причинные глаголы захвачены в IndoWordNet.

IndoWordNet является общедоступным. Усилия по созданию словарной сети на индийском языке, составляющие подкомпоненты проекта IndoWordNet, включают: проект North East WordNet, проект Dravidian WordNet и проект Indradhanush, все из которых финансируются проектом TDIL.

использованная литература

  1. ^ а б Пушпак Бхаттачарья, IndoWordNet, Конференция по разработке лексических ресурсов 2010 (LREC 2010), Мальта, май 2010 г.
  2. ^ Кристиан Феллбаум (редактор), WordNet: электронная лексическая база данных, MIT Press, 1998.
  3. ^ П. Фоссен (редактор), EuroWordNet: многоязычная база данных с лексическими семантическими сетями, Kluwer Pub., 1998.
  4. ^ Джозеф Э. Шварцберг,Британская энциклопедия, Индия - лингвистический состав, 2007.
  5. ^ Дипак Нараян, Дебасри Чакрабарти, Прабхакар Панде и П. Бхаттачарья. Опыт построения Indo WordNet - WordNet для хинди, Международная конференция по глобальной сети WordNet (GWC 02), Майсур, Индия, январь 2002 г.
  6. ^ Рудницка, Э., Мазиарц, М., Пясецки, М., и Шпакович, С. (2012). Отображение plWordNet на Princeton WordNet, 24-я Международная конференция по компьютерной лингвистике (COLING), Индия, декабрь 2012 г.

внешние ссылки