Корпус письменного татарского языка - Corpus of Written Tatar - Wikipedia

Корпус письменного татарского языка
Результаты сложного морфологического поиска .jpg
Тип сайта
исследовательский / образовательный проект
Доступно вАнглийский / русский / татарский
Основан2011; 9 лет назад (2011)
Штаб-квартираКазань, Россия
Учредитель (и)Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р.
URLкорпус.tatar/ en
Запущен15 марта 2012 г.; 8 лет назад (2012-03-15)
Текущее состояниеПроект активно развивается.

Корпус письменного татарского языка (Татарский корпус) - электронный корпус из Татарский язык, который был доступен в Интернете. Сборник татарских текстов в электронном виде предназначен для тех, кто интересуется строением, нынешним состоянием и перспективами татарского языка. Корпус письменности татарского языка незаменим для всех, кто хочет изучать татарский язык методами корпусная лингвистика.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.
Доступен на татарском, русском и английском языках.

Размер корпуса

Объем Корпуса татарского языка на конец 2014 года составляет более 116 млн слов. Количество предложений - 10 млн, количество разных словоформ - около 1,5 млн.
Чтобы предотвратить копирование, тексты хранятся в Корпусе как смешанные предложения.

Доступ

Доступ к Татарскому корпусу для исследовательских целей бесплатный.

О процессе создания Корпуса

Создание Корпуса татарского языка было инициировано в 2010 году группой энтузиастов. Задача считалась актуальной, так как она обеспечила бы необходимую базу данных текстов для работы над системами машинного перевода на татарский язык, а также была незаменима при решении задач синтеза и распознавания татарской речи.

Практическое значение и области использования

Основная цель корпуса письменного татарского языка - помощь в исследовании татарской лексики. Кроме того, корпус можно использовать при изучении языка и в качестве источника моделей для различных типов документов.
Корпус письменного татарского языка позволяет пользователю выполнять поиск слов по определенным признакам, видеть слова в их контексте, а также предоставляет пользователю данные о частоте.

Контекстный (статистический) корпус

Этот тип поиска позволяет видеть правый, левый и семантический контексты конкретного слова, отсортированные по частоте.
Правый контекст - слова, помещенные сразу после текущего слова.
Левый контекст - слова, помещенные непосредственно перед текущим словом.
Семантический контекст - слова, находящиеся в одном предложении с текущим словом, т.е. между словами существует какая-то подразумеваемая семантическая связь.

Комплексный морфологический поиск

В 2014 году была проведена морфологическая разметка татарского корпуса. В основе метаязыка грамматических надписей лежит система тегов для тюркских языков, разработанная международным проектом Apertium. Этот проект направлен на разработку системы автоматического перевода для большого количества языков. Основными аргументами в пользу выбора морфологического теггера Apertium для маркировки корпуса являются:
- высокое качество морфологической аннотации;
- это проект с открытым исходным кодом: весь исходный код и данные доступны для всех бесплатно.
Разработанная нами в 2015-2016 гг. Система комплексного морфологического поиска позволяет производить поиск в Корпусе по различным комбинациям таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало слова, средняя часть, конец слова. , и расстояние между искомыми словами. Максимальная длина поискового запроса - пять токенов + соответственно четыре расстояния между ними.

Татарский Синтез речи

Корпус письменного татарского языка предлагает пользователю уникальную возможность прослушать предложения, найденные в поиске, а также прослушать любой другой текст, который пользователь вводит в это средство, см. http://search.corpus.tatar/search/sintez_en.html.

Статистические данные

Создатели Корпуса татарского языка загружают различные дополнительные статистические данные, как только они становятся доступными в результате обработки Корпуса, см. http://corpus.tatar/stat_en.htm.

Недостатки и перспективы

  • Отсутствие офлайн-версии корпуса.
  • Автоматическое устранение неоднозначности.

Авторы

Создатели Корпуса:

  • Сайхунов М.Р. (кандидат филологических наук, научный сотрудник Института информатики)
  • Ибрагимов Т.И. (Кандидат филологических наук, доцент кафедры прикладной лингвистики Казанского федерального университета)
  • Хусаинов Р.Р. (инженер ООО «ГДК»)

С помощью:

  • Республиканский центр развития традиционной культуры
  • Отделение исследований волжских языков Университета Турку (Финляндия)
  • Компания «RX5»
  • Редакция научно-популярного журнала "Фән һәм Тел"

Литература[1]

Рекомендации

внешняя ссылка