Tehran Monolingual Corpus - Tehran Monolingual Corpus - Wikipedia

Эта статья не цитировать любой источники. Пожалуйста помоги улучшить эту статью к добавление цитат в надежные источники. Материал, не полученный от источника, может быть оспорен и удаленный.
Найдите источники: "Тегеранский одноязычный корпус" – Новости · газеты · книги · ученый · JSTOR (Декабрь 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения)

В Tehran Monolingual Corpus (TMC) - это крупномасштабная Персидский одноязычный корпус. TMC подходит для Языковое моделирование и соответствующие области исследований в Обработка естественного языка.

Корпус извлекается из Хамшахри Корпус и Информационное агентство ISNA интернет сайт. Качество корпуса хамшахри улучшено для целей языкового моделирования с помощью ряда токенизация и шаги проверки орфографии.

TMC содержит более 250 миллионов слов. Общее количество уникальных слов (с частотой два и более) в корпусе составляет около 300 тысяч, что относительно хорошо для языка с высокой флективностью, такого как персидский.

TMC создан Лабораторией обработки естественного языка Тегеранский университет. Корпус является бесплатным для исследовательского использования после получения разрешения от агрегатора корпусов.

Смотрите также

внешняя ссылка

Страница описания TMC

Корпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine