Tehran Monolingual Corpus - Tehran Monolingual Corpus - Wikipedia

В Tehran Monolingual Corpus (TMC) - это крупномасштабная Персидский одноязычный корпус. TMC подходит для Языковое моделирование и соответствующие области исследований в Обработка естественного языка.

Корпус извлекается из Хамшахри Корпус и Информационное агентство ISNA интернет сайт. Качество корпуса хамшахри улучшено для целей языкового моделирования с помощью ряда токенизация и шаги проверки орфографии.

TMC содержит более 250 миллионов слов. Общее количество уникальных слов (с частотой два и более) в корпусе составляет около 300 тысяч, что относительно хорошо для языка с высокой флективностью, такого как персидский.

TMC создан Лабораторией обработки естественного языка Тегеранский университет. Корпус является бесплатным для исследовательского использования после получения разрешения от агрегатора корпусов.

Смотрите также

внешняя ссылка