Корпус арабской речи - Arabic Speech Corpus

В Корпус арабской речи это Современный стандартный арабский (MSA) речевой корпус для синтез речи. Корпус содержит фонетические и орфографические транскрипции более 3,7 часов речи MSA, согласованные с записанной речью на уровне фонем. Аннотации включают ударение в словах на отдельных фонемах.[1]

Корпус арабской речи был создан в рамках докторского проекта Навар Халаби на Саутгемптонский университет финансируется MicroLinkPC которые владеют исключительной лицензией на коммерциализацию корпуса, но корпус доступен для строго некоммерческих целей через официальный сайт корпуса арабской речи. Распространяется под Creative Commons Международная лицензия Attribution-NonCommercial-ShareAlike 4.0.[2]

Цель

Корпус был в основном построен для целей синтеза речи, в частности Синтез речи, но корпус был использован для построения голосов на основе HMM на арабском языке. Он также использовался для автоматического выравнивания других речевых корпусов с их фонетической расшифровкой и мог использоваться как часть более крупного корпуса для обучения систем распознавания речи.[1]

Содержание

Пакет содержит следующее:

  • 1813 файлов .wav, содержащих речевые высказывания.
  • 1813 .lab файлов, содержащих текстовые высказывания.
  • 1813 Файлы .TextGrid, содержащие метки фонем с отметками времени границ, где они встречаются в файлах .wav. Эти файлы можно открыть с помощью программного обеспечения Praat.
  • phonetic-transcript.txt, который имеет форму «[wav_filename]» «[Phoneme Sequence]» в каждой строке.
  • orthographic-transcript.txt, который имеет форму «[wav_filename]» «[Orthographic Transcript]» в каждой строке. Орфография выполняется в формате Баквальтера, который удобнее там, где есть программы, не читающие арабский шрифт. Его можно легко преобразовать обратно на арабский.
  • Есть дополнительные 18 минут полностью аннотированного корпуса (отдельно от приведенного выше, но с той же структурой, что и выше), которые были использованы для оценки корпуса (см. Докторскую диссертацию).

Корпус также использовался, чтобы доказать, что с помощью автоматически извлеченных орфографических знаков ударения[3] улучшить качество синтеза речи в MSA.

Смотрите также

использованная литература

  1. ^ а б Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (Кандидатская диссертация). Саутгемптонский университет, Школа электроники и компьютерных наук.
  2. ^ Корпус арабской речи (Веб-страница), Оксфордский университет, 2016
  3. ^ Халперн, Джек (2009). Словесное ударение и нейтрализация гласных в современном стандартном арабском языке (PDF). 2-я Международная конференция по ресурсам и инструментам арабского языка. Каир.

внешние ссылки