Словарь произношения CMU - CMU Pronouncing Dictionary

Словарь произношения CMU
Разработчики)Университет Карнеги Меллон
Стабильный выпуск
0.7b / 19 ноября 2014 г.; 6 лет назад (2014-11-19)
Доступно ванглийский
ЛицензияBSD
Интернет сайтwww.речь.cs.cmu.edu/ cgi-bin/ cmudict

В Словарь произношения CMU (также известен как CMUdict) является Открытый исходный код произнося толковый словарь первоначально созданная Speech Group в Университет Карнеги Меллон (CMU) для использования в распознавание речи исследование.

CMUdict обеспечивает отображение орфографических / фонетических слов для английских слов в их североамериканском произношении. Обычно он используется для создания представлений для распознавание речи (ASR), например то КМУ Сфинкс система и синтез речи (TTS), например то Фестиваль система. CMUdict можно использовать в качестве обучающего корпуса для построения статистических моделей графема-фонема (g2p).[1] который будет генерировать произношение для слов, еще не вошедших в словарь.

Самый последний выпуск - 0.7b; он содержит более 134 000 статей. Доступна версия интерактивного поиска.[2]

Формат базы данных

База данных распространяется в виде простого текстового файла с одной записью в строке в формате "WORD <произношение>"с разделителем в два пробела между частями. Если для слова доступно несколько вариантов произношения, варианты идентифицируются с помощью пронумерованных версий (например, СЛОВО (1)). Произношение кодируется с использованием измененной формы ARPABET система, с добавлением ударения на гласных уровнях 0, 1 и 2. Линия-инициал ;;; токен обозначает комментарий. Производный формат, непосредственно подходящий для движков распознавания речи, также доступен как часть дистрибутива; этот формат устраняет различия в напряжении (обычно не используется в ASR).

История

ВерсияДата выхода[3]Лицензия
0.116 сентября 1993 г.Всеобщее достояние
0.210 марта 1994 г.Всеобщее достояние
0.328 сентября 1994 г.Всеобщее достояние
0.48 ноября 1995 г.Всеобщее достояние
0.5Нет публичного выпускаВсеобщее достояние
0.611 августа 1998 г.Всеобщее достояние
0.7Нет публичного выпускаВсеобщее достояние
0,7a18 февраля 2008 г.BSD с двумя пунктами
0,7b19 ноября 2014 г.[4]BSD с двумя пунктами

Приложения

  • В Unifon конвертер основан на словаре произношения CMU.
  • В Инструментарий естественного языка содержит интерфейс к словарю произношения CMU.
  • Карнеги-Меллон Logios[5] Инструмент включает Словарь произношения CMU.
  • PronunDict, словарь произношения американского английского языка, в качестве источника данных использует Словарь произношения CMU. Произношение транскрибируется в IPA символы. Этот словарь также поддерживает поиск по произношению.
  • Некоторые программы-синтезаторы голоса, например Креативная студия CeVIO и Синтезатор V использует модифицированную версию словаря произношения CMU для синтеза английских певческих голосов.
  • Транскрайбер, инструмент для полнотекстовой фонетической транскрипции, использует словарь произношения CMU


Смотрите также

Рекомендации

  1. ^ http://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html
  2. ^ "Словарь произношения CMU".
  3. ^ ftp://ftp.cs.cmu.edu/project/speech/dict/[постоянная мертвая ссылка ]
  4. ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
  5. ^ «Архивная копия». Архивировано из оригинал на 2011-05-20. Получено 2009-12-19.CS1 maint: заархивированная копия как заголовок (связь)

внешняя ссылка