Словарь произношения CMU - CMU Pronouncing Dictionary
Разработчики) | Университет Карнеги Меллон |
---|---|
Стабильный выпуск | 0.7b / 19 ноября 2014 г. |
Доступно в | английский |
Лицензия | BSD |
Интернет сайт | www |
В Словарь произношения CMU (также известен как CMUdict) является Открытый исходный код произнося толковый словарь первоначально созданная Speech Group в Университет Карнеги Меллон (CMU) для использования в распознавание речи исследование.
CMUdict обеспечивает отображение орфографических / фонетических слов для английских слов в их североамериканском произношении. Обычно он используется для создания представлений для распознавание речи (ASR), например то КМУ Сфинкс система и синтез речи (TTS), например то Фестиваль система. CMUdict можно использовать в качестве обучающего корпуса для построения статистических моделей графема-фонема (g2p).[1] который будет генерировать произношение для слов, еще не вошедших в словарь.
Самый последний выпуск - 0.7b; он содержит более 134 000 статей. Доступна версия интерактивного поиска.[2]
Формат базы данных
База данных распространяется в виде простого текстового файла с одной записью в строке в формате "WORD <произношение>
"с разделителем в два пробела между частями. Если для слова доступно несколько вариантов произношения, варианты идентифицируются с помощью пронумерованных версий (например, СЛОВО (1)
). Произношение кодируется с использованием измененной формы ARPABET система, с добавлением ударения на гласных уровнях 0, 1 и 2. Линия-инициал ;;;
токен обозначает комментарий. Производный формат, непосредственно подходящий для движков распознавания речи, также доступен как часть дистрибутива; этот формат устраняет различия в напряжении (обычно не используется в ASR).
История
Версия | Дата выхода[3] | Лицензия |
---|---|---|
0.1 | 16 сентября 1993 г. | Всеобщее достояние |
0.2 | 10 марта 1994 г. | Всеобщее достояние |
0.3 | 28 сентября 1994 г. | Всеобщее достояние |
0.4 | 8 ноября 1995 г. | Всеобщее достояние |
0.5 | Нет публичного выпуска | Всеобщее достояние |
0.6 | 11 августа 1998 г. | Всеобщее достояние |
0.7 | Нет публичного выпуска | Всеобщее достояние |
0,7a | 18 февраля 2008 г. | BSD с двумя пунктами |
0,7b | 19 ноября 2014 г.[4] | BSD с двумя пунктами |
Приложения
- В Unifon конвертер основан на словаре произношения CMU.
- В Инструментарий естественного языка содержит интерфейс к словарю произношения CMU.
- Карнеги-Меллон Logios[5] Инструмент включает Словарь произношения CMU.
- PronunDict, словарь произношения американского английского языка, в качестве источника данных использует Словарь произношения CMU. Произношение транскрибируется в IPA символы. Этот словарь также поддерживает поиск по произношению.
- Некоторые программы-синтезаторы голоса, например Креативная студия CeVIO и Синтезатор V использует модифицированную версию словаря произношения CMU для синтеза английских певческих голосов.
- Транскрайбер, инструмент для полнотекстовой фонетической транскрипции, использует словарь произношения CMU
Смотрите также
- Moby Pronunciator, аналогичный проект
Рекомендации
- ^ http://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html
- ^ "Словарь произношения CMU".
- ^ ftp://ftp.cs.cmu.edu/project/speech/dict/[постоянная мертвая ссылка ]
- ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
- ^ «Архивная копия». Архивировано из оригинал на 2011-05-20. Получено 2009-12-19.CS1 maint: заархивированная копия как заголовок (связь)
внешняя ссылка
- Текущая версия словаря находится по адресу SourceForge, хотя есть и версия, поддерживаемая GitHub.
- Домашняя страница - включает поиск по базе данных
- RDF конвертировано в Структура описания ресурсов с открытым исходным кодом Texai проект.