BABEL Speech Corpus - BABEL Speech Corpus

В BABEL речевой корпус представляет собой корпус записанных речевых материалов из пяти Центральная и Восточная Европа языков. Предназначенный для использования в приложениях речевых технологий, он был профинансирован за счет гранта от Евросоюз и завершена в 1998 году. Распространяется Европейская ассоциация языковых ресурсов.

Развитие проекта BABEL

После создания речевого корпуса языков Европейского Союза в рамках проекта SAM финансирование было предоставлено Евросоюз для создания аналогичных линий речевого корпуса языков Центральная и Восточная Европа, с именем BABEL.

Первоначальным стимулом стал проект SAM (Speech Assessment Methods), финансируемый Европейским Союзом как проект ESPRIT № 1541 в 1987–1989 годах.^[1] Этот проект был осуществлен международной группой фонетистов и был применен в первую очередь к датскому, голландскому, английскому, французскому, немецкому и итальянскому языкам Европейского сообщества (к 1989 г.). SAM разработал множество инструментов для исследования речи (в том числе САМПА компьютерная фонетическая транскрипция, которая также использовалась в проекте BABEL) и корпус записанных речевых материалов, распространяемых на CD-ROM.^[2] В 1994 году в рамках инициативы Коперника в Европейский Союз было внесено предложение с целью создания корпуса устной речи. болгарский, эстонский, Венгерский, Польский и румынский, за что был присужден грант №1304. Пилотный проект по созданию небольшого корпуса разговорного болгарского языка был осуществлен совместно университетами Софии (Болгария) и Рединга (Великобритания).^[3] Первая встреча всей команды проекта состоялась в Университете Рединга в 1995 году.

Записанный материал

Поскольку целью было создание материала, подходящего для использования в приложениях речевой техники, цифровые записи производились в строго контролируемых условиях в студиях звукозаписи. Для каждого языка материал имел следующий состав:

Набор, состоящий из многих говорящих: 30 мужчин и 30 женщин каждый прочитают по 100 цифр, 3 отрывка из связанной речи и 5 предложений-заполнителей (чтобы предоставить дополнительные примеры некоторых элементов) или 4 отрывка, если заполнители не нужны.
Набор немногословных: 5 мужчин и 5 женщин, обычно выбираемых из указанной выше группы, каждый читает 5 блоков по 100 чисел, 15 отрывков и 25 предложений-заполнителей, а также 5 списков слогов.
Набор очень мало говорящих: 1 мужчина и 1 женщина, выбранные из вышеперечисленных, читают 5 блоков слогов с предложениями-носителями и без них.

Участие в проекте BABEL

Директор проекта: П. Роуч (Университет Рединга)

Руководители проектов в Центральной и Восточной Европе

Болгария: сначала А. Мишева до самой смерти в 1995 г., затем С. Димитрова (Софийский университет).
Эстония: Э. Мейстер (Таллиннский университет)
Венгрия: К. Вичи (Технический университет Будапешта)
Польша: Р. Губринович (Польская академия наук) и В. Гоне (Люблинский университет).
Румыния: М. Болдеа (Университет Тимишоары)

Участники проекта в Западной Европе

Франция: Л. Ламель (ЛИМСИ, Париж); А. Маршал (CNRS)
Германия: В. Барри (Саарбрюккенский университет); К. Марасек (Штутгартский университет)
Соединенное Королевство: Дж. Уэллс (Университетский колледж Лондона); П. Роуч (Университет Рединга)

Результаты проекта

Промежуточное совещание по оценке проекта было проведено в Люблине, Польша, в 1996 году. Затем работа продолжалась до окончательной оценки и презентации результатов в Гранаде, Испания, на Первой международной конференции по языковым ресурсам и оценке в 1998 году.^[4] Проект был завершен в декабре 1998 года. Полученный комплект корпусов был поставлен на завод. Европейская ассоциация языковых ресурсов. ELRA несет исключительную ответственность за распространение материалов среди пользователей через их веб-сайт.^[5]

На момент завершения BABEL была крупнейшей высококачественной речевой базой данных, доступной для исследовательских целей на таких языках, как венгерский.^[6] и эстонский.^[7] Он использовался для исследования таких тем, как моделирование произношения.^[6] и автоматическое распознавание речи.^[8] Этот проект также был частью того, что было названо наиболее значительным недавним достижением в корпусной лингвистике - увеличивающегося диапазона языков, охватываемых корпусными данными, что обещает принести более широкому кругу языков те преимущества, которые корпусная лингвистика принесла изучению корпусных языков. Западноевропейские языки.^[9]

Рекомендации

^ Д. Чан, А. Фурсен, Д. Гиббон, Б. Гранстром, М. Хаквейл, Г. Коккинакис, К. Квале, Л. Ламель, Б. Линдберг, А. Морено, Дж. Муропулос, Ф. Сениа, И. Транкосо, К. Велд и Дж. Зейлигер, "EUROM - разговорный языковой ресурс для ЕС", в Eurospeech'95, Материалы 4-й Европейской конференции по речевой коммуникации и речевым технологиям. Мадрид, Испания, 18–21 сентября 1995 г. Том 1, стр. 867-870
^ "EUROM1 - Многоязычный речевой корпус". Университетский колледж Лондона. Получено 2015-01-19.
^ Мишева А., Димитрова С., Филипов В., Григорова Е., Ников М., Роуч П. и Арнфилд С. «База данных болгарской речи: пилотное исследование», Материалы Eurospeech ‘95, Мадрид, т. 1, стр 859-862 (1995)
^ Роуч, П., С. Арнфилд, У. Барри, С. Димитрова, М. Болдеа, А. Фурсен, В. Гонет, Р. Губринович, Э. Холлум, Л. Ламель, К. Марасек, А. Маршал, Э. Майстер, К.Вичи (1998). «BABEL: база данных языков Центральной и Восточной Европы», Труды Первой международной конференции по языковым ресурсам и оценке, ред. A. Rubio и др., Granada, Vol. 1. С. 371-4.
^ "Результаты поиска: бабель". Европейская ассоциация языковых ресурсов. Получено 2015-01-18.
^ ^а ^б Фегьо, Тибор; Петер Михайлик; Петер Татаи; Геза Гордос (2001). «Моделирование произношения в венгерском распознавании чисел». В INTERSPEECH, стр. 1465-1468.
^ Алумаэ, Танель (2004). Распознавание слитной речи с большим словарным запасом для эстонского языка с использованием классов морфем. INTERSPEECH, Чеджу, Корея. С. 389–392.
^ Михайлик, Петер; Ревес, Тибор; Татаи, Петер (2001-11-01). «Фонетическая транскрипция в автоматическом распознавании речи» (PDF). Acta Linguistica Hungarica. 49 (3): 407–425. Дои:10.1556 / ALing.49.2002.3-4.9.
^ МакЭнери, Тони (2001). Корпусная лингвистика: введение. Издательство Оксфордского университета. п.188. ISBN 9780748611652.

[1] Д. Чан, А. Фурсен, Д. Гиббон, Б. Гранстром, М. Хаквейл, Г. Коккинакис, К. Квале, Л. Ламель, Б. Линдберг, А. Морено, Дж. Муропулос, Ф. Сениа, И. Транкосо, К. Велд и Дж. Зейлигер, "EUROM - разговорный языковой ресурс для ЕС", в Eurospeech'95, Материалы 4-й Европейской конференции по речевой коммуникации и речевым технологиям. Мадрид, Испания, 18–21 сентября 1995 г. Том 1, стр. 867-870

[2] "EUROM1 - Многоязычный речевой корпус". Университетский колледж Лондона. Получено 2015-01-19.

[3] Мишева А., Димитрова С., Филипов В., Григорова Е., Ников М., Роуч П. и Арнфилд С. «База данных болгарской речи: пилотное исследование», Материалы Eurospeech ‘95, Мадрид, т. 1, стр 859-862 (1995)

[4] Роуч, П., С. Арнфилд, У. Барри, С. Димитрова, М. Болдеа, А. Фурсен, В. Гонет, Р. Губринович, Э. Холлум, Л. Ламель, К. Марасек, А. Маршал, Э. Майстер, К.Вичи (1998). «BABEL: база данных языков Центральной и Восточной Европы», Труды Первой международной конференции по языковым ресурсам и оценке, ред. A. Rubio и др., Granada, Vol. 1. С. 371-4.

[5] "Результаты поиска: бабель". Европейская ассоциация языковых ресурсов. Получено 2015-01-18.

[Fegyo2001-6] а ^б Фегьо, Тибор; Петер Михайлик; Петер Татаи; Геза Гордос (2001). «Моделирование произношения в венгерском распознавании чисел». В INTERSPEECH, стр. 1465-1468.

[7] Алумаэ, Танель (2004). Распознавание слитной речи с большим словарным запасом для эстонского языка с использованием классов морфем. INTERSPEECH, Чеджу, Корея. С. 389–392.

[8] Михайлик, Петер; Ревес, Тибор; Татаи, Петер (2001-11-01). «Фонетическая транскрипция в автоматическом распознавании речи» (PDF). Acta Linguistica Hungarica. 49 (3): 407–425. Дои:10.1556 / ALing.49.2002.3-4.9.

[9] МакЭнери, Тони (2001). Корпусная лингвистика: введение. Издательство Оксфордского университета. п.188. ISBN 9780748611652.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]