База данных неродной речи - Non-native speech database

А база данных неродной речи это речевая база данных из неродное произношение английского языка. Такие базы данных необходимы для постоянного развития многоязычных автоматических распознавание речи системы, текст в речь системы, тренажеры произношения или даже полнофункциональные системы изучения второго языка. Однако из-за сравнительно небольшого размера баз данных многие из них недоступны через обычных распространителей речевых баз данных. Это приводит к тому, что исследователям в области распознавания речи трудно следить за тем, какие базы данных уже собраны, а для каких целей еще нет коллекций.[1]


Легенда

В таблице неродных баз данных используются сокращения названий языков. Они перечислены в Таблице 1. Таблица 2 дает следующую информацию о каждом корпусе: название корпуса, учреждение, в котором можно получить корпус, или, по крайней мере, должна быть доступна дополнительная информация, язык, на котором фактически говорили носители. , количество носителей, родной язык носителей, общее количество неродных высказываний, содержащихся в корпусе, продолжительность в часах неродной части, дата первой публичной ссылки на этот корпус, некоторый произвольный текст выделение особых аспектов этой базы данных и ссылка на другую публикацию. Ссылка в последнем поле в большинстве случаев относится к статье, специально посвященной описанию этого корпуса первоначальными коллекционерами. В некоторых случаях идентифицировать такую ​​бумагу не удавалось. В этих случаях делается ссылка на статью, в которой используется этот корпус.

Некоторые записи оставлены пустыми, а другие помечены как неизвестные. Разница здесь в том, что пустые записи относятся к атрибутам, значение которых просто неизвестно. Однако неизвестные записи указывают на то, что в самой базе данных нет информации об этом атрибуте. Например, в базе данных погоды Юпитера[2] никаких сведений о происхождении динамиков не приводится. Поэтому эти данные будут менее полезны для проверки обнаружения акцента или аналогичных проблем.

По возможности, имя является стандартным именем корпуса, однако для некоторых меньших корпусов не существовало установленного имени, и, следовательно, необходимо было создать идентификатор. В таких случаях используется комбинация учреждения и сборщика базы данных.

В случае, когда базы данных содержат родную и неродную речь, перечисляются только атрибуты неродной части корпуса. Большинство корпусов представляют собой сборники прочитанной речи. Если корпус вместо этого состоит частично или полностью из спонтанных высказываний, это указывается в столбце «Особые».

Обзор неродных баз данных

Таблица 1: Сокращения для языков, используемых в таблице 2
арабскийАЯпонскийJ
КитайскийCКорейскийK
ЧешскийЧехияМалазийскийM
ДатскийDнорвежский языкN
нидерландский языкDutпортугальскийп
английскийEрусскийр
ФранцузскийFиспанскийS
НемецкийграммШведскийSwe
ГреческийGreТайскийТ
индонезийскийIndвьетнамскийV
Итальянскийя  


Фактическая таблица с информацией о различных базах данных показана в таблице 2.

Таблица 2: Обзор неродных баз данных
КорпусАвторДоступны наЯзыки#Компьютерные колонкиРодной язык# Утт.ПродолжительностьДатаЗамечания
AMI [3]ЕвропаEДут и другие100чзаписи встреч
ATR-Gruhn [4]GruhnATRE96C G F J Ind15000 2004рейтинг квалификации
BAS Strange Corpus 1 + 10 [5] ELRAграмм13950 стран7500 1998 
Ресторан Беркли [6]ИКСИE55G I H C F S J25001994 
Новости трансляции [7] LDCE    1997 
Кембридж-Витт [8]ВиттУниверситет КембриджаE10J I K S1200 1999 
Кембридж-Йе [9]ВыУниверситет КембриджаE20C1600 2005 
Детские Новости [10]ТомокиёCMUE62J C7500 2000частично спонтанный
КЛИПЫ-IMAG [11]ЗагарКЛИПЫ-IMAGF15РЕЗЮМЕ 2006 
CLSU [12] LDCE 22 страны5000 2007телефон, спонтанный
CMU [13] CMUE64грамм4520,9 ч нет в наличии
Cross Towns [14]SchadenУ. БохумE F G I Che Dut161E F G I S72000133ч2006названия городов
Дюк-Арслан [15]АрсланУниверситет ДьюкаE9315 стран2200 1995частично телефонная речь
ERJ [16]MinematsuU. ТокиоE200J68000 2002рейтинг квалификации
Фишер [17]LDCEмного200чтелефонная речь
Фитт [18]ФиттУ. ЭдинбургF I N Gre10E700 1995названия городов
Франки [19] У. ЭрлангенE19грамм2148   
Латиноамериканец [20]Бирн E22S 20ч1998частично спонтанный
HLTC [21] HKUSTE44C 2010доступен для запроса
IBM-Fischer [22] IBME40S F G I2000 2002цифры
Я звоню [23][24]Ченя2R, A * ЗВЕЗДАC30524 страны90841142ч2015фонетическая и тональная транскрипция (в пиньинь), оценка уровня владения языком
ОСТРОВ [25]ЭтвеллЕС / ELDAE46G I400018ч2000 
Юпитер [26]ZueМассачусетский технологический институтEнеизвестныйнеизвестный5146 1999телефонная речь
K-SEC [27]РиSiTECEнеизвестныйK  2004
LDC WSJ1 [28] LDC 10 8001 час1994 
Прыгнуть [29]КишечникУниверситет МюнстераE G12741 другой73.941 слова12ч2003 
ТУМАН [30] ELRAE F G75Dut2200 1996 
НАТО HIWIRE [31] НАТОE81F Gre I S8100 2007чистая речь
НАТО M-ATC [32]ГолубьНАТОE622F G I S983317ч2007сильный фоновый шум
НАТО N4 [33] НАТОE115неизвестный 7,5 ч2006сильный фоновый шум
Ономастика [34]  D Dut E F G Gre I N P S Swe (121000) 1995только лексика
PF-STAR [35] У. ЭрлангенE57грамм46273,4 ч2005детская речь
Sunstar [36] ЕвропаE100Г С И П Д40000 1992парламентская речь
TC-STAR [37]HeuvelELDAE SнеизвестныйСтраны ЕС 13ч2006несколько наборов данных
ТЕД [38]ЛамельELDAE40(188)много 10ч (47ч)1994еврореч 93
TLTS [39] DARPAА E 1 час2004 
Токио-Кикуко [40] U. ТокиоJ14010 стран35000 2004рейтинг квалификации
Вербмобиль [41] U. МюнхенE44грамм 1,5 ч1994очень спонтанный
ВОДИС [42] ЕвропаF G178F G2500 1998об автомобильной навигации
WP арабский [43]РоккаLDCА35E8001 час2002 
WP Русский [44]РоккаLDCр26E25002003 
WP испанский [45]МорганLDCS E  2006 
WSJ говорил [46]  E10неизвестный800 1993 

Рекомендации

  1. ^ М. Рааб, Р. Грун и Э. Нут, Базы данных неродной речи, в Proc. ASRU, Киото, Япония, 2007.
  2. ^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи, РС. диссертация, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.
  3. ^ Проект AMI, "AMI Meeting Corpus" [1].
  4. ^ Р. Грун, Т. Чинкарек и С. Накамура, «База данных нематериального английского языка с несколькими акцентами», в ASJ, 2004.
  5. ^ Университет Мюнхена, «Баварский архив речевых сигналов странного корпуса», [2].
  6. ^ Джурафски и др., "Ресторанный проект Беркли", Proc. ICSLP 1994.
  7. ^ Л. Томокиё, Распознавание неродной речи: характеристика неродной речи и адаптация к ней при распознавании речи, Кандидат наук. Диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
  8. ^ С. Витт, Использование распознавания речи в компьютерном обучении языку, Кандидат наук. дипломная работа, инженерный факультет Кембриджского университета, Великобритания, 1999 г.
  9. ^ Х. Е и С. Янг, Повышение эффективности распознавания речи новичков в разговорной речи при изучении языка, в Proc. Interspeech, Лиссабон, Португалия, 2005 г.
  10. ^ Л. Томокиё, Распознавание неродной речи: характеристика неродной речи и адаптация к ней при распознавании речи, Кандидат наук. диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
  11. ^ Т. П. Тан и Л. Безасье, Корпус французского языка для автоматического распознавания речи, в LREC, Генуя, Италия, 2006.
  12. ^ Т. Ландер, CSLU: Версия 1.2 на английском языке с иностранным акцентом, Тех. Респ., LDC, Филадельфия, Пенсильвания, 2007.
  13. ^ З. Ван, Т. Шульц и А. Вайбель, Сравнение методов адаптации акустической модели на неродной речи, в Proc. ICASSP, 2003.
  14. ^ С. Шаден, Regelbasierte Modellierung fremdsprachlich akzentbehafteter Aussprachevarianten, Кандидат наук. диссертация, Университет Дуйсбург-Эссен, 2006.
  15. ^ Л. М. Арслан и Дж. Х. Хансен, Частотные характеристики иноязычной акцентированной речи, в Proc. из ICASSP, Мюнхен, Германия, 1997, стр. 1123-1126.
  16. ^ N. Minematsu et al., Разработка базы данных англоязычной речи японцев для поддержки исследований CALL, ICA, Киото, Япония, 2004 г., стр. 577-560.
  17. ^ Кристофер Сиери, Дэвид Миллер, Кевин Уокер, Корпус Fisher: ресурс для следующих поколений преобразования речи в текст, Proc. LREC 2004
  18. ^ С. Фитт, Произношение незнакомых названий родных и чужих городов, в Proc. of Eurospeech, 1995, стр. 2227-2230.
  19. ^ Г. Штеммер, Э. Ноэт и Х. Ниманн, Акустическое моделирование иностранных слов в системе распознавания немецкой речи, в Proc. Eurospeech, П. Далсгаард, Б. Линдберг и Х. Беннер, ред., 2001, т. 4. С. 2745-2748.
  20. ^ В. Бирн, Э. Кнодт, С. Худанпур и Дж. Бернштейн, Готово ли автоматическое распознавание речи для неродной речи? Сбор данных и первые эксперименты по моделированию разговорного латиноамериканского английского, в STiLL, Мархольмен, Швеция, 1998, стр. 37-40.
  21. ^ Ю. Ли, П. Фунг, П. Сюй и Ю. Лю, Асимметричное акустическое моделирование для распознавания смешанной речи, в ICASSP, Прага, Чехия, 2011 г., стр. 37-40.
  22. ^ В. Фишер, Э. Янке и С. Кунцманн, Недавний прогресс в декодировании неродной речи с помощью многоязычных акустических моделей, в Proc. Eurospeech, 2003, стр. 3105-3108.
  23. ^ Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пейсуан Ли, Бин Ма, Хайчжоу Ли, Корпус iCALL: мандаринский диалект, на котором говорят лица европейского происхождения, не являющиеся носителями языка, в Proc. компании Interspeech, 2015.
  24. ^ Нэнси Ф. Чен, Виваек Шивакумар, Махеш Харикумар, Бин Ма, Хайчжоу Ли. Широкомасштабная характеристика ошибок произношения мандаринского языка, совершаемых носителями европейских языков, в Proc. Интерспич, 2013.
  25. ^ У. Мензель, Э. Этвелл, П. Бонавентура, Д. Херрон, П. Ховарт, Р. Мортон и К. Саутер, Корпус ISLE разговорного английского языка, в LREC, Афины, Греция, 2000, стр. 957-963.
  26. ^ К. Ливеску, Анализ и моделирование неродной речи для автоматического распознавания речи, РС. диссертация, Массачусетский технологический институт, Кембридж, Массачусетс, 1999.
  27. ^ S-C. Ри и ​​С.Х. Ли и С.К. Канг и И-Дж. Ли, Разработка и создание корпуса корейскоязычного английского языка (K-SEC), Proc. ICSLP 2004
  28. ^ Л. Томокиё, Распознавание неродной речи: характеристика неродной речи и адаптация к ней при распознавании речи, Кандидат наук. Диссертация, Университет Карнеги-Меллона, Пенсильвания, 2001.
  29. ^ Гут, У., Неродная речь. Анализ фонологических и фонетических свойств английского и немецкого языков L2 на основе корпуса, Франкфурт-на-Майне: Питер Ланг, 2009.
  30. ^ TNO Научно-исследовательский институт человеческого фактора, Многоязычная совместимость Mist в базе данных речевых технологий, Тех. Респ., ELRA, Париж, Франция, 2007 г., каталожный номер ELRA S0238.
  31. ^ J.C. Segura et al., База данных HIWIRE, шумный и неродной английский речевой корпус для общения в кабине., 2007, [3].
  32. ^ С. Пиджен, В. Шен и Д. ван Левен, Разработка и описание чужой базы данных военной связи воздушного движения, в ICSLP, Антверпен, Бельгия, 2007.
  33. ^ Л. Бенарусс и др., Корпус натовской и неродной речи (n4), в Proc. семинара MIST (ESCA-NATO), Леусден, сентябрь 1999 г.
  34. ^ Консорциум Onomastica, Лексика межъязыкового произношения ONOMASTICA, в Proc. Eurospeech, Мадрид, Испания, 1995, стр. 829-832.
  35. ^ К. Хакер, Т. Чинкарек, А. Майер, А. Хесслер и Э. Нут, Усиление просодических и произношений для выявления неправильного произношения детей неродного происхождения, в Proc. ICASSP, Гонолулу, Гавай, 2007, стр. 197-200.
  36. ^ К. Тейшейра, И. Транкозу и А. Серральхейро, Распознавание неродных акцентов, в Proc. Eurospeech, Родос, Греция, 1997 г., стр. 2375-2378.
  37. ^ Х. Хеувел, К. Чукри, К. Голлан, А. Морено и Д. Мостефа, TC-STAR: новые языковые ресурсы для ASR и SLT, в LREC, Генуя, 2006, стр. 2570-2573.
  38. ^ Л. Ф. Ламель, Ф. Шиль, А. Фурсен, Дж. Мариани и Х. Тильман, Англоязычная база данных TED, в ICSLP, Иокогама, Япония, сентябрь 1994 г.
  39. ^ Н. Моте, Л. Джонсон, А. Сетхи, Дж. Сильва и С. Нараянан, Обнаружение тактического языка и моделирование речевых ошибок учащихся: пример обучения тактическому языку арабскому языку для носителей американского английского, в Proc. ИнСТИЛ, июнь 2004 г.
  40. ^ К. Нишина, Разработка базы данных японской речи, прочитанной не носителями языка, для построения системы CALLв ICA, Киото, Япония, 2004 г., стр. 561-564.
  41. ^ Университет Мюнхена, Проект Вербмобиль, [4].
  42. ^ И. Транкозу, К. Виана, И. Маскареньяс и К. Тейшейра, О выводе правил для естественного произношения в навигационных запросах, в Proc. Eurospeech, 1999.
  43. ^ А. ЛаРокка и Р. Чуайри, Корпус арабской речи вест-пойнт, Тех. Респ., LDC, Филадельфия, Пенсильвания, 2002.
  44. ^ А. ЛаРокка и К. Томей, Корпус русской речи вест пойнт, Тех. Респ., LDC, Филадельфия, Пенсильвания, 2003 г.
  45. ^ Дж. Морган, Вест-пойнт героическая испанская речь, Тех. Респ., LDC, Филадельфия, Пенсильвания, 2006 г.
  46. ^ И. Амдал, Ф. Коркмазский, А. К. Сурендран, Совместное моделирование произношения не носителей языка с использованием методов на основе данных, в ICSLP, Пекин, Китай, 2000, стр. 622-625.