Разговорный английский корпус - Spoken English Corpus

В Разговорный английский корпус (SEC) это речевой корпус сборник записей разговорной речи Британский английский составлен в 1984-7. Руководство по корпусу можно найти на Я ПРИШЕЛ.[1]

История

Проект Разговорный английский корпус (SEC) был совместно поддержан в 1984-5 годах Фондом гуманитарных исследований в Ланкастерском университете и IBM (UK) Ltd, а затем IBM UK Ltd. Проект поддержали Джеффри Лич из Ланкастера и Джеффри Кэй. в IBM. Проект был результатом сотрудничества, финансируемого IBM, между отделом компьютерных исследований английского языка (UCREL) Ланкастерский университет и научный центр IBM в Винчестер.[2]

Компиляция

SEC включает 53 записанных отрывка, в основном из BBC, произносится с акцентом, обычно называемым Полученное произношение, или RP. Коллекция охватывает такие категории, как комментарии, новости, лекции, диалоги, стихи и пропаганда.[3] Корпус содержит 52 637 слов, всего 339 минут. Составление корпуса описано Литой Тейлор в ее статье 1996 года «Составление корпуса разговорного английского».[4]

Транскрипция

Ноулз и др., (1996) Корпус формальной британской английской речи, Routledge
Корпус формального британского английского.jpg

Была разработана система транскрипции интонация материала в записях. Два транскрибатора, Джерри Ноулз и Бриони Уильямс, оба при поддержке Литы Тейлор, проанализировали весь корпус. Система транскрипции объясняется Уильямсом,[5] Брайан Пикеринг провел эксперимент, чтобы оценить степень соглашение между двумя транскрибирующими лицами на участке Корпуса, содержащем около 1000 тон -единицы, которые были расшифрованы обоими транскриберами.[6] Было найдено хорошее согласие.

Важным атрибутом современного корпуса является то, что он читается компьютером: корпус обычно находится на жестком диске, а не на книжной полке. Представляя корпус в этой форме книги, авторы приняли во внимание потребности признанных лингвистов корпуса, а также тех, кто еще не знаком с корпусами. Любой, у кого есть корпус на диске, может делать бумажные копии большинства файлов; но без специального шрифта для печати просодических символов просодические тексты будут либо непечатными, либо нечитаемыми. По этой причине для публикации была выбрана просодическая версия.

Вся транскрипция в печатном виде была сделана в ее нынешнем виде Питером Олдерсоном, который позже стал менеджером по исследованиям речи в IBM. Том позже был назван «Корпус формальной британской английской речи: Корпус разговорного английского языка Ланкастера / IBM» и был впервые опубликован Longman в 1996 году, позже Routledge в 2013 году. В настоящее время книгу можно приобрести в книжных онлайн-магазинах, включая Routledge и Book Depository, или в электронном формате в Google Play Books.[7][8]

Прочие анализы

Грамматическая маркировка каждого слова, исходя из Набор тегов CLAWS1, был добавлен в текст SEC автоматически.[9][10] Тот факт, что эти теги были в машиночитаемой форме, позволил связать грамматический и просодический информация в текстах. Последующая работа использовала вероятностные модели для дальнейшего развития грамматических тегов и создания автоматических разбор техники.[11]

Энн Вихманн опубликовала свое исследование интонации SEC «Интонация в тексте и дискурсе: начало, середины и конец» в 2000 году.[12]

Машиносчитываемый разговорный английский корпус (MARSEC)

Хотя текст и связанные с ним теги существовали в машиночитаемой форме, сами записи существовали только как магнитофонные записи. Сотрудничество, финансируемое Совет по экономическим и социальным исследованиям в 1992-4 гг., между учеными из университетов Ланкастера и Лидс в Соединенном Королевстве намеревались создать версию корпуса, содержащего записи в цифровой форме, привязанные к тексту по времени.[13] Основными исследователями были Джерри Ноулз и Тамас Варади (Ланкастер), а также Питер Роуч и Саймон Арнфилд (Лидс). План проекта изложен в Ноулз,[14] а автоматическая синхронизация по времени описана Роучем и Арнфилдом.[15] Оцифрованные записи были записаны на CD-ROM. Впоследствии он был доступен для загрузки в исследовательских целях из Университета Лидса, хотя эта возможность больше не поддерживается.[16]

Экс-МАРСЕК

Работа над MARSEC в Ланкастере и Лидсе закончилась примерно в 1995 году, но впоследствии корпус стал объектом значительного дальнейшего развития на заводе. Университет Экс-ан-Прованса, Франция, под руководством Дэниела Херста.[17] База данных состоит из двух основных компонентов: оцифрованных записей MARSEC и аннотаций. Аннотации на данный момент выполнены на девяти уровнях, включая фонемы, слоги, слова, стресс ноги, ритм единицы и второстепенные и основные поворотные устройства. Вскоре будут интегрированы два дополнительных уровня: грамматическая аннотация от CLAWS и система грамматики собственности, разработанная в Экс-ан-Провансе.[18] Возможный недостаток такой обработки состоит в том, что поиск в корпусе возможен только с использованием специально написанных скриптов.[19] База данных вместе с инструментами доступна в разделе GNU GPL лицензирование на площадке проекта Aix-MARSEC.[20]

Рекомендации

  1. ^ «ИНФОРМАЦИОННОЕ УПРАВЛЕНИЕ ДЛЯ СОПРОВОЖДЕНИЯ SEC CORPUS». korpus.uib.no. Получено 2020-10-15.
  2. ^ Пиявка, Джеффри. (1996). «Разговорный английский корпус в его контексте». Предисловие. Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью. Лонгман. п. ix. ISBN  9780582045347.
  3. ^ Сяо, Ричард; Тоно, Юкио (2006). МакЭнери, Тони (ред.). Корпоративные языковые исследования: расширенный справочник. Тейлор и Фрэнсис. п. 63. ISBN  9780415286220.
  4. ^ Тейлор, Лита. (1996). «Сборник Разговорного английского корпуса». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью. Лонгман. С. 20–37. ISBN  9780582045347.
  5. ^ Уильямс, Бриони. (1996). «Формулировка системы транскрипции интонации для британского английского». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью. Лонгман. С. 38–57. ISBN  9780582045347.
  6. ^ Пикеринг, Брайан. (1996). «Анализ расхождений транскриберов в SEC». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью. Лонгман. С. 61–86. ISBN  9780582045347.
  7. ^ "Корпус формальной британской английской речи: The Lancaster / IBM Spoken English Corpus (в мягкой обложке) - Routledge". Routledge.com. Получено 2018-07-22.
  8. ^ "Корпус формальной британской английской речи: Джеральд Ноулз: 9781138457768". www.bookdepository.com. Получено 2019-01-30.
  9. ^ Тейлор, Лита. (1996). «Сборник Разговорного английского корпуса». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью. Лонгман. п. 30. ISBN  9780582045347.
  10. ^ "Набор тегов UCREL CLAWS1 (LOB)". ucrel.lancs.ac.uk. Получено 2020-10-15.
  11. ^ Сэмпсон, Джеффри. (1987). «Вероятностные модели анализа». Гарсайд, Роджер; Сэмпсон, Джеффри; Пиявка, Джеффри (1987). Вычислительный анализ английского языка. Лонгман. ISBN  9780582291492.
  12. ^ «Интонация в тексте и дискурсе: начало, середина и конец». Рутледж и CRC Press. Получено 2020-10-15.
  13. ^ Роуч П., Ноулз Г., Варади Т. и Арнфилд С. (1994)«MARSEC: Машиночитаемый корпус разговорного английского». Журнал Международной фонетической ассоциации. 23 (2): 47–54. Дои:10,1017 / с0025100300004849. ISSN  0025-1003.
  14. ^ Ноулз, Г. «Преобразование корпуса в реляционную базу данных: SEC становится MARSEC»Джеффри, пиявка; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере. Лонгман. С. 208–219. ISBN  9780582250215.
  15. ^ Плотва, Питер и Арнфилд, Саймон. «Связывание просодической транскрипции с измерением времени». Джеффри, пиявка; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере. Лонгман. С. 149–160. ISBN  9780582250215.
  16. ^ "MARSEC: Машиносчитываемый корпус разговорного английского языка". www.reading.ac.uk. Получено 2020-10-15.
  17. ^ Херст, Дэниел; Де Луз, Селин; Ауран, Кирилл; Бузон, Кэролайн (27 июля 2010 г.). "База данных Aix-MARSEC". Получено 15 апреля 2013.
  18. ^ Аурон, Кирилл; Бузон, Кэролайн (2003). "Фонотактическая предсказательная и автоматическая синхронизация: приложение в корпусе MARSEC и перспективы" [Предиктивная фонотактика и автоматическое выравнивание: применение в корпусе MARSEC и перспективы]. Travaux interdisciplinaires du labratoire parole et langage d'Aix-en-Provence (На французском). Publications de l'Université de Provence. 22: 33–63. Получено 15 апреля 2013.
  19. ^ Вичманн, Энн "Речевые корпуса и разговорные корпуса"Людлинг, Анке; Кито, Мерджа (2006). Корпус лингвистики 1. Вальтер де Грюйтер. п. 200. ISBN  9783110180435.
  20. ^ Херст, Дэниел. «Проект Экс-МАРСЕК». Получено 15 апреля 2013.