Корпус современного американского английского - Corpus of Contemporary American English - Wikipedia

В Корпус современного американского английского (COCA) составляет более 560 миллионов слов корпус из Американский английский. Он был создан Марк Дэвис, Профессор Корпусная лингвистика в Университет Бригама Янга (BYU).[1]

Содержание

Корпус насчитывает более 1 миллиарда[2] слов из 220 225 текстов, в том числе по 20 миллионов слов за период с 1990 по 2017 год. Последнее обновление было сделано в декабре 2017 года. Ежемесячно этот корпус используют примерно десятки тысяч людей,[нужна цитата ] что может сделать его наиболее широко используемым "структурированным" корпусом, доступным в настоящее время.[нужна цитата ]

На каждый год корпус равномерно делится на следующие пять жанров: разговорная, художественная, популярные журналы, газеты и академические журналы. Тексты взяты из разных источников:

  • Разговорный: (85 миллионов слов) Стенограммы незашифрованного разговора из почти 150 различных теле- и радиопрограмм.
  • Художественная литература: (81 миллион слов) рассказы и пьесы, первые главы книг с 1990 г. по настоящее время и сценарии фильмов.
  • Популярные журналы: (86 миллионов слов) Около 100 различных журналов из различных областей, таких как новости, здоровье, дом и сад, женские, финансовые, религиозные и спортивные.
  • Газеты: (81 миллион слов) Десять газет со всех концов США, с текстом из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
  • Академические журналы: (81 миллион слов) около 100 различных рецензируемых журналов. Они были выбраны для охвата всего диапазона Система классификации Библиотеки Конгресса.

Доступность

В корпусе можно выполнять поиск через веб-интерфейс,[3] с ограничением количества запросов в день, а доступ с менее ограниченным доступом предоставляется по цене.[4]Полный текст корпуса доступен за дополнительную плату.[5]

Запросы

  • Интерфейс такой же, как интерфейс BYU-BNC для 100 миллионов слов. Британский национальный корпус, корпус журнала TIME из 100 миллионов слов и корпус из 400 миллионов слов * Исторический * американский английский (COHA), 1810–2000-е гг. (см. ссылки ниже)
  • Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. Ниже) и настраиваемым спискам (см. Ниже)
  • Корпус помечен Когти, одинаковый часть речи теггер, который использовался для BNC и корпуса TIME
  • Списки диаграмм (итоговые значения для всех подходящих форм в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота для каждой подходящей формы в каждом жанре или году)
  • Полный поиск словосочетаний (до десяти слов слева и справа от слова узла)
  • Повторно сортируемые соответствия, показывающие наиболее распространенные слова / строки слева и справа от искомого слова
  • Сравнение жанров или периодов времени (например, словосочетания «стул» в художественной или академической литературе, существительные с «разорвать [N]» в газетах или академических изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые встречаются чаще в 2005–2010 гг. ранее)
  • Одноэтапное сравнение словосочетаний связанных слов для изучения семантических или культурных различий между словами (например, сравнение словосочетаний «маленький», «маленький», «крошечный», «миниатюрный» или лилипутский или «демократы» и «республиканцы» , или "мужчины" и "женщины", или "ограбить" против "украсть")
  • Пользователи могут включать семантическую информацию из тезауруса в 60 000 статей непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимов слова «сильный», встречающихся в художественной литературе, но не академических, синонимов слова «чистый» + существительное (« мыть пол ',' мыть посуду '))
  • Пользователи также могут создавать свои собственные «настроенные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определяемой пользователем части речи)
  • Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.

Связанный

Корпус Gloбал Web-бусложненный английский (GloWbE; произносится «глобус») содержит около 1,9 миллиарда слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет выполнять многие типы поиска, которые в противном случае были бы невозможны. В дополнение к этому онлайн-интерфейсу вы также можете загружать полнотекстовые данные из корпуса.

он уникален тем, что позволяет проводить сравнения между различными вариантами английского языка. GloWbE относится ко многим другим корпусам английского языка.[6]

Смотрите также

Библиография

  • Дэвис, Марк (2010). «Корпус современного американского английского языка как первый надежный корпус английского языка». Литературные и лингвистические вычисления. 25 (4): 447–65. Дои:10.1093 / llc / fqq018.
  • Беннетт, Гена Р. (2010). Использование корпусов в классе изучения языков: корпусная лингвистика для учителей. Анн-Арбор, Мичиган: Университет Мичигана. п. 144. ISBN  978-0-472-03385-0.
  • Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпусов». Международный журнал корпусной лингвистики. 15 (3): 405–11. Дои:10.1075 / ijcl.15.3.13dav.
  • Андерсон, Венди; Корбетт, Джон (2009), Изучение английского языка с помощью онлайн-корпуса, Пэлгрейв Макмиллан, стр. 205, ISBN  978-0-230-55140-4
  • Дэвис, Марк (2009). «Корпус из более чем 385 миллионов слов современного американского английского (с 1990 г. по настоящее время)». Международный журнал корпусной лингвистики. Издательская компания Джона Бенджамина. 14 (2): 159–190(32). Дои:10.1075 / ijcl.14.2.02dav.
  • Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка. Издательство Эдинбургского университета. ISBN  978-0-7486-2615-1.
  • Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для больших корпусов: скорость, сложные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики. Издательская компания Джона Бенджамина. 10 (3): 307–334(28). Дои:10.1075 / ijcl.10.3.02dav.

Рекомендации

  1. ^ Кауханен, Анри (21 марта 2011 г.). «Корпус современного американского английского: предыстория и история». ВАРИЕНГ. Получено 2011-10-13.
  2. ^ [1] официальный сайт COCA
  3. ^ "Корпус современного американского английского". Корпус современного американского английского. Получено 20 июля 2017.
  4. ^ "Корпорация BYU: Премиум". BYU корпус. Получено 20 июля 2017.
  5. ^ «Данные корпуса: покупка». Получено 20 июля 2017.
  6. ^ "Корпус глобального английского языка в Интернете". www.english-corpora.org. Получено 2019-12-18.

внешняя ссылка