Списки слов по частоте - Word lists by frequency

Списки слов по частоте - это списки слов языка, сгруппированные по частоте встречаемости в пределах некоторого заданного текстовый корпус, либо по уровням, либо в виде ранжированного списка, служащего цели словарный запас. Список слов по частоте «обеспечивает рациональную основу для того, чтобы учащиеся получали максимальную отдачу от своих усилий по изучению словарного запаса» (Нация 1997 ), но в основном предназначена для авторов курсов, а не непосредственно для учащихся. Списки частот также составлены для лексикографических целей и служат своего рода контрольный список чтобы не пропустить общие слова. Некоторые серьезные подводные камни - это содержание корпуса, корпус регистр, и определение "слово ". Хотя подсчету слов уже тысяча лет, а гигантский анализ был проведен вручную в середине 20 века, электронная обработка естественного языка больших корпусов, таких как субтитры к фильмам (мегастудия SUBTLEX), ускорило поле исследований.

В компьютерная лингвистика, а список частот это отсортированный список слова (типы слов) вместе с их частота, где частота здесь обычно означает количество вхождений в данный корпус, из которого можно получить ранг как позицию в списке.

ТипВхожденияКлассифицировать
то37896541-й
он20987622-й
[...]
король578971,356-е
мальчик569751,357-й
[...]
тягучий534,589-й
[...]
трансдукционализировать1123,567-й

Методология

Факторы

Нация (Нация 1997 ) отметил невероятную помощь, которую оказывают вычислительные возможности, значительно упрощая анализ корпуса. Он назвал несколько ключевых моментов, которые влияют на составление списков частот:

  • представительность корпуса
  • частота и диапазон слов
  • обработка семейств слов
  • обработка идиом и фиксированных выражений
  • диапазон информации
  • различные другие критерии

Корпуса

Традиционный письменный корпус

Большинство доступных в настоящее время исследований основаны на письменных текстовый корпус, более доступный и простой в обработке.

SUBTLEX движение

Тем не мение, New et al. 2007 г. предложила использовать большое количество субтитров, доступных в Интернете, для анализа большого количества выступлений. Brysbaert & New 2009 провели длительную критическую оценку традиционного подхода к анализу текста и поддержали переход от письменного корпуса к устному анализу корпусов, а также благодаря открытым субтитрам к фильмам, доступным в Интернете. За этим недавно последовало несколько последующих исследований.[1], обеспечивающий ценный анализ частотности для разных языков. Действительно, движение СУБТЛЕКС завершило за пять лет полноценное изучение французского (New et al. 2007 г. ), Американский английский (Brysbaert & New 2009; Brysbaert, New & Keuleers, 2012 г. ), Нидерландский язык (Keuleers & New 2010 ), Китайский (Кай и Брайсберт 2010 ), Испанский (Cuetos et al. 2011 г. ), Греческий (Dimitropoulou et al. 2010 г. ), Вьетнамский (Фам, Болджер и Баайен 2011 ), Бразильский португальский (Тан 2012 ) и португальский португальский (Соарес и др. 2015), албанский (Авдили и Куетос 2013 ) и польский (Mandera et al. 2014 г. ). SUBTLEX-IT (2015) предоставляет только сырые данные[1].

Лексическая единица

В любом случае следует определить базовую «словесную» единицу. В латинских шрифтах слова обычно состоят из одного или нескольких символов, разделенных пробелами или знаками препинания. Но могут возникать исключения, такие как английское «не могу», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее сгруппировать слова семейство слов под предлогом своего базовое слово. Таким образом, возможно, невозможно, возможность слова из одного семейства, представленные основным словом * возможно *. Для статистических целей все эти слова объединены в базовую словоформу * возможно *, что позволяет ранжировать появление понятия и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором не используются пробелы между словами, и где указанная цепочка из нескольких символов может интерпретироваться либо как фраза из слов с уникальным символом, либо как слово из нескольких символов.

Статистика

Кажется, что Закон Ципфа справедливо для списков частот, взятых из более длинных текстов на любом естественном языке. Списки частот - полезный инструмент при построении электронного словаря, что является предпосылкой для широкого спектра приложений в компьютерная лингвистика.

Немецкие лингвисты определяют Häufigkeitsklasse (частотный класс) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее частого элемента. Самый распространенный элемент относится к классу частоты 0 (ноль), а любой элемент, который примерно вдвое реже, относится к классу 1. В приведенном выше списке примеров слово с ошибкой возмутительный имеет соотношение 76/3789654 и принадлежит к классу 16.

куда это функция пола.

Списки частот вместе с семантические сети, используются для определения наименее распространенных специализированных терминов, которые необходимо заменить их гиперонимы в процессе семантическое сжатие.

Педагогика

Эти списки не предназначены для непосредственного предоставления учащимся, а скорее служат в качестве руководства для учителей и авторов учебников (Нация 1997 ). Пол Нэйшн Краткое изложение современного языка обучения призывает сначала «перейти от высокочастотной лексики и специальной [тематической] лексики к низкочастотной лексике, а затем научить учащихся стратегиям для поддержания автономного расширения словарного запаса» (Нация и 2006la).

Влияние частоты слов

Частота слова, как известно, имеет различные эффекты (Brysbaert et al. 2011 г.; Руделл 1993 ). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что учащийся подвергается большему воздействию (Лауфер 1997). На лексический доступ положительно влияет высокая частота слов, явление, называемое эффект частоты слов (Segui et al. ). Влияние частоты слов связано с эффектом возраст приобретения, возраст, в котором слово было изучено.

Языки

Ниже представлен обзор доступных ресурсов.

английский

Подсчет слов восходит к Эллинистический время. Торндайк и Лорге с помощью своих коллег насчитали 18000000 беговых слов, чтобы составить первый крупномасштабный список частот в 1944 году, прежде чем современные компьютеры сделали такие проекты намного проще (Нация 1997 ).

Традиционные списки

Все они страдают от возраста. В частности, слова, относящиеся к технологиям, такие как "блог", которые в 2014 году занимали 7665 место по частоте.[2] в Корпусе современного американского английского языка,[3] впервые было засвидетельствовано в 1999 г.,[4][5][6] и не фигурирует ни в одном из этих трех списков.

Книга слов для учителей из 30 000 слов (Торндайк и Лорге, 1944)

TWB содержит 30 000 лемм или ~ 13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов написанных слов был проанализирован вручную. Размер исходного корпуса увеличил его полезность, но его возраст и языковые изменения уменьшили его применимость (Нация 1997 ).

В Список общего обслуживания (Запад, 1953)

GSL содержит 2000 заглавных слов, разделенных на два набора по 1000 слов. В 1940-х годах был проанализирован корпус из 5 миллионов письменных слов. Приведена частота встречаемости (%) различных значений и частей речи заглавного слова. К корпусу тщательно применялись различные критерии, кроме частоты и диапазона. Таким образом, несмотря на свой возраст, некоторые ошибки и весь корпус, состоящий из полностью написанного текста, он по-прежнему является отличной базой данных по частоте слов, частоте значений и снижению шума (Нация 1997 ). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом в качестве Новый список категории общего обслуживания.

Книга частотных данных американского наследия (Кэрролл, Дэвис и Ричман, 1971)

Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (разные классы, разные предметные области). Его ценность заключается в том, что он ориентирован на школьные учебные материалы, и его тегирование слов по частоте употребления каждого слова в каждом школьном классе и в каждой из предметных областей (Нация 1997 ).

Большой бизнес Брауна (Фрэнсис и Кучера, 1982) и связанные с ним корпуса

Теперь они содержат 1 миллион слов из письменного корпуса, представляющего различные диалекты английского языка. Эти источники используются для составления списков частот (Нация 1997 ).

Французский

Традиционные наборы данных

Обзор был сделан Новый, Pallier & 3.01. В 1950–60-х годах была предпринята попытка Français fondamental. Он включает в себя список F.F.1 с 1500 высокочастотными словами, дополненный более поздним списком F.F.2 с 1700 среднечастотными словами и наиболее часто используемыми синтаксическими правилами.[7] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения,[8] в то время как 3680 слов составляют около 95 ~ 98% охвата.[9] Доступен список из 3000 часто используемых слов.[10]

Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейства слов, предоставленный лексикологом Этьен Брюне.[11] Жан Бодо провел исследование на модели американского исследования Брауна под названием «Fréquences d'utilisation des mots en français écrit contemporain».[12]

Совсем недавно проект Lexique3 содержит 142 000 французских слов, с орфография, фонетический, слоговое письмо, часть речи, Пол, количество вхождений в исходный корпус, ранг частоты, связанный лексемы и др., доступные по открытой лицензии CC-by-sa-4.0.[13]

Subtlex

Эта Lexique3 является непрерывным исследованием, из которого исходит Тонкое движение цитируется выше. Новинка 2007 г. сделали совершенно новый подсчет на основе субтитров онлайн-фильмов.

испанский

Было проведено несколько исследований частотности испанских слов (Cuetos et al. 2011 г. ).[14]

Китайский

Китайские корпуса давно изучаются с точки зрения частотных списков. Исторический способ изучения китайской лексики основан на частоте символов (Алланик 2003 ). Американский китаевед Джон ДеФрэнсис отметил его важность для китайского как иностранного языка, изучающего и преподаваемого в Почему Джонни не может читать по-китайски (ДеФрансис 1966 ). В качестве инструментария частоты Da (Да 1998 ) и Министерство образования Тайваня (TME 1997 ) предоставил большие базы данных с частотными рангами для символов и слов. В HSK список из 8 848 слов высокой и средней частоты в Китайская Народная Республика, а Китайская Республика (Тайвань) с ВЕРХ Список из около 8600 общих традиционных китайских слов - это два других списка, отображающих общие китайские слова и символы. Следуя движению SUBTLEX, Кай и Брайсберт 2010 недавно провел обширное исследование частот китайских слов и символов.

Другой

Наиболее часто используемые слова на разных языках на основе Википедии или комбинированных корпусов.[15]

Смотрите также

Примечания

  1. ^ а б "Crr» Частота слов субтитров ".
  2. ^ «Слова и фразы: частота, жанры, словосочетания, соответствия, синонимы и WordNet».
  3. ^ "Корпус современного американского английского (COCA)".
  4. ^ "Это ссылки, тупица". Экономист. 2006-04-20. Получено 2008-06-05.
  5. ^ Мерхольц, Питер (1999). "Peterme.com". Интернет-архив. Архивировано из оригинал на 1999-10-13. Получено 2008-06-05.
  6. ^ Коттке, Джейсон (2003-08-26). "kottke.org". Получено 2008-06-05.
  7. ^ "Le français fondamental". Архивировано из оригинал 4 июля 2010 г.
  8. ^ Узулиас, Андре (2004), Comprendre et aider les enfants en hardé scolaire: Le Vocabulaire fondamental, 70 mots essentiels (PDF), Рец - Ссылаясь на V.A.C Henmon
  9. ^ «Общие».
  10. ^ "PDF 3000 французских слов".
  11. ^ "Maitrise de la langue à l'école: Vocabulaire". Ministère de l'éducation nationale.
  12. ^ Бодо, Ж. (1992), Fréquences d'utilisation des mots en français écrit contemporain, Press de L'Université, ISBN  978-2-7606-1563-2
  13. ^ «Лексика».
  14. ^ "Списки частотности испанских слов". Vocabularywiki.pbworks.com.
  15. ^ Наиболее часто используемые слова на разных языках, эзглот

Рекомендации

Теоретические концепции

Базы данных на основе письменных текстов

SUBTLEX движение