Вычислительная лексикология - Computational lexicology

Вычислительная лексикология это филиал компьютерная лингвистика, который связан с использованием компьютеров в изучении лексикон. Некоторые ученые (Amsler, 1980) более узко охарактеризовали это как использование компьютеров в исследовании машиночитаемые словари. Он отличается от вычислительная лексикография, что более правильно было бы использовать компьютеры при построении словарей, хотя некоторые исследователи использовали вычислительную лексикографию как синоним.

История

Вычислительная лексикология возникла как отдельная дисциплина в рамках компьютерной лингвистики с появлением машиночитаемых словарей, начиная с создания машиночитаемых лент Седьмой университетский словарь Мерриам-Вебстера и Новый карманный словарь Merriam-Webster в 1960-х годах Джон Олни и др. в Корпорация системного развития. Сегодня вычислительная лексикология наиболее известна благодаря созданию и применению WordNet. Поскольку вычислительная обработка исследователей со временем увеличивалась, использование вычислительной лексикологии повсеместно применялось при анализе текста. В 1987 году, среди прочих, Берд, Кальцолари, Чодороу разработали вычислительные инструменты для анализа текста. В частности, модель была разработана для координации ассоциаций с участием органов чувств. многозначный слова.[1]

Изучение лексики

Вычислительная лексикология внесла свой вклад в понимание содержания и ограничений печатных словарей для вычислительных целей (т.е. она прояснила, что предыдущая работа по лексикографии была недостаточна для нужд компьютерной лингвистики). Благодаря работе компьютерных лексикологов была изучена почти каждая часть статьи печатного словаря, начиная от:

  1. что составляет заглавное слово - используется для создания списков орфографических исправлений;
  2. какие варианты и наклонения образуют заглавные слова - используются для эмпирического понимания морфологии;
  3. как заглавное слово разделено на слоги;
  4. как произносится заглавное слово - используется в системах генерации речи;
  5. части речи, которые принимает заглавное слово - используются для POS-тегеры;
  6. любые специальные коды темы или использования, присвоенные заглавному слову - используются для идентификации предмета текстового документа;
  7. определения заглавного слова и их синтаксис - используются для устранения неоднозначности слова в контексте;
  8. этимология заглавного слова и его использование для характеристики словаря по языкам происхождения - используется для характеристики словаря текста в отношении языков его происхождения;
  9. примеры предложений;
  10. дополнения (дополнительные слова и многословные выражения, образующиеся из заглавного слова); и
  11. связанные слова, такие как синонимы и антонимы.

Многие компьютерные лингвисты были разочарованы печатными словарями как ресурсом для компьютерной лингвистики, потому что им не хватало синтаксический и семантический информация для компьютерных программ. Работа над вычислительной лексикологией быстро привела к усилиям в двух дополнительных направлениях.

Преемники вычислительной лексикологии

Во-первых, совместная деятельность компьютерных лингвистов и лексикографов привела к пониманию роли, которую корпуса играют в создании словарей. Большинство компьютерных лексикологов перешли к созданию больших корпусов для сбора основных данных, которые лексикографы использовали для создания словарей. ACL / DCI (Инициатива по сбору данных) и LDC (Консорциум лингвистических данных ) пошел по этому пути. Появление языков разметки привело к созданию корпусов с тегами, которые можно было бы легче анализировать для создания вычислительных лингвистических систем. Корпуса с тегами части речи и корпуса с семантическими тегами были созданы для тестирования и разработки тегов POS и слов семантическое разрешение технологии.

Второе направление было направлено на создание баз лексических знаний (ББЗ). Лексическая база знаний считалась тем, чем должен быть словарь для вычислительных лингвистических целей, особенно для вычислительных лексико-семантических целей. Он должен был содержать ту же информацию, что и в печатном словаре, но полностью разъяснять значения слов и соответствующие связи между смыслами. Многие начали создавать ресурсы, которые, как им хотелось, были словарями, если они были созданы для использования в вычислительном анализе. WordNet можно рассматривать как такую ​​разработку, как и новые попытки описания синтаксической и семантической информации, такие как работа Филлмора по FrameNet. Помимо вычислительной лингвистики, работу над онтологией искусственного интеллекта можно рассматривать как эволюционную попытку создать базу лексических знаний для приложений ИИ.

Стандартизация

Оптимизация производства, обслуживания и расширения вычислительных лексиконов является одним из важнейших аспектов, влияющих на НЛП. Основная проблема - это совместимость: разные лексики часто несовместимы. Наиболее частая ситуация: как объединить два лексикона или фрагменты лексиконов? Вторая проблема состоит в том, что лексикон обычно специально адаптирован к конкретной программе НЛП и имеет трудности с использованием в других программах или приложениях НЛП.

В связи с этим различные модели данных вычислительной лексики изучаются ISO / TC37 с 2003 года в рамках проекта структура лексической разметки что привело к стандарту ISO в 2008 году.

Рекомендации

  1. ^ Берд, Рой Дж., Николетта Кальцолари, Мартин С. Ходоров, Джудит Л. Клаванс, Мэри С. Нефф и Омнея А. Ризк. «Инструменты и методы вычислительной лексикологии».Компьютерная лингвистика 13, нет. 3-4 (1987): 219-240.

Амслер, Роберт А. 1980. Доктор философии. Диссертация "Структура карманного словаря Мерриам-Вебстера". Техасский университет в Остине.

внешняя ссылка