Контролируемый словарный запас - Controlled vocabulary

Контролируемые словари предоставить способ систематизировать знания для последующего поиска. Они используются в предметное указание схемы, предметные рубрики, тезаурусы,[1][2] таксономии и другие системы организации знаний. Схемы контролируемой лексики требуют использования заранее определенных утвержденных терминов, которые были предварительно выбраны разработчиками схем, в отличие от словарей естественного языка, которые не имеют таких ограничений.

В библиотеке и информатике

В библиотека и информатика, контролируемая лексика - это тщательно подобранный список слова и фразы, которые привыкли тег единицы информации (документ или произведение), чтобы их было легче найти с помощью поиска.[3][4] Управляемые словари решают проблемы омографы, синонимы и полисемы по биекция между понятиями и утвержденными терминами. Короче говоря, контролируемые словари уменьшают двусмысленность, присущую нормальным человеческим языкам, где одному и тому же понятию могут быть присвоены разные имена, и обеспечивают согласованность.

Например, в Предметные рубрики Библиотеки Конгресса[5] (система предметных заголовков, использующая контролируемый словарь), разрешенные термины - в данном случае предметные заголовки - должны быть выбраны для управления выбором между вариантами написания одного и того же слова (американское или британское), выбором между научными и популярными терминами (таракан против Periplaneta americana) и выбор между синонимами (автомобиль против машина) среди других сложных вопросов.

Выбор разрешенных сроков основан на принципах пользовательская гарантия (какие термины могут использовать пользователи), литературный ордер (какие термины обычно используются в литературе и документах) и структурный ордер (термины выбираются с учетом структуры, объема контролируемого словаря).

Контролируемые словари также обычно решают проблему омографы с квалификаторами. Например, термин бассейн должен быть квалифицирован, чтобы ссылаться на плавательный бассейн или игра бассейн чтобы гарантировать, что каждый утвержденный термин или заголовок относится только к одному понятию.

Типы, используемые в библиотеках

В библиотеках используются два основных вида инструментов с контролируемым словарным запасом: предметные рубрики и тезаурусы. Хотя различия между ними уменьшаются, есть еще некоторые незначительные различия.

Исторически предметные заголовки создавались каталогизаторами для описания книг в каталогах библиотек, в то время как тезаурусы использовались индексаторами для применения индексных терминов к документам и статьям. Предметные заголовки имеют тенденцию быть более широкими по объему, описывая целые книги, в то время как тезаурусы имеют тенденцию быть более специализированными, охватывающими очень конкретные дисциплины. Также из-за системы карточного каталога, предметные заголовки, как правило, содержат термины в косвенном порядке (хотя с появлением автоматизированных систем это устраняется), в то время как термины тезауруса всегда находятся в прямом порядке. В предметных заголовках также обычно используется более предварительная координация терминов, так что разработчик контролируемого словаря объединяет различные концепции вместе, чтобы сформировать один утвержденный предметный заголовок. (например, дети и терроризм), в то время как тезаурусы, как правило, используют прямые термины в единственном числе. Наконец, тезаурусы перечисляют не только эквивалентные термины, но также более узкие, широкие термины и связанные термины среди различных разрешенных и несанкционированных терминов, в то время как исторически большинство предметных заголовков этого не делали.

Например, Предметный заголовок Библиотеки Конгресса сам по себе не имел особой синдетической структуры до 1943 года, и только в 1985 году он начал принимать термин типа тезауруса "Более широкий термин " и "Узкий срок ".

В термины выбираются и организуются обученными профессионалами (включая библиотекарей и специалистов по информатике), обладающих опытом в данной предметной области. Термины из контролируемого словаря могут точно описать, о чем на самом деле данный документ, даже если сами термины не встречаются в тексте документа. Хорошо известные системы предметных рубрик включают Система Библиотеки Конгресса, MeSH, и Sears. Хорошо известные тезаурусы включают Тезаурус по искусству и архитектуре и ЭРИК Тезаурус.

Выбор разрешенных терминов для использования - непростое дело, помимо уже рассмотренных выше областей, разработчик должен учитывать специфику выбранного термина, использовать ли прямой ввод, согласованность и стабильность языка. Наконец, еще одним важным вопросом является количество предварительных согласований (в этом случае становится проблемой степень подсчета по сравнению с синтезом) и пост-координаты в системе.

Элементы контролируемой лексики (термины / фразы), используемые в качестве теги, чтобы помочь в процессе идентификации содержимого документов или других объектов информационной системы (например, СУБД, веб-служб), квалифицируется как метаданные.

Языки индексации

Есть три основных типа языков индексации.

  • Управляемый язык индексирования - индексатор может использовать только утвержденные термины для описания документа
  • Естественный язык язык индексации - любой термин из рассматриваемого документа может быть использован для описания документа
  • Свободный язык индексации - любой термин (не только из документа) может использоваться для описания документа

При индексировании документа индексатор также должен выбрать уровень полноты индексации, уровень детализации описания документа. Например, при использовании низкой полноты индексации второстепенные аспекты работы не будут описаны с помощью терминов индекса. Как правило, чем выше полнота индексации, тем больше терминов индексируется для каждого документа.

В былые времена свободный текстовый поиск как средство доступа к документам стало популярным. Это включает использование индексации естественного языка с исчерпывающей установкой индексации на максимум (каждое слово в тексте индексированный). Было проведено множество исследований для сравнения эффективности и действенности свободного текстового поиска с документами, которые были проиндексированы экспертами с использованием нескольких хорошо подобранных дескрипторов контролируемого словаря.

Преимущества

Часто утверждается, что контролируемые словари повышают точность поиска произвольного текста, например, уменьшают не имеющий отношения элементы в списке поиска. Эти нерелевантные предметы (ложные срабатывания ) часто вызваны врожденной неоднозначностью естественный язык. Возьмите английское слово футбол Например. Футбол это имя, данное ряду различных командные виды спорта. Самым популярным из этих командных видов спорта во всем мире является ассоциация футбола, который также называется футбольный в нескольких странах. Слово футбол также применяется к регби (регби и лига регби ), Американский футбол, Австралийский футбол по правилам, Гэльский футбол, и Канадский футбол. Поиск по футбол таким образом будет извлекать документы о нескольких совершенно разных видах спорта. Управляемый словарный запас решает эту проблему за счет маркировка документы таким образом, чтобы исключить двусмысленность.

По сравнению с поиском по свободному тексту, использование контролируемого словаря может значительно повысить производительность системы поиска информации, если производительность измеряется точностью (процент документов в списке поиска, которые на самом деле соответствующий в тему поиска).

В некоторых случаях контролируемый словарный запас также может улучшить вспоминание, потому что, в отличие от схем естественного языка, после поиска правильного авторизованного термина нет необходимости искать другие термины, которые могли бы быть синонимами этого термина.

Проблемы

Контролируемый поиск по словарю может привести к неудовлетворительным результатам. отзывать, поскольку он не сможет получить некоторые документы, которые действительно имеют отношение к поисковому запросу.

Это особенно проблематично, когда вопрос поиска включает в себя термины, которые достаточно касаются предметной области, так что индексатор, возможно, решил пометить его, используя другой термин (но искатель может подумать о том же). По сути, этого может избежать только опытный пользователь контролируемого словаря, понимание которого совпадает с пониманием индексатора.

Другая возможность заключается в том, что статья просто не помечена индексатором из-за низкой полноты индексации. Например, в статье футбол может быть упомянут как второстепенный объект, а индексатор может решить не помечать его словом «футбол», потому что это недостаточно важно по сравнению с основным направлением. Но оказывается, что для искателя эта статья актуальна и, следовательно, вспомнить не удается. Независимо от того, произвольный текстовый поиск найдет эту статью автоматически.

С другой стороны, поиск по произвольному тексту имеет высокую исчерпывающую способность (поиск выполняется по каждому слову), поэтому, хотя он имеет гораздо более низкую точность, он имеет потенциал для быстрого отзыва, если искатель преодолевает проблему синонимов, вводя каждую комбинацию.

Контролируемые словари могут быстро устареть в быстро развивающихся областях знаний, если разрешенные термины не обновляются регулярно. Даже в идеальном сценарии контролируемая лексика часто менее конкретна, чем слова самого текста. Индексаторы, пытающиеся выбрать подходящие термины для индекса, могут неверно истолковать автора, хотя эта конкретная проблема не является фактором в свободном тексте, поскольку в нем используются собственные слова автора.

Использование контролируемых словарей может быть дорогостоящим по сравнению с поиском по свободному тексту, поскольку для индексации каждой записи необходимы специалисты или дорогостоящие автоматизированные системы. Кроме того, пользователь должен быть знаком со схемой управляемого словаря, чтобы использовать систему наилучшим образом. Но как уже упоминалось, контроль синонимов, омографов может помочь повысить точность.

Было разработано множество методологий, помогающих в создании контролируемых словарей, в том числе фасетная классификация, который позволяет описывать данную запись данных или документ несколькими способами.

Приложения

Контролируемые словари, такие как Предметные рубрики Библиотеки Конгресса, являются важным компонентом Библиография, изучение и классификация книг. Первоначально они были разработаны в библиотека и информатика. В 1950-х годах правительственные агентства начали разрабатывать контролируемые словари для растущей журнальной литературы в специализированных областях; примером является Рубрики медицинской тематики (MeSH) разработан Национальная медицинская библиотека США. Впоследствии появились коммерческие фирмы (так называемые службы реферирования и индексации), которые индексировали быстрорастущую литературу во всех областях знаний. В 1960-х годах индустрия онлайн-библиографических баз данных развивалась на основе коммутируемого доступа. X.25 сети. Эти услуги редко были доступны общественности, потому что ими было трудно пользоваться; Специализированные библиотекари, называемые поисковыми посредниками, выполняли поисковую работу. В 80-е годы первые полный текст появились базы данных; эти базы данных содержат полный текст статей указателя, а также библиографическую информацию. Онлайновые библиографические базы данных перекочевали в Интернет и теперь общедоступны; однако большинство из них являются проприетарными и могут быть дорогими в использовании. Студенты колледжей и университетов могут получить доступ к некоторым из этих услуг бесплатно; некоторые из этих услуг могут быть доступны бесплатно в публичной библиотеке.

Техническая коммуникация

В крупных организациях могут быть введены контролируемые словари для улучшения техническая коммуникация. Использование контролируемого словаря гарантирует, что все используют одно и то же слово для обозначения одного и того же. Согласованность терминов - одна из самых важных концепций в техническое письмо и управление знаниями, когда прилагаются усилия, чтобы использовать одно и то же слово в документ или же организация вместо немного разных, чтобы относиться к одному и тому же.

Семантическая сеть и структурированные данные

Поиск в сети может быть значительно улучшен путем разработки управляемого словаря для описания веб-страниц; использование такого словаря может привести к Семантическая сеть, в котором содержание веб-страниц описывается с помощью машиночитаемого метаданные схема. Одним из первых предложений такой схемы является Дублинское ядро Инициатива. Пример контролируемого словаря, который можно использовать для индексирование веб-страниц является PSH.

Маловероятно, что единая схема метаданных когда-либо сможет описать содержание всей сети.[6] Для создания семантической сети может потребоваться использовать две или более систем метаданных для описания содержимого веб-страницы. EXchangeable Faceted Metadata Language (XFML) разработан, чтобы позволить создателям контролируемых словарей публиковать и совместно использовать системы метаданных. XFML разработан на фасетная классификация принципы.[7][неосновной источник необходим ]

Контролируемые словари Семантическая сеть определить концепции и отношения (термины), используемые для описания области интересов или проблемной области. Например, чтобы объявить человека в машиночитаемом формате, необходим словарь, имеющий формальное определение «Человек», например «Друг друга» (FOAF ) словарь, который имеет класс Person, который определяет типичные свойства человека, включая, помимо прочего, имя, почетный префикс, принадлежность, адрес электронной почты и домашнюю страницу, или словарь Person Schema.org.[8] Точно так же книгу можно описать с помощью словаря Book of Schema.org[9] и общие условия публикации из Дублинское ядро словарный запас,[10] событие со словарем событий Schema.org,[11] и так далее.

Чтобы использовать машиночитаемые термины из любого контролируемого словаря, веб-дизайнеры могут выбирать из множества форматов аннотаций, включая RDFa, Микроданные HTML5, или же JSON-LD в разметке или RDF сериализации (RDF / XML, Turtle, N3, TriG, TriX) во внешних файлах.

Смотрите также

Рекомендации

  1. ^ Контролируемые словари Ссылки на примеры тезаурусов и классификационных схем.
  2. ^ Контролируемые словари Ссылки на примеры тезаурусов и классификационных схем, используемых в области сельского хозяйства, рыболовства, лесного хозяйства и т. Д.
  3. ^ Эми Уорнер, Праймер таксономии // мертвая ссылка.
  4. ^ Карл Фаст, Фред Лейз и Майк Стекель, [1]
  5. ^ "Контролируемые словари | Библиотекари | Библиотека Конгресса". Библиотека Конгресса. Получено 2018-05-22.
  6. ^ Кори Доктороу, Metacrap.
  7. ^ Марк Пилигрим, eXchangeable Faceted Metadata Language.
  8. ^ "Личный словарь Schema.org". Получено 13 марта 2015.
  9. ^ "Книжный словарь Schema.org". Получено 13 марта 2015.
  10. ^ «Набор элементов метаданных Dublin Core, версия 1.1». Получено 13 марта 2015.
  11. ^ "Словарь событий Schema.org". Получено 13 марта 2015.

Внешняя ссылка