Тезаурус (информационный поиск) - Thesaurus (information retrieval)

В контексте поиск информации, а тезаурус (множественное число: «тезаурусы») - это форма контролируемый словарный запас который стремится продиктовать смысловые проявления метаданные в индексировании контентных объектов. Тезаурус служит для минимизации семантической неоднозначности, обеспечивая единообразие и согласованность в хранении и поиске проявлений объектов контента. ANSI / NISO Z39.19-2005 определяет объект контента как «любой элемент, который должен быть описан для включения в систему поиска информации, веб-сайт или другой источник информации».[1] Тезаурус помогает назначать предпочтительные термины для передачи семантических метаданных, связанных с объектом контента.[2]

Тезаурус служит руководством как для индексатора, так и для поисковика при выборе одного и того же предпочтительного термина или комбинации предпочтительных терминов для представления данной темы. ISO 25964, международный стандарт для тезаурусов поиска информации, определяет тезаурус как «контролируемый и структурированный словарь, в котором понятия представлены терминами, организованными таким образом, что отношения между понятиями становятся явными, а предпочтительные термины сопровождаются вводными записями для синонимов или квазисинонимы ».

Тезаурус состоит как минимум из трех элементов: 1 - список слов (или терминов), 2 - отношения между словами (или терминами), обозначенные их относительным положением в иерархии (например, родительский / более широкий термин; дочерний / более узкий термин. , синоним и т. д.), 3 - свод правил использования тезауруса.

История

Везде, где собирались большие объемы информации, будь то на бумаге или в компьютере, ученые сталкивались с проблемой точного определения предметов, которые они ищут. Использование классификационных схем для упорядочивания документов было лишь частичным решением. Другой подход заключался в индексации содержимого документов с использованием слов или терминов, а не кодов классификации. В 1940-х и 1950-х годах некоторые пионеры, такие как Кальвин Мурс, Чарльз Л. Бернье, Эван Дж. Крейн и Ханс Петер Лун, собрали свои индексные термины в различные виды списков, которые они назвали «тезаурусом» (по аналогии с хорошо известным тезаурусом, разработанным Питер Роже ).[3] Первым подобным списком, серьезно использовавшимся при поиске информации, был тезаурус, разработанный в 1959 году в компании E I Dupont de Nemours.[4][5]

Первые два из этих списков были опубликованы Тезаурус дескрипторов ASTIA (1960) и Тезаурус химической инженерии Американского института инженеров-химиков (1961), потомка тезауруса Дюпон. Затем последовали другие, кульминацией которых стали влиятельные Тезаурус технических и научных терминов (TEST) опубликовано совместно Объединенным советом инженеров и Министерством обороны США в 1967 году. TEST не просто послужил примером; в Приложении 1 представлены Правила и соглашения тезауруса С тех пор были составлены сотни тезаурусов, а может быть, и тысячи. Наиболее заметными нововведениями со времени проведения ТЕСТА стали: а) переход от одноязычного к многоязычному; и (b) Добавление концептуально организованного отображения к основному алфавитному представлению.

Здесь мы упоминаем только некоторые из национальных и международных стандартов, которые неуклонно основывались на основных правилах, изложенных в TEST:

  • ЮНЕСКО Рекомендации по созданию и развитию одноязычных тезаурусов. 1970 (с последующими более поздними выпусками в 1971 и 1981 годах)
  • DIN 1463 Рекомендации по созданию и развитию одноязычных тезаурусов. 1972 (с последующими более поздними выпусками)
  • ISO 2788 Рекомендации по созданию и развитию одноязычных тезаурусов. 1974 (пересмотренный 1986)
  • ANSI Американский национальный стандарт по структуре, построению и использованию тезауруса. 1974 (пересмотренный 1980 и замененный ANSI / NISO Z39.19-1993)
  • ISO 5964 Рекомендации по созданию и развитию многоязычных тезаурусов. 1985
  • ANSI / NISO Z39.19 Рекомендации по построению, формату и управлению одноязычными тезаурусами. 1993 г. (переработано в 2005 г. и переименовано в Рекомендации по построению, формату и управлению одноязычными управляемыми словарями.)
  • ISO 25964 Тезаурусы и взаимодействие с другими словарями. Часть 1 (Тезаурусы для поиска информации) опубликовано в 2011 г .; Часть 2 (Совместимость с другими словарями) опубликовано в 2013 г.

Наиболее отчетливо видимая тенденция в этой истории развития тезауруса - переход от мелкомасштабной изоляции к сетевому миру.[6] Доступ к информации заметно расширился, когда тезаурусы пересекли границу между одноязычными и многоязычными приложениями. В последнее время, как видно из названий последних стандартов ISO и NISO, стало очевидным, что тезаурусы должны работать в тесном взаимодействии с другими формами словаря или системы организации знаний, такими как схемы предметных заголовков, схемы классификации, таксономии и т. Д. онтологии. Официальный веб-сайт ISO 25964 предоставляет дополнительную информацию, включая список для чтения.[7]

Цель

При поиске информации тезаурус может использоваться как форма контролируемого словаря для помощи в индексировании соответствующих метаданных для несущих информацию объектов. Тезаурус помогает выразить проявления концепции предписанным способом, чтобы помочь в улучшении точность и отзыв. Это означает, что семантические концептуальные выражения сущностей, несущих информацию, легче найти благодаря единообразию языка. Кроме того, тезаурус используется для поддержания иерархического списка терминов, обычно отдельных слов или связанных фраз, что помогает индексатору сужать термины и ограничивать семантическую двусмысленность.

В Тезаурус по искусству и архитектуре, например, используется бесчисленными музеями по всему миру для каталогизации своих коллекций. АГРОВОК, тезаурус ООН Продовольственная и сельскохозяйственная организация, используется для индексации и / или поиска в своей базе данных AGRIS всемирной литературы по сельскохозяйственным исследованиям.

Структура

Тезаурусы информационного поиска формально организованы таким образом, чтобы прояснить существующие отношения между концепциями. Например, «цитрусовые» могут быть связаны с более широким понятием «фрукты» и с более узким понятием «апельсины», «лимоны» и т. Д. Когда термины отображаются в Интернете, связи между ними упрощают поиск просматривайте тезаурус, выбирая полезные термины для поиска. Когда один термин может иметь более одного значения, например таблицы (мебель) или таблицы (данные), они перечисляются отдельно, чтобы пользователь мог выбрать, какое понятие искать, и избежать получения нерелевантных результатов. Для любого одного понятия перечислены все известные синонимы, такие как «коровье бешенство», «губчатая энцефалопатия крупного рогатого скота», «коровий энцефалопат» и т.д. та же концепция, чтобы результаты поиска были максимально полными. Если тезаурус многоязычный, отображаются эквивалентные термины на других языках. В соответствии с международными стандартами, концепции, как правило, располагаются иерархически внутри фасетов или сгруппированы по темам или темам. В отличие от общего тезауруса, который используется в литературных целях, тезаурусы информационного поиска обычно сосредоточены на одной дисциплине, предмете или области исследования.

Смотрите также

использованная литература

  1. ^ ANSI & NISO 2005, Руководство по созданию, формату и управлению одноязычными контролируемыми словарями, NISO, Мэриленд, США, стр.
  2. ^ ANSI & NISO 2005, Руководство по созданию, формату и управлению одноязычными контролируемыми словарями, NISO, Мэриленд, США, стр.
  3. ^ Робертс Н. Предыстория информационно-поискового тезауруса. Журнал документации, 40 (4), 1984, стр.271-285.
  4. ^ Эйчисон, Дж. И Декстр Кларк, С. Тезаурус: историческая точка зрения, с взглядом в будущее. Ежеквартальная каталогизация и классификация, 37 (3/4), 2004, с.5-21.
  5. ^ Крукс, Д.А. и Ланкастер, Ф.В. Эволюция руководящих принципов построения тезауруса. Libri, 43 (4), 1993, с.326-342.
  6. ^ Декстре Кларк, Стелла Г. и Зенг, Марсия Лей. От ISO 2788 до ISO 25964: эволюция стандартов тезауруса в направлении взаимодействия и моделирования данных Информационные стандарты ежеквартально, 24 (1), 2012, с.20-26.
  7. ^ ISO 25964 - международный стандарт для тезаурусов и взаимодействия с другими словарями. Национальная организация информационных стандартов, 2013.

внешние ссылки