Получение XML - XML retrieval - Wikipedia

Получение XML, или же Получение информации XML, это поиск документов, структурированных с помощью XML (расширяемый язык разметки). Как таковой он используется для вычислений актуальность XML-документов.[1]

Запросы

Большинство подходов к поиску XML основываются на методах из поиск информации (IR) область, например путем вычисления сходства между запросом, состоящим из ключевых слов (терминов запроса), и документом. Однако в XML-Retrieval запрос также может содержать структурный подсказки. Так называемые запросы «содержимого и структуры» (CAS) позволяют пользователям указать, какую структуру может или должно иметь запрошенное содержимое.

Использование структуры XML

Воспользовавшись самоописывающий Структура XML-документов может значительно улучшить поиск XML-документов. Это включает в себя использование запросов CAS, различное взвешивание различных элементов XML и целенаправленный поиск вложенных документов.

Рейтинг

Ранжирование в XML-Retrieval может включать в себя как релевантность контента, так и структурное сходство, которое является сходством между структурой, указанной в запросе, и структурой документа. Кроме того, блоки поиска, полученные в результате запроса XML, не всегда могут быть целыми документами, но могут быть любыми глубоко вложенными элементами XML, то есть динамическими документами. Цель состоит в том, чтобы найти наименьшую релевантную поисковую единицу. Релевантность может быть определена в соответствии с понятием специфичности, которое представляет собой степень, в которой поисковая единица фокусируется на теме запроса.[2]

Существующие поисковые системы XML

Доступен обзор двух возможных подходов.[3][4] Инициатива по оценке XML-поиска (INEX) была основана в 2002 году и предоставляет платформу для оценки таких алгоритмы.[2] На получение XML-данных влияют три различных области:[5]

Традиционные языки запросов XML

Языки запросов такой как W3C стандарт XQuery[6] предоставлять сложные запросы, но искать только точные совпадения. Следовательно, их необходимо расширить, чтобы обеспечить расплывчатый поиск с вычислением релевантности. Большинство подходов, ориентированных на XML, предполагают довольно точное знание документов ». схемы.[7]

Базы данных

Классический база данных системы приняли возможность хранить полуструктурированные данные[5] и привело к развитию Базы данных XML. Часто они носят формальный характер, больше сосредоточены на поиске, чем на ранжировании, и используются опытными пользователями, способными формулировать сложные запросы.

Поиск информации

Классические модели поиска информации, такие как векторная космическая модель обеспечивать рейтинг релевантности, но не включать структуру документа; поддерживаются только плоские запросы. Кроме того, они применяют концепцию статического документа, поэтому единицы поиска обычно представляют собой целые документы.[7] Их можно расширить для учета структурной информации и динамического поиска документов. Доступны примеры подходов, расширяющих модели векторного пространства: они используют документ поддеревья (индексные термины плюс структура) как размеры векторного пространства.[8]

Наборы данных XML, ориентированные на данные

Для наборов данных XML, ориентированных на данные, уникальный и отличный метод поиска по ключевым словам, а именно XDMA[9] для баз данных XML спроектирован и разработан на основе двойного индексирования и взаимного суммирования.

Смотрите также

Рекомендации

  1. ^ Винтер, Джудит; Дробник, Освальд (9 ноября 2007 г.). "Архитектура для поиска информации XML в одноранговой среде" (PDF). ACM. Получено 2009-02-10.
  2. ^ а б Малик, Саадиа; Тротман, Эндрю; Лалмас, Муниа; Фур, Норберт (2007). «Обзор INEX 2006» (PDF). Труды пятого семинара Инициативы по оценке поиска XML. Архивировано из оригинал (PDF) 16 октября 2008 г.. Получено 2009-02-10.
  3. ^ Амер-Яхья, Сихем; Лалмас, Муниа (2006). "XML-поиск: языки, INEX и оценка" (PDF). SIGMOD Rec. 35 (4). Дои:10.1145/1228268.1228271. S2CID  17300151. Получено 2009-02-10.[мертвая ссылка ]
  4. ^ Пал, Сукомал (30 июня 2006 г.). «Получение XML: обзор». Технический отчет, CVPR. CiteSeerX  10.1.1.109.5986. Цитировать журнал требует | журнал = (помощь)
  5. ^ а б Фур, Норберт; Gövert, N .; Казай, Габриэлла; Лалмас, Муниа (2003). "INEX: Инициатива по оценке поиска XML" (PDF). Труды Первого семинара INEX, Дагштуль, Германия, 2002 г.. ERCIM Workshop Proceedings, Франция. Архивировано из оригинал (PDF) 21 ноября 2008 г.. Получено 2009-02-10.
  6. ^ Боаг, Скотт; Чемберлин, Дон; Фернандес, Мэри Ф .; Флореску, Даниэла; Роби, Джонатан; Симеон, Жером (23 января 2007 г.). «XQuery 1.0: язык запросов XML». Рекомендация W3C. Консорциум World Wide Web. Получено 2009-02-10.
  7. ^ а б Шлидер, Торстен; Мейс, Хольгер (2002). «Запросы и ранжирование XML-документов». Журнал Американского общества информационных наук и технологий. 53 (6): 489–503. Дои:10.1002 / asi.10060. Архивировано из оригинал 10 июня 2007 г.. Получено 2009-02-10.
  8. ^ Лю, Шаожун; Цзоу, Цинхуа; Чу, Уэсли В. (2004). «Настраиваемое индексирование и ранжирование для поиска информации XML» (PDF). СИГИР'04. ACM. Получено 2009-02-10.
  9. ^ Selvaganesan, S .; Ха, Су-Ченг; Вскоре Lay-Ki (2014). «XDMA: алгоритм поиска по ключевым словам на основе двойного индексирования и взаимного суммирования для баз данных XML». Международный журнал программной инженерии и инженерии знаний. 24 (4): 591–615. Дои:10.1142 / s0218194014500223.