Wrapper (интеллектуальный анализ данных) - Wrapper (data mining)

Обертка в сбор данных это программа, которая извлекает содержимое определенного источника информации и переводит его в родственная форма, поэтому компьютер может легко его обработать.[1] Многие веб-страницы представляют структурированные данные - телефонные справочники, каталоги продуктов и т. Д., Отформатированные для просмотра людьми с использованием языка HTML. Структурированные данные обычно представляют собой описания объектов, извлеченных из базовых данных и отображаемых на веб-страницах в соответствии с некоторыми фиксированными шаблонами. Программные системы, использующие такие ресурсы, должны переводить HTML-контент в реляционную форму. В качестве таких переводчиков обычно используются обертки. Формально обертка - это функция от страницы к набору кортежи это содержит.

Поколение оболочки

Существует два основных подхода к созданию обертки: индукция обертки и автоматизация. извлечение данных Индукция .Wrapper использует контролируемое обучение для изучения правил извлечения данных из размеченных вручную обучающих примеров. Недостатки индукции обертки:

  • трудоемкий процесс ручной маркировки и
  • сложность обслуживания обертки.

Из-за усилий по разметке вручную трудно извлекать данные с большого количества сайтов, так как каждый сайт имеет свои собственные шаблоны и требует отдельной ручной разметки для обучения оболочке. Обслуживание оболочки также является серьезной проблемой, потому что всякий раз, когда сайт меняет созданные оболочки для сайта устарели. Из-за этих недостатков исследователи изучили автоматическое создание оболочки с использованием неконтролируемого анализа шаблонов. Автоматическое извлечение возможно, потому что большинство объектов веб-данных следуют фиксированным шаблонам. Обнаружение таких шаблонов или шаблонов позволяет системе выполнять извлечение автоматически.[2]

Создание оболочки в Интернете - важная проблема для широкого круга приложений. Извлечение таких данных позволяет интегрировать данные / информацию с нескольких веб-сайтов для предоставления дополнительных услуг, например, сравнительные покупки, поиск объектов и интеграция информации.

Смотрите также

Источники

  1. ^ Николас Кушмерик, Дэниел С. Велд, Роберт Доренбос, Индукция оболочки для извлечения информации Труды международной совместной конференции по искусственному интеллекту, 1997 г.
  2. ^ Лю Б. Веб Интеллектуальный анализ данных: изучение гиперссылок, содержимого и данных об использовании, Springer, 2007.