OutWit Hub - OutWit Hub
Разработчики) | OutWit Technologies |
---|---|
Операционная система | Майкрософт Виндоус, macOS, Linux |
Тип | Веб-скрапинг, менеджер загрузки |
Лицензия | Проприетарный |
Интернет сайт | перехитрить |
OutWit Hub это Извлечение веб-данных программное обеспечение, предназначенное для автоматического извлечения информации из сетевых или местных ресурсов. Он распознает и захватывает ссылки, изображения, документы, контакты, повторяющийся словарный запас и фразы, RSS-каналы и конвертирует структурированные и неструктурированные данные в форматированные таблицы, которые можно экспортировать в электронные таблицы или же базы данных. Первая версия была выпущена в 2010 году. Версия 8.0 выпущена в июне 2019 года.
Программа включает в себя браузер на основе Mozilla и боковую панель, которая дает доступ к ряду представлений с предварительно установленными экстракторами. Веб-страницы и текстовые документы разбиты на различные составляющие, представленные в этих представлениях в виде таблиц. Приложение может перемещаться по сериям ссылок и последовательностям страницы результатов поисковой системы извлекать информационные элементы, организовывать их в таблицы и экспортировать в различные форматы. Предопределенные экстракторы позволяют собирать структурированные таблицы, списки или каналы. Пользовательские парсеры также могут быть созданы для извлечения данных из менее структурированных элементов страницы.[1] Обычные выражения могут быть включены в скребки, а также в другие части приложения для определения переменных распознавания маркеров.[2]
Хотя OutWit Hub представлен как инструмент для нетехнических пользователей, тот факт, что приложение не использует объектная модель документа структура для его извлечения предотвращает визуальное извлечение данных по принципу «укажи и захвати» и заставит пользователя, который хочет создавать собственные скребки, определять маркеры в исходном коде страницы. Однако преимущество этого подхода состоит в том, что он позволяет более точное определение масок извлечения, чем узлы HTML, и более быстрое выполнение, поскольку дерево объектной модели документа не нужно отображать браузером во время извлечения.
Версии
Программа существует в двух версиях: автономное приложение и Mozilla Firefox добавить, которые включают идентичные функции. Ограниченную бесплатную версию можно скачать с сайта издателя и условно-бесплатную версию. скачивать сайты.[3]
Функции
- Распознавание и извлечение ссылок, адресов электронной почты, структурированных и неструктурированных данных, новостей RSS
- Извлечение и загрузка изображений и документов
- Извлечение текста со словарем и группами слов по частоте
- Автоматический просмотр с определяемыми пользователем правилами веб-исследования
- Автоматический запрос и генерация URL по шаблонам
- Каталоги ссылок и запросов
- Пользовательские скребки
- Макро-автоматизация
- Периодическое выполнение работ
Расширенные возможности
Версия приложения Enterprise включает расширенные функции извлечения и автоматизации для определенных или больших объемов извлечения, отправку серии автоматически сгенерированных запросов HTTP или POST и загрузку очищенных данных на серверы FTP.
Смотрите также
Подобные инструменты
- Yahoo трубы
- Автоматизация везде - Веб-экстрактор и система автоматизации
- Octatools.com
Рекомендации
- ^ «Использование« разделителей и меток »в Outwit Hub pro». Datacrumble. Май 2013.
- ^ «Практическое руководство. Очистка некрасивого HTML с помощью« регулярных выражений »в парсере OutWit Hub». Интернет-журналистика. Ноябрь 2012 г.
- ^ «Как использовать OutWit Hub для бесплатного сбора данных». Интерхактивы. Март 2014 г.