StormCrawler - StormCrawler

StormCrawler
Разработчики)DigitalPebble, Ltd.
изначальный выпуск11 сентября 2014 г. (2014-09-11)
Стабильный выпуск
1.16 / 16 января 2020 г.; 10 месяцев назад (2020-01-16)
Репозиторий Отредактируйте это в Викиданных
Написано вЯва
ТипПоисковый робот
ЛицензияЛицензия Apache
Интернет сайтштурмовик.сеть

StormCrawler является Открытый исходный код сбор ресурсов для построения с малой задержкой, масштабируемый поисковые роботы наApache Storm. Он предоставляется в Лицензия Apache и написан в основном на Java (язык программирования).

StormCrawler имеет модульную структуру и состоит из основного модуля, который обеспечивает основные строительные блоки веб-сканера, такие как выборка, анализ и фильтрация URL-адресов. Помимо основных компонентов, проект также предоставляет внешние ресурсы, такие как, например, носик и болты для Elasticsearch и Apache Solr или ParserBolt, который использует Апач Тика для анализа различных форматов документов.

Проект используется в производстве различными компаниями.[1]

Linux.com опубликовал в октябре 2016 года вопросы и ответы с автором StormCrawler.[2] InfoQ провела один в декабре 2016 года.[3] Сравнительный тест с Apache Nutch был опубликован в январе 2017 года на сайте dzone.com.[4]

В нескольких исследовательских работах упоминалось использование StormCrawler в 2018 году, в частности:

  • Создание многомиллионного корпуса персидского языка.[5]
  • СИРЕНА - поиск и извлечение информации о безопасности eNgine.[6]

Проект WIKI содержит список видео и слайдов, доступных в Интернете.[7]

StormCrawler в основном используется Обычное сканирование[8] для создания большого и общедоступного набора данных.

Смотрите также

Рекомендации

  1. ^ "На основе · DigitalPebble / Storm-Crawler Wiki · GitHub". Github.com. 2017-03-02. Получено 2017-04-19.
  2. ^ "StormCrawler: SDK с открытым исходным кодом для создания веб-сканеров с помощью ApacheStorm | Linux.com | Источник информации о Linux". Linux.com. 2016-10-12. Получено 2017-04-19.
  3. ^ "Жюльен Ниош о StormCrawler, конвейерах краулера с открытым исходным кодом при поддержке Apache Storm". Infoq.com. 2016-12-15. Получено 2017-04-19.
  4. ^ "Битва краулеров: Apache Nutch против StormCrawler - DZone Big Data". Dzone.com. Получено 2017-04-19.
  5. ^ «МирасТекст: автоматически сгенерированный корпус текста для персидского языка».
  6. ^ Санагаварапу, Лалит Мохан; Матур, Нирадж; Агравал, Шриянш; Редди, Ю. Рагху (2018). Достижения в области поиска информации. Конспект лекций по информатике. 10772. С. 811–814. Дои:10.1007/978-3-319-76941-7_81. ISBN  978-3-319-76940-0.
  7. ^ «Презентации · DigitalPebble / Storm-Crawler Wiki · GitHub». Github.com. 2017-04-04. Получено 2017-04-19.
  8. ^ http://commoncrawl.org/2016/10/news-dataset-available/