Apache Nutch - Apache Nutch
Снимок экрана Поиск в веб-интерфейсе Nutch | |
Оригинальный автор (ы) | Дуг Каттинг, Майк Кафарелла |
---|---|
Разработчики) | Фонд программного обеспечения Apache |
Стабильный выпуск | |
Репозиторий | Репозиторий Nutch |
Написано в | Ява |
Операционная система | Кроссплатформенность |
Тип | Поисковый робот |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | орех |
Apache Nutch это очень расширяемый и масштабируемый Открытый исходный код поисковый робот программный проект.
Функции
Nutch полностью кодируется в Язык программирования Java, но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа типов мультимедиа, извлечения данных, запросов и кластеризации.
Сборщик («робот» или «поисковый робот ") был написан с нуля специально для этого проекта.
История
Nutch возник с Дуг Каттинг, создатель обоих Lucene и Hadoop, и Майк Кафарелла.
В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности обработки данных на нескольких машинах для задач сканирования и индексирования, в проекте Nutch также реализован Уменьшение карты объект и распределенная файловая система. Эти два объекта были выделены в отдельный подпроект под названием Hadoop.
В январе 2005 года Nutch присоединился к Инкубатор Apache, который в июне того же года превратился в подпроект Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Фонд программного обеспечения Apache.[3]
В феврале 2014 г. Обычное сканирование Проект адаптировал Nutch для открытого крупномасштабного веб-сканирования.[4]
Хотя когда-то целью проекта Nutch было выпустить глобальную крупномасштабную поисковую систему в Интернете, это уже не так.[нужна цитата ]
История выпуска
1.x Ветвь | 2.x Ветвь | Дата выхода | Описание |
---|---|---|---|
1.1 | 2010-06-06 | Этот выпуск включает несколько основных обновлений существующих библиотек (Hadoop, Solr, Tika и т. Д.), От которых зависит Nutch. Также были включены различные исправления ошибок и ускорения (например, для Fetcher2). | |
1.2 | 2010-10-24 | Этот выпуск включает в себя несколько улучшений (добавление parse-html снова в качестве выбираемого парсера, настраиваемая индексация для каждого поля), новые функции (включая добавление информации о времени для всех классов инструментов и реализацию тайм-аутов парсера) и исправления ошибок (исправление NPE в распределенном поиске, исправление проблем с форматированием XML по полям документа). | |
1.3 | 2011-06-07 | Этот выпуск включает в себя несколько улучшений (улучшенная поддержка синтаксического анализа RSS, более тесная интеграция с Apache Tika, поддержка внешнего синтаксического анализа, улучшенная идентификация языка и на порядок меньший размер архива исходного кода - всего около 2 МБ). | |
1.4 | 2011-11-26 | Этот выпуск включает в себя несколько улучшений, в том числе возможность для парсеров объявлять поддержку нескольких типов MIME, настраиваемую глубину очереди сборщика, улучшения скорости сборщика, более тесную интеграцию с Tika и поддержку HTTP-аутентификации в индексировании Solr. | |
1.5 | 2012-06-07 | Этот выпуск включает в себя несколько улучшений, включая обновления нескольких основных компонентов, включая Tika 1.1 и Hadoop 1.0.0, улучшения элементов LinkRank и WebGraph, а также ряд новых подключаемых модулей, охватывающих черный список, фильтрацию и синтаксический анализ, и многие другие. | |
2.0 | 2012-07-07 | Этот выпуск предлагает пользователям выпуск, ориентированный на крупномасштабное сканирование, которое основывается на абстракции хранилища (через Apache Gora) для хранилищ больших данных, таких как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, хранилище данных в памяти и различные высокопроизводительные хранилища данных. профильные хранилища SQL. | |
1.5.1 | 2012-07-10 | Этот выпуск является отладочным выпуском популярной основной версии Nutch 1.5.X, которая получила широкое распространение в сообществе. | |
2.1 | 2012-10-05 | Этот выпуск продолжает предоставлять пользователям Nutch упрощенный дистрибутив Nutch, основанный на драйвере разработки 2.x, популярность которого в сообществе растет. Помимо исправления ~ 20 ошибок, этот выпуск также предлагает улучшенные свойства для лучшей конфигурации Solr, обновления до различных зависимостей Gora и возможность создания индексов в эластичном поиске. | |
1.6 | 2012-12-06 | Этот выпуск включает в себя более 20 исправлений ошибок, те же улучшения, а также новые функции, включая новый HostNormalizer, возможность динамически устанавливать fetchInterval по типу MIME и функциональные улучшения API индексатора, включая нормализацию URL-адресов и удаление роботов. Документы noIndex. Другие заметные улучшения включают обновление основных зависимостей до Tika 1.2 и Automaton 1.11-8. | |
2.2 | 2013-06-08 | Этот выпуск включает более 30 исправлений ошибок и более 25 улучшений, представляющих собой третий выпуск набирающей популярность серии 2.x Nutch. В этот выпуск включен Crawler-Commons, который Nutch теперь использует для улучшенного синтаксического анализа robots.txt, обновления библиотек до Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 и Automaton 1.11-8. | |
1.7 | 2013-06-24 | Этот выпуск включает более 20 исправлений ошибок, а также множество улучшений; наиболее заметно с новой подключаемой архитектурой индексирования, которая в настоящее время поддерживает Apache Solr и Elastic Search. После недавнего выпуска Nutch 2.2 синтаксический анализ файла Robots.txt теперь делегирован Crawler-Commons. Ключевые обновления библиотеки были сделаны до Apache Hadoop 1.2.0 и Apache Tika 1.3. | |
2.2.1 | 2013-07-02 | Этот выпуск включает в себя обновления библиотеки до Apache Hadoop 1.2.0 и Apache Tika 1.3, в основном это исправление ошибки для NUTCH-1591 - неправильное преобразование ByteBuffer в String. | |
1.8 | 2014-03-17 | Хотя этот выпуск включает обновления библиотеки до Crawler Commons 0.3 и Apache Tika 1.5, он также содержит более 30 исправлений ошибок и 18 улучшений. | |
2.3 | 2015-01-22 | Релиз Nutch 2.3 теперь поставляется с автономным веб-приложением на основе Apache Wicket. Бэкэнд SQL для Gora устарел.[5] | |
1.10 | 2015-05-06 | Этот выпуск включает обновления библиотеки до Tika 1.6, а также содержит более 46 исправлений ошибок, а также 37 улучшений и 12 новых функций.[6] | |
1.11 | 2015-12-07 | Этот выпуск включает обновления библиотеки до Hadoop 2.X, Tika 1.11, а также содержит более 32 исправлений ошибок, а также 35 улучшений и 14 новых функций.[7] | |
2.3.1 | 2016-01-21 | В этом выпуске с исправлением ошибок исправлено около 40 проблем. | |
1.12 | 2016-06-18 | ||
1.13 | 2017-04-02 | ||
1.14 | 2017-12-23 | ||
1.15 | 2018-08-09 | ||
1.16 | 2019-10-11 | ||
2.4 | 2019-10-11 | Ожидается, что это будет последний выпуск в серии 2.X.[8] | |
1.17 | 2020-07-02 |
Масштабируемость
IBM Research изучила производительность[9] компании Nutch / Lucene в рамках проекта коммерческого масштабирования (CSO).[10] Их выводы заключались в том, что уменьшить масштаб такая система, как Nutch / Lucene, могла достичь уровня производительности на кластере лезвий, который был недостижим ни на одном увеличить масштаб компьютер, такой как МОЩНОСТЬ5.
Набор данных ClueWeb09 (используется, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду.[11]
Связанные проекты
- Hadoop - Платформа Java, поддерживающая распределенные приложения, работающие на больших кластерах.
Поисковые системы, созданные с помощью Nutch
- Обычное сканирование - общедоступные интернет-крауллы, начали использовать Nutch в 2014 году.[4]
- Creative Commons Поиск - реализация Nutch, использовавшаяся в период 2004–2006 годов.[12][13][14]
- Обнаруженный – Открытые образовательные ресурсы поисковый прототип, разработанный Creative Commons
- Krugle использует Nutch для сканирования веб-страниц в поисках кода, архивов и технически интересного контента.
- mozDex (неактивный)
- Wikia Search - запущен в 2008 г., закрыт в 2009 г.[15][16]
Смотрите также
использованная литература
- ^ "ASF Git Repos - nutch.git / commit". Получено 19 октября 2020.
- ^ "ASF Git Repos - nutch.git / commit". Получено 11 марта 2020.
- ^ "Apache Nutch ™ -". nutch.apache.org.
- ^ а б "Переход Common Crawl к Nutch - Common Crawl - Блог". blog.commoncrawl.org. Получено 2015-10-14.
- ^ «Гайка 2.3 Отпуск». Новости Apache Nutch. Фонд программного обеспечения Apache. 22 января 2015 г.. Получено 18 января 2016.
- ^ «Примечания к выпуску Nutch 1.10». ASF JIRA. Фонд программного обеспечения Apache. 6 мая 2015. Получено 18 января 2016.
- ^ «Примечания к выпуску Nutch 1.11». ASF JIRA. Фонд программного обеспечения Apache. 7 декабря 2015 г.. Получено 18 января 2016.
- ^ «Гайка 2.4 Отпуск». Новости Apache Nutch. Фонд программного обеспечения Apache. 11 октября 2019 г.. Получено 19 октября 2020.
- ^ «Масштабируемость поисковой системы Nutch» (PDF).
- ^ «Подготовка и запуск базовой операционной системы для коммерческого суперкомпьютера» (PDF). Архивировано из оригинал (PDF) 3 декабря 2008 г.
- ^ Веб-сканер Sapphire - Статистика сканирования. Boston.lti.cs.cmu.edu (01.10.2008). Проверено 21 июля 2013.
- ^ "Наш обновленный поиск". Creative Commons. 2004-09-03.
- ^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0». Creative Commons. 2004-11-22. Архивировано из оригинал на 07.01.2010.
- ^ "Новый пользовательский интерфейс поиска CC". Creative Commons. 2006-08-02.
- ^ «Где я могу получить исходный код для Wikia Search?». Архивировано из оригинал на 2011-11-04. Получено 2010-02-12.
- ^ «Новости викии - делаем больше из того, что работает | Джимми Уэльс».
Список используемой литературы
- Шоберг, Дж (26 октября 2006 г.). Создание приложений поиска с помощью Lucene и Nutch (1-е изд.). Apress. п. 350. ISBN 978-1-59059-687-6. Архивировано из оригинал 2 декабря 2009 г.. Получено 15 августа, 2009.