SimHash - SimHash
В Информатика, SimHash это метод для быстрой оценки того, насколько похожий два комплекта есть. В алгоритм используется Google Гусеничный трактор найти рядом повторяющиеся страницы. Он был создан Моисей Чарикар.
Оценка и контрольные показатели
Крупномасштабная оценка была проведена Google в 2006 г.[1] сравнивать производительность Минхаш и Симхаш[2] алгоритмы. В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при сканировании веб-страниц.[3] и используя Minhash и LSH за Новости Google персонализация.[4]
Смотрите также
Рекомендации
- ^ Хенцингер, Моника (2006), "Поиск почти дублирующихся веб-страниц: широкомасштабная оценка алгоритмов", Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, п. 284, г. Дои:10.1145/1148170.1148222, ISBN 978-1595933690.
- ^ Чарикар, Моисей С. (2002), "Методы оценки подобия на основе алгоритмов округления", Материалы 34-го ежегодного симпозиума ACM по теории вычислений, п. 380, Дои:10.1145/509907.509965, ISBN 978-1581134957.
- ^ Гурмит Сингх, Манку; Джайн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов для сканирования Интернета», Материалы 16-й Международной конференции по всемирной паутине (PDF), п. 141, Дои:10.1145/1242572.1242592, ISBN 9781595936547.
- ^ Das, Abhinandan S .; Датар, Маюр; Гарг, Ашутош; Раджарам, Шьям; и другие. (2007), "Персонализация новостей Google: масштабируемая совместная фильтрация в Интернете", Материалы 16-й Международной конференции по всемирной паутине, п. 271, Дои:10.1145/1242572.1242610, ISBN 9781595936547.