Алгоритм HITS - HITS algorithm
Поиск тем по гиперссылкам (ХИТЫ; также известный как центры и власти) это анализ ссылок алгоритм оценивает веб-страницы, разработанные Джон Кляйнберг. Идея, лежащая в основе концентраторов и органов власти, возникла из особого понимания создания веб-страниц при первоначальном формировании Интернета; то есть определенные веб-страницы, известные как хабы, служили большими каталогами, которые на самом деле не были авторитетными в информации, которую они держали, но использовались в качестве компиляций широкого каталога информации, который приводил пользователей прямо на другие авторитетные страницы. Другими словами, хороший хаб представляет собой страницу, которая указывает на множество других страниц, а хороший авторитетный центр представляет страницу, на которую ссылаются многие разные хабы.[1]
Таким образом, схема присваивает две оценки для каждой страницы: ее авторитетность, которая оценивает ценность содержимого страницы, и ее значение хаба, которое оценивает ценность ее ссылок на другие страницы.
История
В журналах
Для оценки важности научных журналов использовалось множество методов. Одним из таких методов является метод Гарфилда. фактор воздействия. Журналы, такие как Наука и Природа наполнены многочисленными цитатами, благодаря чему эти журналы имеют очень высокий коэффициент воздействия. Таким образом, при сравнении еще двух малоизвестных журналов, которые получили примерно такое же количество цитирований, но один из этих журналов получил много ссылок из Наука и Природа, этот журнал должен получить более высокий рейтинг. Другими словами, лучше получать цитаты из важного журнала, чем из неважного.[2]
В интернете
Это явление также встречается в Интернет. Подсчет количества ссылок на страницу может дать нам общую оценку ее известности в Интернете, но страница с очень небольшим количеством входящих ссылок также может быть заметной, если две из этих ссылок поступают с домашних страниц таких сайтов, как Yahoo!, Google, или же MSN. Потому что эти сайты очень важны, но также поисковые системы, страница может быть оценена намного выше, чем ее фактическая релевантность.
Алгоритм
В алгоритме HITS первым шагом является получение страниц, наиболее релевантных поисковому запросу. Этот набор называется корневой набор и может быть получен путем взятия первых страниц, возвращенных алгоритмом поиска на основе текста. А базовый набор создается путем добавления в корневой набор всех веб-страниц, на которые есть ссылки, и некоторых страниц, которые ссылаются на него. Веб-страницы в базовом наборе и все гиперссылки между этими страницами образуют сфокусированный подграф. Расчет HITS выполняется только на этом сфокусированный подграф. По словам Клейнберга, цель построения базового набора состоит в том, чтобы обеспечить включение большинства (или многих) самых сильных авторитетов.
Значения полномочий и хаба определены в терминах друг друга в взаимная рекурсия. Значение полномочий вычисляется как сумма масштабированных значений концентратора, указывающих на эту страницу. Значение концентратора - это сумма масштабированных значений авторитетности страниц, на которые он указывает. Некоторые реализации также учитывают релевантность связанных страниц.
Алгоритм выполняет серию итераций, каждая из которых состоит из двух основных шагов:
- Обновление полномочий: Обновить каждый узел оценка авторитета быть равным сумме хаб оценки каждого узла, который на него указывает. То есть узлу присваивается высокий рейтинг авторитета, поскольку на него ссылаются страницы, которые признаны концентраторами информации.
- Обновление хаба: Обновить каждый узел оценка ступицы быть равным сумме оценки авторитета каждого узла, на который он указывает. То есть узлу присваивается высокий балл хаба за счет связывания с узлами, которые считаются авторитетными в этом вопросе.
Оценка хаба и оценка авторитета узла рассчитываются по следующему алгоритму:
- Начните с того, что каждый узел имеет рейтинг хаба и рейтинг авторитета 1.
- Запустите правило обновления полномочий
- Запустите правило обновления хаба
- Нормализуйте значения, разделив каждую оценку Hub на квадратный корень из суммы квадратов всех оценок Hub, и разделив каждую оценку Authority на квадратный корень из суммы квадратов всех оценок Authority.
- При необходимости повторите со второго шага.
ХИТЫ, как Страница и Брин с PageRank, является итерационный алгоритм на основе связь документов в сети. Однако у него есть несколько существенных отличий:
- Это зависит от запроса, то есть на оценки (Центры и авторитет), полученные в результате анализа ссылок, влияют условия поиска;
- Как следствие, он выполняется во время запроса, а не во время индексации, с соответствующим снижением производительности, которое сопровождает обработку во время запроса.
- Поисковые системы не используют его. (Хотя аналогичный алгоритм использовался Теома, который был приобретен Спросите Дживса / Ask.com.)
- Он вычисляет две оценки для каждого документа, хаб и авторитет, а не одну оценку;
- Он обрабатывается на небольшом подмножестве «соответствующих» документов («сфокусированный подграф» или базовый набор), а не на всех документах, как в случае с PageRank.
В деталях
Чтобы начать ранжирование, позволим и для каждой страницы . Мы рассматриваем два типа обновлений: Правило обновления полномочий и Правило обновления концентратора. Чтобы вычислить оценки концентратора / авторитета каждого узла, применяются повторяющиеся итерации правила обновления полномочий и правила обновления концентратора. K-шаговое применение алгоритма Hub-Authority влечет за собой применение k раз сначала правила обновления полномочий, а затем правила обновления концентратора.
Правило обновления полномочий
Для каждого , мы обновляем к куда все страницы, которые ссылаются на страницу . То есть рейтинг авторитета страницы - это сумма всех хаб-оценок страниц, которые на нее указывают.
Правило обновления хаба
Для каждого , мы обновляем к куда это все страницы, страница которых ссылки на. То есть рейтинг страницы - это сумма всех оценок авторитета страниц, на которые она указывает.
Нормализация
Окончательные оценки авторитетности узлов определяются после бесконечного повторения алгоритма. Поскольку прямое и итеративное применение правила обновления концентратора и правила обновления полномочий приводит к расхождению значений, необходимо нормализовать матрица после каждой итерации. Таким образом, значения, полученные в результате этого процесса, в конечном итоге сойдутся.
Псевдокод
грамм : = набор страницдля каждого страница п в грамм делать п.auth = 1 // п.auth - рейтинг авторитета страницы п п.hub = 1 // п.hub - это рейтинг страницы. пза шаг из 1 к k делать // запускаем алгоритм за k шагов norm = 0 для каждого страница п в грамм делать // сначала обновим все авторитетные значения п.auth = 0 для каждого страница q в p.incomingNeighbours делать // p.incomingNeighbours набор страниц, которые ссылаются на п п.auth + = q.hub norm + = квадрат (п.auth) // вычисляем сумму квадратов значений auth для нормализации norm = sqrt (norm) для каждого страница п в грамм делать // обновляем оценки авторизации п.auth = п.auth / norm // нормализовать значения auth norm = 0 для каждого страница п в грамм делать // затем обновляем все значения концентратора п.hub = 0 для каждого страница р в p.outgoingNeighbors делать // p.outgoingNeighbors это набор страниц, п ссылки на п.hub + = р.auth norm + = square (п.hub) // вычисляем сумму квадратов значений концентратора для нормализации norm = sqrt (norm) для каждого страница п в грамм делать // затем обновляем все значения концентратора п.hub = п.hub / norm // нормализовать значения хаба
Значения концентратора и авторитета сходятся в псевдокоде выше.
Приведенный ниже код не сходится, потому что необходимо ограничить количество шагов, которые выполняет алгоритм. Однако один из способов обойти это - нормализовать значения узлов и полномочий после каждого «шага» путем деления каждого значения полномочий на квадратный корень из суммы квадратов всех значений полномочий и деления каждого значения концентратора на квадратный корень из суммы квадратов всех значений концентратора. Это то, что делает приведенный выше псевдокод.
Несходящийся псевдокод
грамм : = набор страницдля каждого страница п в грамм делать п.auth = 1 // п.auth - рейтинг авторитета страницы п п.hub = 1 // п.hub - это рейтинг страницы. пфункция HubsAndAuthorities (грамм) за шаг из 1 к k делать // запускаем алгоритм за k шагов для каждого страница п в грамм делать // сначала обновляем все авторитетные значения п.auth = 0 для каждого страница q в p.incomingNeighbours делать // p.incomingNeighbours это набор страниц, которые ссылаются на п п.auth + = q.центр для каждого страница п в грамм делать // затем обновляем все значения концентратора п.hub = 0 для каждого страница р в p.outgoingNeighbors делать // p.outgoingNeighbors это набор страниц, п ссылки на п.hub + = р.auth
Смотрите также
Рекомендации
- ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце (2008). «Введение в поиск информации». Издательство Кембриджского университета. Получено 2008-11-09.CS1 maint: использует параметр авторов (связь)
- ^ Клейнберг, Джон (декабрь 1999 г.). "Центры, органы власти и сообщества". Корнелл Университет. Получено 2008-11-09.
- Клейнберг, Джон (1999). «Авторитетные источники в среде с гиперссылками» (PDF). Журнал ACM. 46 (5): 604–632. CiteSeerX 10.1.1.54.8485. Дои:10.1145/324133.324140.
- Li, L .; Shang, Y .; Чжан, В. (2002). «Улучшение алгоритмов на основе HITS для веб-документов». Материалы 11-й Международной конференции в Интернете (WWW 2002). Гонолулу, штат Гавайи. ISBN 978-1-880672-20-4.
внешняя ссылка
- Патент США 6,112,202
- Создание поисковой системы данных из реляционной базы данных Поисковая система на C # на основе HITS