Корреляция сайта - Website correlation

Корреляция сайта, или же соответствие веб-сайта, это процесс, используемый для идентификации похожих или связанных веб-сайтов. Веб-сайты по своей природе легко копировать.[1][2] Это привело к увеличению числа идентичных веб-сайтов.[3] или очень похожие веб-сайты для различных целей от перевод к интернет-маркетинг (особенно Партнерский маркетинг )[4] к Интернет-преступление[5] Поиск похожих веб-сайтов по своей сути проблематичен, потому что они могут быть на разных языках, на разных серверах, в разных странах (разные домены верхнего уровня ).

Использует

Корреляция сайтов используется в:

  • Интернет-расследования[6] для определения общего объема расследования
  • исследования рынка для поиска конкурентов или определения рыночного охвата конкурирующих компаний или для выборочное обследование
  • Веб-фильтрация[7] системы, чтобы гарантировать, что все веб-сайты определенного типа заблокированы для просмотра
  • Сбор данных системы для максимизации входных или выходных данных
  • управление рисками программы, обеспечивающие мониторинг веб-сайтов на предмет проблем, связанных с фискальным риском
  • Мониторинг соблюдения в рамках программа комплаенс и этики или политика, обеспечивающая соответствие веб-сайтов установленным правилам

Типы корреляции

Существует несколько известных типов корреляции, каждый из которых демонстрирует свои сильные и слабые стороны. Практический процесс корреляции веб-сайтов может потребовать сочетания двух или более из этих методов.

Подобная структура

Чтобы сэкономить время и силы, владельцы веб-сайтов дублируют основные части кода веб-сайтов во многих домены. Сходство структуры кода может предоставить достаточно информации для корреляции. Организации, которые, как известно, имеют общедоступные базы данных с возможностью поиска для такого рода корреляции, включают:

примечание: веб-сайты иногда могут использовать одну и ту же структуру, но не связаны друг с другом (например, когда веб-сайты случайно используют одни и те же система управления контентом ).

Тот же сервер или подсеть

Также известен как коррелированные Обратный поиск DNS. Веб-сайты могут обслуживаться с одного и того же сервер, на одном или нескольких айпи адрес, на одном или нескольких подсеть. Несколько организаций хранят архивы данных IP-адресов и сопоставляют эти данные. Примеры включают:

Примечание: корреляция с помощью этого метода может вводить в заблуждение, поскольку веб-сайты часто существуют на одном сервере (также известном как виртуальный хостинг ) но не имеют отношения друг к другу.

Тот же владелец

Веб-сайты могут быть созданы одним и тем же лицом или организацией. Владельцы веб-сайтов должны предоставить контактную информацию регистратор получить доменное имя. Право собственности на домен можно определить с помощью КТО протокол, который не обеспечивает механизма поиска или сопоставления прав собственности. Несколько организаций хранят архивы информации WHOIS и предоставляют услуги поиска и сопоставления. Примеры включают:

примечание: информацию о владельце веб-сайта можно фальсифицированный, устаревший, или же скрыто от всеобщего обозрения. Корреляция веб-сайтов с помощью этого метода может быть точной, вводящей в заблуждение или невозможной в зависимости от информации, содержащейся в записях WHOIS.

Подобный контент

Поисковые системы предоставляют доступные для поиска базы данных проиндексированного содержания веб-сайтов. Списки результатов поисковых систем коррелируют по схожести содержания.

Google

  • на Google.com введите "related: website_name_here.com", чтобы найти сайты, связанные по имени или фразам.
  • найдите на веб-сайте фразу с уникальным звучанием, а затем используйте поисковые системы, чтобы найти фразу буквально на других веб-сайтах
    • В поле поиска заключите фразу в кавычки, чтобы выполнить поиск по фразе буквально.
    • вместо copyright 2010 xyzcompany используйте "copyright 2010 xyzcompany"

примечание: этот метод корреляции по своей сути медленный потому что нужно угадывать, какие фразы искать. Кроме того, связанные веб-сайты не могут содержать буквально похожий контент (например, когда сайт переведен на другой язык).

Та же категория

Веб-сайты часто классифицируются или помечаются аналогичным образом с помощью автоматизированных или ручных средств. Примеры общедоступных баз данных категоризации веб-сайтов включают:

примечание: руководство Категоризация и тег (метаданные) методы по своей сути субъективны.[8] Автоматизированные методы категоризации и тегирования по своей сути подвержены различным слабым и сильным сторонам лежащих в основе алгоритмов категоризации.[9]

Тот же идентификатор отслеживания

Идентификаторы отслеживания, используемые для аналитика или идентификация аффилированного лица часто встроены в код веб-сайта. Эти идентификаторы можно использовать для корреляции, поскольку они подразумевают общее управление веб-сайтами. Общедоступные веб-сайты для сопоставления по идентификатору отслеживания включают:

Рекомендации

  1. ^ Поиск: "тиражирование сайта", Google
  2. ^ Поиск: "сценарий клонирования веб-сайта", Google
  3. ^ Феттерли Д., Манассе М., Наджорк М. "Об эволюции кластеров почти повторяющихся веб-страниц ", Труды Первой конференции по латиноамериканскому веб-конгрессу, стр. 37, 2003
  4. ^ У меня есть доменное имя - что теперь ???: Практическое руководство по созданию веб-сайта и веб-присутствия, ISBN  1-60005-109-X, 2008
  5. ^ Шейн МакГлаун, «Microsoft предоставила постоянное владение 276 доменами ботнетов», Daily Tech,2010/9/9
  6. ^ Исследования с участием Интернета и компьютерных сетей [1], Национальный институт юстиции (США),2007
  7. ^ Дж. Прасанна Кумар, П. Говиндараджулу, «Обнаружение повторяющихся и почти повторяющихся документов: обзор»,Европейский журнал научных исследований,ISSN  1450–216X Том 32, номер 4 (2009), стр. 514-527
  8. ^ Брюс и Вибе "Признание субъективности: пример ручной разметки ", Инженерия естественного языка, 1999
  9. ^ Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста. ACM Computing Surveys, 34 (1): 1–47, 2002.