Корреляция сайта - Website correlation

Корреляция сайта, или же соответствие веб-сайта, это процесс, используемый для идентификации похожих или связанных веб-сайтов. Веб-сайты по своей природе легко копировать.^[1]^[2] Это привело к увеличению числа идентичных веб-сайтов.^[3] или очень похожие веб-сайты для различных целей от перевод к интернет-маркетинг (особенно Партнерский маркетинг )^[4] к Интернет-преступление^[5] Поиск похожих веб-сайтов по своей сути проблематичен, потому что они могут быть на разных языках, на разных серверах, в разных странах (разные домены верхнего уровня ).

Использует

Корреляция сайтов используется в:

Интернет-расследования^[6] для определения общего объема расследования
исследования рынка для поиска конкурентов или определения рыночного охвата конкурирующих компаний или для выборочное обследование
Веб-фильтрация^[7] системы, чтобы гарантировать, что все веб-сайты определенного типа заблокированы для просмотра
Сбор данных системы для максимизации входных или выходных данных
управление рисками программы, обеспечивающие мониторинг веб-сайтов на предмет проблем, связанных с фискальным риском
Мониторинг соблюдения в рамках программа комплаенс и этики или политика, обеспечивающая соответствие веб-сайтов установленным правилам

Типы корреляции

Существует несколько известных типов корреляции, каждый из которых демонстрирует свои сильные и слабые стороны. Практический процесс корреляции веб-сайтов может потребовать сочетания двух или более из этих методов.

Подобная структура

Чтобы сэкономить время и силы, владельцы веб-сайтов дублируют основные части кода веб-сайтов во многих домены. Сходство структуры кода может предоставить достаточно информации для корреляции. Организации, которые, как известно, имеют общедоступные базы данных с возможностью поиска для такого рода корреляции, включают:

http://www.delineal.com

примечание: веб-сайты иногда могут использовать одну и ту же структуру, но не связаны друг с другом (например, когда веб-сайты случайно используют одни и те же система управления контентом ).

Тот же сервер или подсеть

Также известен как коррелированные Обратный поиск DNS. Веб-сайты могут обслуживаться с одного и того же сервер, на одном или нескольких айпи адрес, на одном или нескольких подсеть. Несколько организаций хранят архивы данных IP-адресов и сопоставляют эти данные. Примеры включают:

http://www.domaintools.com

Примечание: корреляция с помощью этого метода может вводить в заблуждение, поскольку веб-сайты часто существуют на одном сервере (также известном как виртуальный хостинг ) но не имеют отношения друг к другу.

Тот же владелец

Веб-сайты могут быть созданы одним и тем же лицом или организацией. Владельцы веб-сайтов должны предоставить контактную информацию регистратор получить доменное имя. Право собственности на домен можно определить с помощью КТО протокол, который не обеспечивает механизма поиска или сопоставления прав собственности. Несколько организаций хранят архивы информации WHOIS и предоставляют услуги поиска и сопоставления. Примеры включают:

примечание: информацию о владельце веб-сайта можно фальсифицированный, устаревший, или же скрыто от всеобщего обозрения. Корреляция веб-сайтов с помощью этого метода может быть точной, вводящей в заблуждение или невозможной в зависимости от информации, содержащейся в записях WHOIS.

Подобный контент

Поисковые системы предоставляют доступные для поиска базы данных проиндексированного содержания веб-сайтов. Списки результатов поисковых систем коррелируют по схожести содержания.

Google

на Google.com введите "related: website_name_here.com", чтобы найти сайты, связанные по имени или фразам.
найдите на веб-сайте фразу с уникальным звучанием, а затем используйте поисковые системы, чтобы найти фразу буквально на других веб-сайтах
- В поле поиска заключите фразу в кавычки, чтобы выполнить поиск по фразе буквально.
- вместо copyright 2010 xyzcompany используйте "copyright 2010 xyzcompany"

примечание: этот метод корреляции по своей сути медленный потому что нужно угадывать, какие фразы искать. Кроме того, связанные веб-сайты не могут содержать буквально похожий контент (например, когда сайт переведен на другой язык).

Та же категория

Веб-сайты часто классифицируются или помечаются аналогичным образом с помощью автоматизированных или ручных средств. Примеры общедоступных баз данных категоризации веб-сайтов включают:

примечание: руководство Категоризация и тег (метаданные) методы по своей сути субъективны.^[8] Автоматизированные методы категоризации и тегирования по своей сути подвержены различным слабым и сильным сторонам лежащих в основе алгоритмов категоризации.^[9]

Тот же идентификатор отслеживания

Идентификаторы отслеживания, используемые для аналитика или идентификация аффилированного лица часто встроены в код веб-сайта. Эти идентификаторы можно использовать для корреляции, поскольку они подразумевают общее управление веб-сайтами. Общедоступные веб-сайты для сопоставления по идентификатору отслеживания включают:

http://ewhois.com