Нормализованное расстояние Google - Normalized Google distance

В Нормализованное расстояние Google (NGD) это семантическое сходство мера полученный из количества совпадений, возвращенных Поисковая система Google для данного набор из ключевые слова.^[1] Ключевые слова с одинаковыми или похожими значениями в смысле естественного языка обычно «близки» в единицах нормализованного расстояния Google, в то время как слова с разными значениями имеют тенденцию быть дальше друг от друга.

В частности, нормализованное расстояние Google (NGD) между двумя поисковыми запросами Икс и у является

{ Displaystyle OperatorName {NGD} (x, y) = { frac { max { log f (x), log f (y) } - log f (x, y)} { log N- min { log f (x), log f (y) }}}}

куда N это общее количество веб-страниц, на которых выполнялся поиск Google, умноженное на среднее количество одноэлементных поисковых запросов, встречающихся на страницах; ж(Икс) и ж(у) - количество совпадений по поисковым запросам Икс и у, соответственно; и ж(Икс, у) - количество веб-страниц, на которых оба Икс и у происходить.

Если ${ displaystyle NGD (x, y) = 0}$ тогда x и y считаются как можно более похожими, но если ${ Displaystyle NGD (х, у) geq 1}$ тогда x и y сильно различаются. Если два условия поиска Икс и у никогда не встречаются вместе на одной и той же веб-странице, а происходят отдельно, NGD между ними бесконечен. Если оба термина всегда встречаются вместе, их NGD равен нулю.

Пример: 9 апреля 2013 г. поиск в Google по запросу «Шекспир» дал 130 000 000 просмотров, поиск в Google по запросу «Макбет» - 26 000 000 просмотров; а поиск в Google по запросу "Шекспир Макбет" дал 20 800 000 посещений. Количество страниц, проиндексированных Google, было оценено по количеству совпадений по поисковому запросу "the", которое составило 25 270 000 000 посещений. Если предположить, что на средней странице имеется около 1000 поисковых запросов, это дает ${ displaystyle N = 25 270 000 000 000}$ .Следовательно

{ displaystyle NGD (Шекспир, Макбет) = (26,95-24,31) / (44,52-24,63) = 0,13}

.

«Шекспир» и «Макбет» очень похожи в соответствии с относительной семантикой, предлагаемой Google.

Вступление

Нормализованное расстояние Google выводится из более раннего Нормализованное расстояние сжатия..^[2]^[3]А именно, объекты могут быть даны буквально, как буквальный четырехбуквенный геном мыши или буквальный текст Макбет к Шекспир. Сходство этих объектов дает NCD. Для простоты мы считаем, что все значение объекта представлено самим буквальным объектом. Объекты можно также получить по имени, например, «четырехбуквенный геном мыши» или «текст Макбет к Шекспир. ' Есть также объекты, которые не могут быть даны буквально, а только по имени, и которые приобретают свое значение из их контекстов в фоновых общих знаниях человечества, таких как «дом» или «красный». Сходство между именами для объектов дается NGD.

Google Распространение и Google Code

Вероятности поисковых запросов Google, представленные как частота подсчетов страниц, возвращаемых Google, деленная на количество страниц, проиндексированных Google (умноженное на среднее количество поисковых терминов на этих страницах), приблизительно соответствуют фактической относительной частоте этих поисковых запросов, фактически используемых в обществе. . Основываясь на этой предпосылке, отношения, представленные нормализованным расстоянием Google, приблизительно отражают предполагаемые истинные семантические отношения, управляющие условиями поиска. В NGD используется World Wide Web и Google. Другой текстовый корпус может быть Википедия, версия короля ЯковаБиблия или Оксфордский словарь английского языка вместе с соответствующими поисковыми системами.

Характеристики

Доказаны следующие свойства:^[1]

NGD находится примерно между 0 и ${ displaystyle infty}$ . Может быть немного отрицательным. Например, "красный красный" дает примерно на 20% больше посещений Google в Всемирная паутина чем "красный". (В середине 2013 года было 4,260,000,000 совпадений для «красных» и 5,500,000,000 совпадений для «красных красных». В настоящее время «красный красный» теперь возвращает гораздо меньше результатов, чем «красный».) Если ${ Displaystyle NGD (х, у) geq 1}$ тогда мы рассматриваем x и y как очень разные.
NGD - это не метрика. Вначале мы видели, что NGD равен нулю для x и y, которые не равны, при условии, что x и y всегда встречаются вместе на одной и той же веб-странице. Из формулы NGD мы видим, что это симметричный. В треугольник собственность не удовлетворена NGD. Однако эти результаты являются теоретическими. Сложно привести практические примеры Всемирная паутина использование Google, которые нарушают треугольник свойство.

Приложения

Приложения к цветам по сравнению с числами, простые числа по сравнению с непростыми числами и поэтому даны в,^[1]а также рандомизированный массовый эксперимент с использованием WordNet категории. В случае простых и не простых чисел и WordNet эксперимент, метод NGD дополнен Машина опорных векторов Классификатор. Эксперименты состоят из 25 положительных примеров и 25 отрицательных. В WordNet эксперимент состоял из 100 случайных WordNet категории. Успешность метода NGD составила 87,25%. Это среднее значение составляет 0,8725, а стандартное отклонение - 0,1169. Эти ставки примерно соответствуют WordNet категории, которые представляют знания исследователей с докторской степенью, которые вошли в них. Редко можно увидеть согласие менее 75%.

Связанная литература

Р. Аллен и Ю. Ву, Показатели объема коллекции, ДЖАСИСТ, (2005), 55 (10), 1243-1249
М. Ли и П.М.Б. Витани, Введение в сложность Колмогорова и ее приложения, Springer, 2019, четвертое издание
Поиск смысла в Google на Newscientist.com.
J. Польша и Th. Зейгманн (2006), Кластеризация расстояния Google с помощью собственных векторов и полуопределенного программирования
А. Гупта и Т. Оутс (2007), Использование онтологий и Интернета для изучения лексической семантики (Включает сравнение NGD с другими алгоритмами.)
Вонг, В., Лю, В. и Беннамун, М. (2007) Алгоритм обхода дерева муравьев для кластеризации терминов, основанный на безликих сходствах. В: Интеллектуальный анализ данных и открытие знаний, том 15, выпуск 3, страницы 349–381. Дои:10.1007 / s10618-007-0073-у (использование NGD для кластеризации терминов)

[CV07-1] а ^б ^c Расстояние подобия Google на ArXiv.org или же Р.Л. Силибрази, П.М.Б. Vitanyi, Расстояние подобия Google, IEEE Trans. Инженерия знаний и данных, 19: 3 (2007), 370–383 или https://arxiv.org/abs/cs.CL/0412098

[CV04-2] Кластеризация путем сжатия на ArXiv.org или же Р.Л. Силибрази, П.М.Б. Витани, Кластеризация путем сжатия, IEEE Trans. Теория информации, 51:12 (2005).

[Li04-3] "M. Li, X. Chen, X. Li, B. Ma, P.M.B. Vitanyi, Метрика подобия, IEEE Trans. Inform. Th., 50:12 (2004), 3250-3264". Ieeexplore.ieee.org. 2011-09-27. Дои:10.1109 / TIT.2004.838101. S2CID 221927. Цитировать журнал требует | журнал = (помощь)

[1]

[2]

[3]