Расстояние Яро – Винклера - Jaro–Winkler distance

В Информатика и статистика, то Расстояние Яро – Винклера это строковая метрика измерение редактировать расстояние между двумя последовательностями. Это вариант, предложенный в 1990 г. Уильям Э. Винклер из Расстояние Джаро метрическая (1989, Мэтью А. Джаро ).

Расстояние Яро – Винклера использует префикс шкала который дает более благоприятные оценки строкам, которые совпадают с самого начала для заданной длины префикса .

Чем меньше расстояние Джаро-Винклера для двух струн, тем более похожи струны. Оценка нормализована так, что 0 означает точное совпадение, а 1 означает отсутствие сходства. В Сходство Яро – Винклера - инверсия, (1 - расстояние Яро – Винклера).

Хотя его часто называют метрика расстояния, расстояние Яро – Винклера не является метрика в математическом смысле этого термина, потому что он не подчиняется неравенство треугольника.

Определение

Джаро Сходство

Сходство Джаро из двух заданных строк и является

Где:

  • это длина строки ;
  • это количество совпадающие символы (Смотри ниже);
  • это половина числа транспозиции (Смотри ниже).

Два персонажа из и соответственно считаются соответствие только если они такие же и не дальше чем символы отдельно.

Каждый персонаж сравнивается со всеми соответствующими символами в . Количество совпадающих (но различающихся порядком следования) символов, деленное на 2, определяет количество транспозицииНапример, при сравнении CRATE с TRACE совпадающими символами являются только 'R' 'A' 'E', т.е. m = 3. Хотя 'C', 'T' встречаются в обеих строках, они находятся дальше, чем 1 (результат ). Следовательно, t = 0. В DwAyNE по сравнению с DuANE совпадающие буквы уже находятся в том же порядке D-A-N-E, поэтому транспонирование не требуется.

Сходство Яро – Винклера

Сходство Яро – Винклера использует префикс шкала который дает более благоприятные оценки строкам, которые совпадают с самого начала для заданной длины префикса . Учитывая две строки и , их сходство Яро – Винклера является:

куда:

  • подобие Джаро для струнных и
  • - длина общего префикса в начале строки, не более 4 символов
  • это постоянная коэффициент масштабирования на сколько счет повышается для наличия общих префиксов. не должно превышать 0,25 (т.е. 1/4, где 4 - максимальная длина рассматриваемого префикса), в противном случае сходство может стать больше 1. Стандартное значение этой константы в работе Винклера равно

Расстояние Яро-Винклера определяется как .

Хотя часто называют метрика расстояния, расстояние Яро – Винклера не является метрика в математическом смысле этого термина, потому что он не подчиняется неравенство треугольника.[1] Расстояние Яро – Винклера также не удовлетворяет аксиоме тождества .

Связь с другими метриками расстояния редактирования

Есть и другие популярные меры редактировать расстояние, которые рассчитываются с использованием другого набора допустимых операций редактирования. Например,

Изменить расстояние обычно определяется как параметризуемая метрика, вычисляемая с помощью определенного набора разрешенных операций редактирования, и каждой операции назначается стоимость (возможно, бесконечная). Далее это обобщается ДНК. выравнивание последовательностей алгоритмы, такие как Алгоритм Смита – Уотермана, из-за чего стоимость операции зависит от того, где она применяется.

Смотрите также

Сноски

  1. ^ «Яро-Винклер« Приглашающее Крещение ». RichardMinerich.com. Получено 12 июн 2017.

Рекомендации

внешняя ссылка