Расстояние Яро – Винклера - Jaro–Winkler distance
В Информатика и статистика, то Расстояние Яро – Винклера это строковая метрика измерение редактировать расстояние между двумя последовательностями. Это вариант, предложенный в 1990 г. Уильям Э. Винклер из Расстояние Джаро метрическая (1989, Мэтью А. Джаро ).
Расстояние Яро – Винклера использует префикс шкала который дает более благоприятные оценки строкам, которые совпадают с самого начала для заданной длины префикса .
Чем меньше расстояние Джаро-Винклера для двух струн, тем более похожи струны. Оценка нормализована так, что 0 означает точное совпадение, а 1 означает отсутствие сходства. В Сходство Яро – Винклера - инверсия, (1 - расстояние Яро – Винклера).
Хотя его часто называют метрика расстояния, расстояние Яро – Винклера не является метрика в математическом смысле этого термина, потому что он не подчиняется неравенство треугольника.
Определение
Джаро Сходство
Сходство Джаро из двух заданных строк и является
Где:
- это длина строки ;
- это количество совпадающие символы (Смотри ниже);
- это половина числа транспозиции (Смотри ниже).
Два персонажа из и соответственно считаются соответствие только если они такие же и не дальше чем символы отдельно.
Каждый персонаж сравнивается со всеми соответствующими символами в . Количество совпадающих (но различающихся порядком следования) символов, деленное на 2, определяет количество транспозицииНапример, при сравнении CRATE с TRACE совпадающими символами являются только 'R' 'A' 'E', т.е. m = 3. Хотя 'C', 'T' встречаются в обеих строках, они находятся дальше, чем 1 (результат ). Следовательно, t = 0. В DwAyNE по сравнению с DuANE совпадающие буквы уже находятся в том же порядке D-A-N-E, поэтому транспонирование не требуется.
Сходство Яро – Винклера
Сходство Яро – Винклера использует префикс шкала который дает более благоприятные оценки строкам, которые совпадают с самого начала для заданной длины префикса . Учитывая две строки и , их сходство Яро – Винклера является:
куда:
- подобие Джаро для струнных и
- - длина общего префикса в начале строки, не более 4 символов
- это постоянная коэффициент масштабирования на сколько счет повышается для наличия общих префиксов. не должно превышать 0,25 (т.е. 1/4, где 4 - максимальная длина рассматриваемого префикса), в противном случае сходство может стать больше 1. Стандартное значение этой константы в работе Винклера равно
Расстояние Яро-Винклера определяется как .
Хотя часто называют метрика расстояния, расстояние Яро – Винклера не является метрика в математическом смысле этого термина, потому что он не подчиняется неравенство треугольника.[1] Расстояние Яро – Винклера также не удовлетворяет аксиоме тождества .
Связь с другими метриками расстояния редактирования
Есть и другие популярные меры редактировать расстояние, которые рассчитываются с использованием другого набора допустимых операций редактирования. Например,
- то Расстояние Левенштейна позволяет удаление, вставку и замену;
- то Расстояние Дамерау – Левенштейна позволяет вставку, удаление, замену и транспозиция двух соседних символов;
- то самая длинная общая подпоследовательность (LCS) расстояние позволяет только вставку и удаление, но не замену;
- то Расстояние Хэмминга позволяет только подстановку, следовательно, применяется только к строкам одинаковой длины.
Изменить расстояние обычно определяется как параметризуемая метрика, вычисляемая с помощью определенного набора разрешенных операций редактирования, и каждой операции назначается стоимость (возможно, бесконечная). Далее это обобщается ДНК. выравнивание последовательностей алгоритмы, такие как Алгоритм Смита – Уотермана, из-за чего стоимость операции зависит от того, где она применяется.
Смотрите также
Сноски
- ^ «Яро-Винклер« Приглашающее Крещение ». RichardMinerich.com. Получено 12 июн 2017.
Рекомендации
- Cohen, W. W .; Ravikumar, P .; Финберг, С. Э. (2003). «Сравнение показателей расстояния между строками для задач сопоставления имен» (PDF). KDD Workshop по очистке данных и консолидации объектов. 3: 73–8.
- Яро, М.А. (1989). «Достижения в методологии связи записей применительно к переписи 1985 года в Тампе, Флорида». Журнал Американской статистической ассоциации. 84 (406): 414–20. Дои:10.1080/01621459.1989.10478785.
- Яро, М. А. (1995). «Вероятностная привязка большого файла данных общественного здравоохранения». Статистика в медицине. 14 (5–7): 491–8. Дои:10.1002 / sim.4780140510. PMID 7792443.
- Винклер, У. (1990). «Метрики компаратора строк и расширенные правила принятия решений в модели связи записей Феллеги-Сантера» (PDF). Материалы секции по методам опросных исследований. Американская статистическая ассоциация: 354–359.
- Винклер, У. (2006). «Обзор связи с записями и текущие направления исследований» (PDF). Серия отчетов об исследованиях, RRS.