Коэффициент Соренсена – Дайса - Sørensen–Dice coefficient
В Коэффициент Соренсена – Дайса (другие имена см. ниже) статистика используется для оценки сходства двух образцы. Он был независимо разработан ботаники Торвальд Соренсен[1] и Ли Рэймонд Дайс,[2] которые опубликованы в 1948 и 1945 годах соответственно.
Имя
Индекс известен под несколькими другими названиями, особенно Индекс Соренсена – Дайса,[3] Индекс Соренсена и Коэффициент игральной кости. Другие варианты включают «коэффициент подобия» или «индекс», например Коэффициент подобия игральных костей (DSC). Распространенные альтернативные варианты написания Sørensen: Соренсон, Soerenson и Соренсон, и все три также можно увидеть с –Sen окончание.
Другие названия включают:
- Оценка F1
- Чекановски бинарный (неколичественный) индекс[4]
- Мера генетического сходства[5]
- Индекс сходства Зийденбоса,[6][7] ссылаясь на статью Zijdenbos et al., опубликованную в 1994 году.[8][3]
Формула
Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как
где |Икс| и |Y| являются мощности из двух наборов (то есть количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.
При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как
- .
Он отличается от Индекс Жаккара который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC - это частное сходство, оно находится в диапазоне от 0 до 1.[9] Его можно рассматривать как мера сходства над наборами.
Аналогично Индекс Жаккара, заданные операции могут быть выражены в терминах векторных операций над двоичными векторами а и б:
который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.
Для наборов Икс и Y ключевых слов, используемых в поиск информации, коэффициент можно определить как удвоенную общую информацию (пересечение) по сумме мощностей:[10]
Если взять за нить мера подобия, коэффициент может быть рассчитан для двух строк, Икс и у с помощью биграммы следующее:[11]
куда пт - количество символьных биграмм в обеих строках, пИкс это количество биграмм в строке Икс и пу это количество биграмм в строке у. Например, чтобы вычислить сходство между:
ночь
ночь
Мы бы нашли набор биграмм в каждом слове:
- {
ni
,ig
,gh
,ht
} - {
на
,ac
,ch
,ht
}
Каждый набор состоит из четырех элементов, а пересечение этих двух наборов имеет только один элемент: ht
.
Подставляя эти числа в формулу, мы вычисляем, s = (2 · 1) / (4 + 4) = 0.25.
Отличие от Жаккара
Этот коэффициент по форме не сильно отличается от Индекс Жаккара. Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса , можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения и .
Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрический версия индекса Жаккара.[4]
Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности
не является надлежащей метрикой расстояния, так как не удовлетворяет неравенство треугольника.[4] Простейший контрпример этому дают три набора {a}, {b} и {a, b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных составляет одну треть. . Чтобы удовлетворить неравенству треугольника, сумма любой две из этих трех сторон должны быть больше или равны оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.
Приложения
Коэффициент Соренсена-Дайса полезен для данных экологического сообщества (например, Looman & Campbell, 1960[12]). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически его можно оправдать как пересечение двух нечеткие множества[13]). По сравнению с Евклидово расстояние расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам.[14] В последнее время оценка в кости (и ее вариации, например, логарифм logDice) стала популярной на компьютерах. лексикография для измерения лексической ассоциации двух заданных слов.[15] Он также обычно используется в сегментация изображения, в частности, для сравнения результатов алгоритмов с эталонными масками в медицинских приложениях.[8]
Версия изобилия
Выражение легко расширяется до избыток вместо наличия / отсутствия вида. Эта количественная версия известна под несколькими названиями:
- Количественный индекс Соренсена – Дайса[4]
- Количественный индекс Соренсена[4]
- Количественный индекс Dice[4]
- Сходство Брея-Кертиса (1 минус Несходство Брея-Кертиса)[4]
- Чекановски количественный показатель[4]
- Индекс Штейнхауза[4]
- Пиелу процентное сходство[4]
- 1 минус Расстояние Хеллингера[16]
Смотрите также
- Корреляция
- Оценка F1
- Индекс Жаккара
- Расстояние Хэмминга
- Каминный тест
- Индекс перекрытия Мориситы
- Наиболее часто встречающиеся символы k
- Коэффициент перекрытия
- Индекс сходства Ренконена (из-за Олави Ренконен )
- Индекс Тверски
- Универсальная теория адаптивной стратегии (UAST)
Рекомендации
- ^ Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на датских территориях». Kongelige Danske Videnskabernes Selskab. 5 (4): 1–34.
- ^ Дайс, Ли Р. (1945). «Меры величины экологической ассоциации между видами». Экология. 26 (3): 297–302. Дои:10.2307/1932409. JSTOR 1932409.
- ^ а б Carass, A .; Рой, С .; Gherman, A .; Reinhold, J.C .; Джессон, А .; и другие. (2020). «Оценка сегментов поражения белого вещества с помощью уточненного анализа Соренсена-Дайса». Научные отчеты. 10 (1): 8242. Bibcode:2020НатСР..10.8242С. Дои:10.1038 / s41598-020-64803-w. ISSN 2045-2322. ЧВК 7237671. PMID 32427874.CS1 maint: ref = harv (связь)
- ^ а б c d е ж грамм час я j Галлахер, Э.Д., 1999. Документация COMPAH, Массачусетский университет, Бостон
- ^ Nei, M .; Ли, W.H. (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS. 76 (10): 5269–5273. Bibcode:1979PNAS ... 76.5269N. Дои:10.1073 / pnas.76.10.5269. ЧВК 413122. PMID 291943.
- ^ Прескотт, JW .; Pennell, M .; Best, T.M .; Swanson, M.S .; Haq, F .; Jackson, R .; Гуркан, М. (2009). Автоматический метод сегментации бедренной кости для исследования остеоартрита. IEEE. Дои:10.1109 / iembs.2009.5333257. ЧВК 2826829.CS1 maint: ref = harv (связь)
- ^ Swanson, M.S .; Прескотт, JW .; Best, T.M .; Powell, K .; Jackson, R.D .; Haq, F .; Гуркан, М. (2010). «Полуавтоматическая сегментация для оценки бокового мениска в нормальных коленях и коленях с остеоартритом». Остеоартрит и хрящ. 18 (3): 344–353. Дои:10.1016 / j.joca.2009.10.004. ISSN 1063-4584. ЧВК 2826568. PMID 19857510.CS1 maint: ref = harv (связь)
- ^ а б Zijdenbos, A.P .; Dawant, B.M .; Марголин, Р.А.; Палмер, A.C. (1994). «Морфометрический анализ поражений белого вещества на МРТ: метод и проверка». IEEE Transactions по медицинской визуализации. 13 (4): 716–724. Дои:10.1109/42.363096. ISSN 0278-0062. PMID 18218550.CS1 maint: ref = harv (связь)
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
- ^ ван Рейсберген, Корнелис Йост (1979). Поиск информации. Лондон: Баттервортс. ISBN 3-642-12274-4.
- ^ Кондрак, Гжегож; Марку, Даниэль; Рыцарь, Кевин (2003). «Cognates может улучшить модели статистического перевода» (PDF). Материалы HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики. С. 46–48.
- ^ Looman, J .; Кэмпбелл, Дж. Б. (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология. 41 (3): 409–416. Дои:10.2307/1933315. JSTOR 1933315.
- ^ Робертс, Д. (1986). «Рукоположение на основе теории нечетких множеств». Vegetatio. 66 (3): 123–131. Дои:10.1007 / BF00039905. S2CID 12573576.
- ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Дизайн программного обеспечения Mjm; ISBN 0-9721290-0-6.
- ^ Rychlý, P. (2008) Оценка ассоциации, удобная для лексикографов. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9
- ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Посвящение горных лесных сообществ Южного Висконсина». Экологические монографии. 27 (4): 326–349. Дои:10.2307/1942268. JSTOR 1942268.