Коэффициент Соренсена – Дайса - Sørensen–Dice coefficient

В Коэффициент Соренсена – Дайса (другие имена см. ниже) статистика используется для оценки сходства двух образцы. Он был независимо разработан ботаники Торвальд Соренсен^[1] и Ли Рэймонд Дайс,^[2] которые опубликованы в 1948 и 1945 годах соответственно.

Имя

Индекс известен под несколькими другими названиями, особенно Индекс Соренсена – Дайса,^[3] Индекс Соренсена и Коэффициент игральной кости. Другие варианты включают «коэффициент подобия» или «индекс», например Коэффициент подобия игральных костей (DSC). Распространенные альтернативные варианты написания Sørensen: Соренсон, Soerenson и Соренсон, и все три также можно увидеть с –Sen окончание.

Другие названия включают:

Оценка F1
Чекановски бинарный (неколичественный) индекс^[4]
Мера генетического сходства^[5]
Индекс сходства Зийденбоса,^[6]^[7] ссылаясь на статью Zijdenbos et al., опубликованную в 1994 году.^[8]^[3]

Формула

Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как

{displaystyle DSC = {frac {2 | Xcap Y |} {| X | + | Y |}}}

где |Икс| и |Y| являются мощности из двух наборов (то есть количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.

При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как

{displaystyle DSC = {гидроразрыв {2TP} {2TP + FP + FN}}}

.

Он отличается от Индекс Жаккара который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC - это частное сходство, оно находится в диапазоне от 0 до 1.^[9] Его можно рассматривать как мера сходства над наборами.

Аналогично Индекс Жаккара, заданные операции могут быть выражены в терминах векторных операций над двоичными векторами а и б:

{displaystyle s_ {v} = {frac {2 | {f {{a} cdot {f {{b} |}}}}} {| {f {{a} | ^ {2} + | {f {{ б} | ^ {2}}}}}}}}

который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов Икс и Y ключевых слов, используемых в поиск информации, коэффициент можно определить как удвоенную общую информацию (пересечение) по сумме мощностей:^[10]

Если взять за нить мера подобия, коэффициент может быть рассчитан для двух строк, Икс и у с помощью биграммы следующее:^[11]

{displaystyle s = {frac {2n_ {t}} {n_ {x} + n_ {y}}}}

куда п_т - количество символьных биграмм в обеих строках, п_Икс это количество биграмм в строке Икс и п_у это количество биграмм в строке у. Например, чтобы вычислить сходство между:

ночь

Мы бы нашли набор биграмм в каждом слове:

{ni,ig,gh,ht}

{на,ac,ch,ht}

Каждый набор состоит из четырех элементов, а пересечение этих двух наборов имеет только один элемент: ht.

Подставляя эти числа в формулу, мы вычисляем, s = (2 · 1) / (4 + 4) = 0.25.

Отличие от Жаккара

Этот коэффициент по форме не сильно отличается от Индекс Жаккара. Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса ${displaystyle S}$ , можно вычислить соответствующее значение индекса Жаккара ${displaystyle J}$ и наоборот, используя уравнения ${displaystyle J = S / (2-S)}$ и ${displaystyle S = 2J / (1 + J)}$ .

Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрический версия индекса Жаккара.^[4]

Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности

{displaystyle d = 1- {frac {2 | Xcap Y |} {| X | + | Y |}}}

не является надлежащей метрикой расстояния, так как не удовлетворяет неравенство треугольника.^[4] Простейший контрпример этому дают три набора {a}, {b} и {a, b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных составляет одну треть. . Чтобы удовлетворить неравенству треугольника, сумма любой две из этих трех сторон должны быть больше или равны оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Соренсена-Дайса полезен для данных экологического сообщества (например, Looman & Campbell, 1960^[12]). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически его можно оправдать как пересечение двух нечеткие множества^[13]). По сравнению с Евклидово расстояние расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам.^[14] В последнее время оценка в кости (и ее вариации, например, логарифм logDice) стала популярной на компьютерах. лексикография для измерения лексической ассоциации двух заданных слов.^[15] Он также обычно используется в сегментация изображения, в частности, для сравнения результатов алгоритмов с эталонными масками в медицинских приложениях.^[8]

Версия изобилия

Выражение легко расширяется до избыток вместо наличия / отсутствия вида. Эта количественная версия известна под несколькими названиями:

Количественный индекс Соренсена – Дайса^[4]
Количественный индекс Соренсена^[4]
Количественный индекс Dice^[4]
Сходство Брея-Кертиса (1 минус Несходство Брея-Кертиса)^[4]
Чекановски количественный показатель^[4]
Индекс Штейнхауза^[4]
Пиелу процентное сходство^[4]
1 минус Расстояние Хеллингера^[16]

Смотрите также

внешняя ссылка

[1] Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на датских территориях». Kongelige Danske Videnskabernes Selskab. 5 (4): 1–34.

[2] Дайс, Ли Р. (1945). «Меры величины экологической ассоциации между видами». Экология. 26 (3): 297–302. Дои:10.2307/1932409. JSTOR 1932409.

[carass-3] а ^б Carass, A .; Рой, С .; Gherman, A .; Reinhold, J.C .; Джессон, А .; и другие. (2020). «Оценка сегментов поражения белого вещества с помощью уточненного анализа Соренсена-Дайса». Научные отчеты. 10 (1): 8242. Bibcode:2020НатСР..10.8242С. Дои:10.1038 / s41598-020-64803-w. ISSN 2045-2322. ЧВК 7237671. PMID 32427874.CS1 maint: ref = harv (связь)

[gallagher-4] а ^б ^c ^d ^е ^ж ^грамм ^час ^я ^j Галлахер, Э.Д., 1999. Документация COMPAH, Массачусетский университет, Бостон

[nei-5] Nei, M .; Ли, W.H. (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS. 76 (10): 5269–5273. Bibcode:1979PNAS ... 76.5269N. Дои:10.1073 / pnas.76.10.5269. ЧВК 413122. PMID 291943.

[6] Прескотт, JW .; Pennell, M .; Best, T.M .; Swanson, M.S .; Haq, F .; Jackson, R .; Гуркан, М. (2009). Автоматический метод сегментации бедренной кости для исследования остеоартрита. IEEE. Дои:10.1109 / iembs.2009.5333257. ЧВК 2826829.CS1 maint: ref = harv (связь)

[7] Swanson, M.S .; Прескотт, JW .; Best, T.M .; Powell, K .; Jackson, R.D .; Haq, F .; Гуркан, М. (2010). «Полуавтоматическая сегментация для оценки бокового мениска в нормальных коленях и коленях с остеоартритом». Остеоартрит и хрящ. 18 (3): 344–353. Дои:10.1016 / j.joca.2009.10.004. ISSN 1063-4584. ЧВК 2826568. PMID 19857510.CS1 maint: ref = harv (связь)

[zijdenbos-8] а ^б Zijdenbos, A.P .; Dawant, B.M .; Марголин, Р.А.; Палмер, A.C. (1994). «Морфометрический анализ поражений белого вещества на МРТ: метод и проверка». IEEE Transactions по медицинской визуализации. 13 (4): 716–724. Дои:10.1109/42.363096. ISSN 0278-0062. PMID 18218550.CS1 maint: ref = harv (связь)

[9] ttp://www.sekj.org/PDF/anbf40/anbf40-415.pdf

[10] ван Рейсберген, Корнелис Йост (1979). Поиск информации. Лондон: Баттервортс. ISBN 3-642-12274-4.

[11] Кондрак, Гжегож; Марку, Даниэль; Рыцарь, Кевин (2003). «Cognates может улучшить модели статистического перевода» (PDF). Материалы HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики. С. 46–48.

[12] Looman, J .; Кэмпбелл, Дж. Б. (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология. 41 (3): 409–416. Дои:10.2307/1933315. JSTOR 1933315.

[13] Робертс, Д. (1986). «Рукоположение на основе теории нечетких множеств». Vegetatio. 66 (3): 123–131. Дои:10.1007 / BF00039905. S2CID 12573576.

[14] МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Дизайн программного обеспечения Mjm; ISBN 0-9721290-0-6.

[15] Rychlý, P. (2008) Оценка ассоциации, удобная для лексикографов. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9

[16] Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Посвящение горных лесных сообществ Южного Висконсина». Экологические монографии. 27 (4): 326–349. Дои:10.2307/1942268. JSTOR 1942268.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]