Коэффициент Соренсена – Дайса - Sørensen–Dice coefficient

В Коэффициент Соренсена – Дайса (другие имена см. ниже) статистика используется для оценки сходства двух образцы. Он был независимо разработан ботаники Торвальд Соренсен[1] и Ли Рэймонд Дайс,[2] которые опубликованы в 1948 и 1945 годах соответственно.

Имя

Индекс известен под несколькими другими названиями, особенно Индекс Соренсена – Дайса,[3] Индекс Соренсена и Коэффициент игральной кости. Другие варианты включают «коэффициент подобия» или «индекс», например Коэффициент подобия игральных костей (DSC). Распространенные альтернативные варианты написания Sørensen: Соренсон, Soerenson и Соренсон, и все три также можно увидеть с –Sen окончание.

Другие названия включают:

  • Оценка F1
  • Чекановски бинарный (неколичественный) индекс[4]
  • Мера генетического сходства[5]
  • Индекс сходства Зийденбоса,[6][7] ссылаясь на статью Zijdenbos et al., опубликованную в 1994 году.[8][3]

Формула

Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как

где |Икс| и |Y| являются мощности из двух наборов (то есть количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.

При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как

.

Он отличается от Индекс Жаккара который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC - это частное сходство, оно находится в диапазоне от 0 до 1.[9] Его можно рассматривать как мера сходства над наборами.

Аналогично Индекс Жаккара, заданные операции могут быть выражены в терминах векторных операций над двоичными векторами а и б:

который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов Икс и Y ключевых слов, используемых в поиск информации, коэффициент можно определить как удвоенную общую информацию (пересечение) по сумме мощностей:[10]

Если взять за нить мера подобия, коэффициент может быть рассчитан для двух строк, Икс и у с помощью биграммы следующее:[11]

куда пт - количество символьных биграмм в обеих строках, пИкс это количество биграмм в строке Икс и пу это количество биграмм в строке у. Например, чтобы вычислить сходство между:

ночь
ночь

Мы бы нашли набор биграмм в каждом слове:

{ni,ig,gh,ht}
{на,ac,ch,ht}

Каждый набор состоит из четырех элементов, а пересечение этих двух наборов имеет только один элемент: ht.

Подставляя эти числа в формулу, мы вычисляем, s = (2 · 1) / (4 + 4) = 0.25.

Отличие от Жаккара

Этот коэффициент по форме не сильно отличается от Индекс Жаккара. Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса , можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения и .

Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрический версия индекса Жаккара.[4]

Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности

не является надлежащей метрикой расстояния, так как не удовлетворяет неравенство треугольника.[4] Простейший контрпример этому дают три набора {a}, {b} и {a, b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных составляет одну треть. . Чтобы удовлетворить неравенству треугольника, сумма любой две из этих трех сторон должны быть больше или равны оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Соренсена-Дайса полезен для данных экологического сообщества (например, Looman & Campbell, 1960[12]). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически его можно оправдать как пересечение двух нечеткие множества[13]). По сравнению с Евклидово расстояние расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам.[14] В последнее время оценка в кости (и ее вариации, например, логарифм logDice) стала популярной на компьютерах. лексикография для измерения лексической ассоциации двух заданных слов.[15] Он также обычно используется в сегментация изображения, в частности, для сравнения результатов алгоритмов с эталонными масками в медицинских приложениях.[8]

Версия изобилия

Выражение легко расширяется до избыток вместо наличия / отсутствия вида. Эта количественная версия известна под несколькими названиями:

Смотрите также

Рекомендации

  1. ^ Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на датских территориях». Kongelige Danske Videnskabernes Selskab. 5 (4): 1–34.
  2. ^ Дайс, Ли Р. (1945). «Меры величины экологической ассоциации между видами». Экология. 26 (3): 297–302. Дои:10.2307/1932409. JSTOR  1932409.
  3. ^ а б Carass, A .; Рой, С .; Gherman, A .; Reinhold, J.C .; Джессон, А .; и другие. (2020). «Оценка сегментов поражения белого вещества с помощью уточненного анализа Соренсена-Дайса». Научные отчеты. 10 (1): 8242. Bibcode:2020НатСР..10.8242С. Дои:10.1038 / s41598-020-64803-w. ISSN  2045-2322. ЧВК  7237671. PMID  32427874.CS1 maint: ref = harv (связь)
  4. ^ а б c d е ж грамм час я j Галлахер, Э.Д., 1999. Документация COMPAH, Массачусетский университет, Бостон
  5. ^ Nei, M .; Ли, W.H. (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS. 76 (10): 5269–5273. Bibcode:1979PNAS ... 76.5269N. Дои:10.1073 / pnas.76.10.5269. ЧВК  413122. PMID  291943.
  6. ^ Прескотт, JW .; Pennell, M .; Best, T.M .; Swanson, M.S .; Haq, F .; Jackson, R .; Гуркан, М. (2009). Автоматический метод сегментации бедренной кости для исследования остеоартрита. IEEE. Дои:10.1109 / iembs.2009.5333257. ЧВК  2826829.CS1 maint: ref = harv (связь)
  7. ^ Swanson, M.S .; Прескотт, JW .; Best, T.M .; Powell, K .; Jackson, R.D .; Haq, F .; Гуркан, М. (2010). «Полуавтоматическая сегментация для оценки бокового мениска в нормальных коленях и коленях с остеоартритом». Остеоартрит и хрящ. 18 (3): 344–353. Дои:10.1016 / j.joca.2009.10.004. ISSN  1063-4584. ЧВК  2826568. PMID  19857510.CS1 maint: ref = harv (связь)
  8. ^ а б Zijdenbos, A.P .; Dawant, B.M .; Марголин, Р.А.; Палмер, A.C. (1994). «Морфометрический анализ поражений белого вещества на МРТ: метод и проверка». IEEE Transactions по медицинской визуализации. 13 (4): 716–724. Дои:10.1109/42.363096. ISSN  0278-0062. PMID  18218550.CS1 maint: ref = harv (связь)
  9. ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
  10. ^ ван Рейсберген, Корнелис Йост (1979). Поиск информации. Лондон: Баттервортс. ISBN  3-642-12274-4.
  11. ^ Кондрак, Гжегож; Марку, Даниэль; Рыцарь, Кевин (2003). «Cognates может улучшить модели статистического перевода» (PDF). Материалы HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики. С. 46–48.
  12. ^ Looman, J .; Кэмпбелл, Дж. Б. (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология. 41 (3): 409–416. Дои:10.2307/1933315. JSTOR  1933315.
  13. ^ Робертс, Д. (1986). «Рукоположение на основе теории нечетких множеств». Vegetatio. 66 (3): 123–131. Дои:10.1007 / BF00039905. S2CID  12573576.
  14. ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Дизайн программного обеспечения Mjm; ISBN  0-9721290-0-6.
  15. ^ Rychlý, P. (2008) Оценка ассоциации, удобная для лексикографов. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9
  16. ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Посвящение горных лесных сообществ Южного Висконсина». Экологические монографии. 27 (4): 326–349. Дои:10.2307/1942268. JSTOR  1942268.

внешняя ссылка