Коэффициент корреляции Мэтьюза - Matthews correlation coefficient - Wikipedia

В Коэффициент корреляции Мэтьюза (MCC) или коэффициент фи используется в машинное обучение как мера качества двоичного (двухклассного) классификации, представленный биохимиком Брайан В. Мэтьюз в 1975 г.^[1] MCC определяется идентично Коэффициент фи Пирсона, представлен Карл Пирсон,^[2]^[3] также известный как коэффициент Юля фи, от его введения Удный Йоль в 1912 г.^[4] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюзом на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.

Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно считается сбалансированной мерой, которую можно использовать, даже если классы очень разных размеров.^[5] MCC - это, по сути, коэффициент корреляции между наблюдаемыми и предсказанными бинарными классификациями; он возвращает значение от -1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 не лучше, чем случайное предсказание, а -1 указывает на полное несоответствие между предсказанием и наблюдением. MCC тесно связан с статистика хи-квадрат для 2 × 2 Таблица сопряженности

{ displaystyle | { text {MCC}} | = { sqrt { frac { chi ^ {2}} {n}}}}

куда п - общее количество наблюдений.

Хотя нет идеального способа описать матрица путаницы Для истинных и ложных положительных и отрицательных результатов одним числом, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей.^[6] Другие показатели, такие как доля правильных прогнозов (также называемая точность ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к большему набору обеспечивает высокую долю правильных прогнозов, но обычно не является полезной классификацией.

MCC можно рассчитать непосредственно из матрица путаницы по формуле:

{ displaystyle { text {MCC}} = { frac {{ mathit {TP}} times { mathit {TN}} - { mathit {FP}} times { mathit {FN}}} { sqrt {({ mathit {TP}} + { mathit {FP}}) ({ mathit {TP}} + { mathit {FN}}) ({ mathit {TN}} + { mathit { FP}}) ({ mathit {TN}} + { mathit {FN}})}}}}

В этом уравнении TP это количество истинные положительные моменты, TN количество истинные негативы, FP количество ложные срабатывания и FN количество ложные отрицания. Если любая из четырех сумм в знаменателе равна нулю, знаменатель может быть произвольно установлен на единицу; это приводит к нулевому коэффициенту корреляции Мэтьюза, который можно показать как правильное предельное значение.

MCC можно рассчитать по формуле:

{ displaystyle { text {MCC}} = { sqrt {{ mathit {PPV}} times { mathit {TPR}} times { mathit {TNR}} times { mathit {NPV}}} } - { sqrt {{ mathit {FDR}} times { mathit {FNR}} times { mathit {FPR}} times { mathit {FOR}}}}}

с использованием положительного прогнозного значения, истинно положительного показателя, истинно отрицательного показателя, отрицательного прогнозного значения, показателя ложного обнаружения, ложноотрицательного показателя, ложноположительного показателя и показателя ложных пропусков.

Исходная формула, данная Мэтьюзом, была следующей:^[1]

{ Displaystyle N = { mathit {TN}} + { mathit {TP}} + { mathit {FN}} + { mathit {FP}}}

{ displaystyle S = { frac {{ mathit {TP}} + { mathit {FN}}} {N}}}

{ displaystyle P = { frac {{ mathit {TP}} + { mathit {FP}}} {N}}}

{ displaystyle { text {MCC}} = { frac {{ mathit {TP}} / N-S times P} { sqrt {PS (1-S) (1-P)}}}}

Это равно формуле, приведенной выше. Как коэффициент корреляции, коэффициент корреляции Мэтьюза - это среднее геометрическое из коэффициенты регрессии проблемы и ее двойной. Коэффициенты компонентной регрессии коэффициента корреляции Мэтьюза равны Отмеченность (Δp) и Статистика Юдена J (Информированность или Δp ').^[6]^[7] Отмеченность и Информированность соответствуют разным направлениям информационного потока и обобщают Статистика Юдена J, то ${ displaystyle delta}$ p статистики и (как их среднее геометрическое) коэффициент корреляции Мэтьюза для более чем двух классов.^[6]

Некоторые ученые утверждают, что коэффициент корреляции Мэтьюса является наиболее информативной единичной оценкой для определения качества предсказания двоичного классификатора в контексте матрицы путаницы.^[8]

Пример

Для выборки из 13 изображений 8 кошек и 5 собак, где кошки принадлежат к классу 1, а собаки относятся к классу 0,

фактическое = [1,1,1,1,1,1,1,1,0,0,0,0,0],

Предположим, что классификатор, который проводит различие между кошками и собаками, обучен, и мы берем 13 изображений и пропускаем их через классификатор, и классификатор делает 8 точных прогнозов и пропускает 5: 3 кошек, ошибочно предсказанных как собак (первые 3 прогноза) и 2 собаки ошибочно предсказаны как кошки (последние 2 прогноза).

прогноз = [0,0,0,1,1,1,1,1,0,0,0,1,1]

С помощью этих двух помеченных наборов (фактический и прогнозный) мы можем создать матрицу путаницы, которая суммирует результаты тестирования классификатора:

		Фактический класс
		Кот	Собака
Предсказанный учебный класс	Кот	5	2
Предсказанный учебный класс	Собака	3	3

В этой матрице путаницы из 8 изображений кошек система определила, что 3 были собаками, а из 5 изображений собак она предсказала, что 2 были кошками. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому можно легко визуально проверить таблицу на предмет ошибок прогноза, поскольку они будут представлены значениями за пределами диагонали.

В абстрактном смысле матрица путаницы выглядит следующим образом:

		Фактический класс
		п	N
Предсказанный учебный класс	п	TP	FP
Предсказанный учебный класс	N	FN	TN

где: P = положительный; N = отрицательный; TP = истинно положительный; FP = ложноположительный результат; TN = истинно отрицательный; FN = ложноотрицательный.

Подставляем числа из формулы:

MCC = [(5 * 3) - (2 * 3)] / SQRT [(5 + 2) * (5 + 3) * (3 + 2) * (3 + 3)] = 9 / SQRT [1680] = 0,219

Матрица путаницы

Терминология и производные
из матрица путаницы
положительное состояние (P) количество реальных положительных случаев в данных условие отрицательное (N) количество реальных отрицательных случаев в данных истинно положительный (TP) экв. с хитом истинно отрицательный (TN) экв. с правильным отклонением ложное срабатывание (FP) экв. с ложная тревога, Ошибка типа I ложноотрицательный (FN) экв. с мисс, Ошибка типа II чувствительность, отзывать, частота попаданий, или же истинно положительная ставка (TPR) ${ displaystyle mathrm {TPR} = { frac { mathrm {TP}} { mathrm {P}}} = { frac { mathrm {TP}} { mathrm {TP} + mathrm {FN} }} = 1- mathrm {FNR}}$ специфичность, избирательность или же истинно отрицательная ставка (TNR) ${ displaystyle mathrm {TNR} = { frac { mathrm {TN}} { mathrm {N}}} = { frac { mathrm {TN}} { mathrm {TN} + mathrm {FP} }} = 1- mathrm {FPR}}$ точность или же положительная прогностическая ценность (PPV) ${ Displaystyle mathrm {PPV} = { frac { mathrm {TP}} { mathrm {TP} + mathrm {FP}}} = 1- mathrm {FDR}}$ отрицательная прогностическая ценность (ЧПС) ${ displaystyle mathrm {NPV} = { frac { mathrm {TN}} { mathrm {TN} + mathrm {FN}}} = 1- mathrm {FOR}}$ рейтинг промахов или ложноотрицательная ставка (FNR) ${ displaystyle mathrm {FNR} = { frac { mathrm {FN}} { mathrm {P}}} = { frac { mathrm {FN}} { mathrm {FN} + mathrm {TP} }} = 1- mathrm {TPR}}$ выпадать или же ложноположительный рейтинг (FPR) ${ displaystyle mathrm {FPR} = { frac { mathrm {FP}} { mathrm {N}}} = { frac { mathrm {FP}} { mathrm {FP} + mathrm {TN} }} = 1- mathrm {TNR}}$ коэффициент ложного обнаружения (FDR) ${ displaystyle mathrm {FDR} = { frac { mathrm {FP}} { mathrm {FP} + mathrm {TP}}} = 1- mathrm {PPV}}$ коэффициент ложных пропусков (ЗА) ${ displaystyle mathrm {FOR} = { frac { mathrm {FN}} { mathrm {FN} + mathrm {TN}}} = 1- mathrm {NPV}}$ Порог распространенности (PT) ${ displaystyle PT = { frac {{ sqrt {TPR (-TNR + 1)}} + TNR-1} {(TPR + TNR-1)}}}$ Оценка угрозы (TS) или индекс критического успеха (CSI) ${ displaystyle mathrm {TS} = { frac { mathrm {TP}} { mathrm {TP} + mathrm {FN} + mathrm {FP}}}}$ точность (АКК) ${ displaystyle mathrm {ACC} = { frac { mathrm {TP} + mathrm {TN}} { mathrm {P} + mathrm {N}}} = { frac { mathrm {TP} + mathrm {TN}} { mathrm {TP} + mathrm {TN} + mathrm {FP} + mathrm {FN}}}}$ сбалансированная точность (BA) ${ displaystyle mathrm {BA} = { frac {TPR + TNR} {2}}}$ Оценка F1 это гармоническое среднее из точность и чувствительность ${ displaystyle mathrm {F} _ {1} = 2 cdot { frac { mathrm {PPV} cdot mathrm {TPR}} { mathrm {PPV} + mathrm {TPR}}} = { гидроразрыв {2 mathrm {TP}} {2 mathrm {TP} + mathrm {FP} + mathrm {FN}}}}$ Коэффициент корреляции Мэтьюза (MCC) ${ displaystyle mathrm {MCC} = { frac { mathrm {TP} times mathrm {TN} - mathrm {FP} times mathrm {FN}} { sqrt {( mathrm {TP} + mathrm {FP}) ( mathrm {TP} + mathrm {FN}) ( mathrm {TN} + mathrm {FP}) ( mathrm {TN} + mathrm {FN})}}}}$ Индекс Фаулкса – Маллоуса (FM) ${ displaystyle mathrm {FM} = { sqrt {{ frac {TP} {TP + FP}} cdot { frac {TP} {TP + FN}}}} = { sqrt {PPV cdot TPR }}}$ информированность или букмекерской конторы (BM) ${ Displaystyle mathrm {BM} = mathrm {TPR} + mathrm {TNR} -1}$ отмеченность (МК) или deltaP ${ Displaystyle mathrm {MK} = mathrm {PPV} + mathrm {NPV} -1}$ Источники: Fawcett (2006),^[9] Полномочия (2011),^[10] Тинг (2011),^[11] CAWCR,^[12] Д. Чикко и Г. Джурман (2020),^[13] Тарват (2018).^[14]

Определим эксперимент из п положительные примеры и N отрицательные примеры для какого-то состояния. Четыре исхода можно сформулировать в виде 2 × 2 Таблица сопряженности или же матрица путаницы, следующее:

		Истинное состояние
	Всего населения	Состояние положительное	Состояние отрицательное	Распространенность = Σ Условие положительное/Σ Всего населения	Точность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения
Прогнозируемое состояние	Прогнозируемое состояние положительный	Истинно положительный	Ложный положительный результат, Ошибка типа I	Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительное	Уровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное
	Прогнозируемое состояние отрицательный	Ложноотрицательный, Ошибка типа II	Правда отрицательный	Уровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное	Отрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
		Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительное	Ложноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательное	Отношение положительного правдоподобия (LR +) = TPR/FPR	Соотношение диагностических шансов (DOR) = LR +/LR−	F₁ счет = 2 · Точность · Отзыв/Точность + отзыв
		Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительное	Специфика (SPC), селективность, Истинно отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательное	Отрицательное отношение правдоподобия (LR-) = FNR/TNR

Корпус Multiclass

Коэффициент корреляции Мэтьюза был обобщен на мультиклассовый случай. Это обобщение было названо ${ displaystyle R_ {K}}$ статистики (для K различных классов) автором и определяется в терминах ${ displaystyle K times K}$ матрица путаницы ${ displaystyle C}$ ^[15].^[16]

{ displaystyle { text {MCC}} = { frac { sum _ {k} sum _ {l} sum _ {m} C_ {kk} C_ {lm} -C_ {kl} C_ {mk} } {{ sqrt { sum _ {k} ( sum _ {l} C_ {kl}) ( sum _ {k '| k' neq k} sum _ {l '} C_ {k'l '})}} { sqrt { sum _ {k} ( sum _ {l} C_ {lk}) ( sum _ {k' | k ' neq k} sum _ {l'} C_ { l'k '})}}}}}

Когда имеется более двух меток, MCC больше не будет находиться в диапазоне от -1 до +1. Вместо этого минимальное значение будет между -1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.

Эту формулу легче понять, определив промежуточные переменные:^[17]

${ Displaystyle т_ {к} = сумма _ {я} C_ {ik}}$ сколько раз действительно имел место класс k,
${ displaystyle p_ {k} = sum _ {i} C_ {ki}}$ количество предсказаний класса k,
${ displaystyle c = sum _ {k} C_ {kk}}$ общее количество правильно спрогнозированных образцов,
${ Displaystyle s = сумма _ {я} сумма _ {j} C_ {ij}}$ общее количество образцов. Это позволяет выразить формулу как:

{ displaystyle { text {MCC}} = { frac {cs - { vec {t}} cdot { vec {p}}} {{ sqrt {s ^ {2} - { vec {p) }} cdot { vec {p}}}} { sqrt {s ^ {2} - { vec {t}} cdot { vec {t}}}}}}}

Использование приведенной выше формулы для вычисления меры MCC для прогноза Dog & Cat, описанного выше, где матрица путаницы рассматривается как пример 2 x Multiclass:

число = (8 * 13) - (7 * 8) - (6 * 5) = 18

деном = КОРЕНЬ [(13 ^ 2 - 7 ^ 2 - 6 ^ 2) * (13 ^ 2 - 8 ^ 2 - 5 ^ 2)] = КОРЕНЬ [6720]

MCC = 18 / 81,975 = 0,219

Преимущества MCC над точностью и оценкой F1

Как объяснил Давид Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии» (BioData Mining, 2017) и Джузеппе Юрманом в его статье «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» (BMC Genomics, 2020), коэффициент корреляции Мэтьюза более информативен, чем оценка F1 и точность при оценке задач бинарной классификации, поскольку он учитывает балансные соотношения четырех категорий матрицы путаницы (истинно положительные, истинно отрицательные, ложные положительные, ложно отрицательные).^[8]^[18]

В предыдущей статье объясняется, что Совет 8:

Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
${ displaystyle { text {precision}} = { frac {TP + TN} {TP + TN + FP + FN}}}$
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
${ displaystyle { text {оценка F1}} = { frac {2TP} {2TP + FP + FN}}}$
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако, даже если точность и оценка F1 широко используются в статистике, оба могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы неточностей при их окончательном вычислении.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами и только 5 являются отрицательными элементами (как описано в совете 5). А также предположим, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда дает положительные результаты. Представьте, что вы не знаете об этой проблеме.
Таким образом, применяя свой единственный положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
TP = 95, FP = 5; TN = 0, FN = 0.
Эти значения приводят к следующим оценкам производительности: точность = 95% и оценка F1 = 97,44%. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и будете думать, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы ошиблись бы.
Напротив, чтобы избежать этих опасных вводящих в заблуждение иллюзий, есть еще один показатель производительности, который вы можете использовать: коэффициент корреляции Мэтьюса [40] (MCC).
${ displaystyle { text {MCC}} = { frac {TP times TN-FP times FN} { sqrt {(TP + FP) (TP + FN) (TN + FP) (TN + FN)} }}}$
(Уравнение 3, MCC: худшее значение = -1; лучшее значение = +1).
Если учесть долю каждого класса матрицы путаницы в ее формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере оценка MCC будет неопределенной (так как TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы узнаете, что есть проблемы, которые вам следует решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию того же набора данных, что привело к следующим значениям категорий матрицы неточностей:
TP = 90, FP = 4; TN = 1, FN = 5.
В этом примере классификатор хорошо зарекомендовал себя при классификации положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и оценка точности будут чрезвычайно высокими: точность = 91% и оценка F1 = 95,24%. Подобно предыдущему случаю, если бы исследователь проанализировал только эти два показателя оценки без учета MCC, он бы ошибочно подумал, что алгоритм достаточно хорошо выполняет свою задачу, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза снова будет иметь решающее значение. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать эффективность каждого теста с помощью коэффициента корреляции Мэтьюса (MCC) вместо точности и балла F1 для любой задачи двоичной классификации.
— Давид Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии^[8]

Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный. В первом примере выше, оценка F1 высока, потому что класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:

TP = 0, FP = 0; TN = 5, FN = 95

Это дает оценку F1 = 0%.

MCC не зависит от того, какой класс является положительным, который имеет преимущество перед оценкой F1, чтобы избежать неправильного определения положительного класса.

Смотрите также

Каппа Коэна
Крамера V, аналогичная мера связи между номинальными переменными.
Оценка F1
Коэффициент Phi
Индекс Фаулкса – Маллоуса