F-оценка - F-score - Wikipedia
В статистический анализ двоичная классификация, то F-оценка или же F-мера является мерой точности теста. Он рассчитывается из точность и отзывать теста, где точность - это количество правильно идентифицированных положительных результатов, деленное на количество всех положительных результатов, включая те, которые не были идентифицированы правильно, а отзыв - это количество правильно идентифицированных положительных результатов, деленное на количество всех образцов, которые должны быть были определены как положительные.
В F1 оценка гармоническое среднее точности и отзыва. Более общий Score применяет дополнительные веса, оценивая точность или отзывчивость одного больше, чем другого.
Максимально возможное значение F-оценки равно 1, что указывает на безупречную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. F1 оценка также известна как Коэффициент Соренсена – Дайса или коэффициент подобия игральных костей (DSC).[нужна цитата ]
Этимология
Считается, что название F-мера было названо в честь другой F-функции в книге Ван Рейсбергена, когда она была представлена Четвертой Конференция по пониманию сообщений (MUC-4, 1992).[1]
Определение
Эта секция нужны дополнительные цитаты для проверка.Декабрь 2018 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Традиционная F-мера или сбалансированная F-оценка (F1 счет) это гармоническое среднее точности и отзывчивости:
- .
Более общая оценка F, , который использует положительный действительный множитель β, где β выбирается таким образом, что отзыв считается в β раз важнее точности, составляет:
- .
С точки зрения Ошибки типа I и типа II это становится:
- .
Два обычно используемых значения β: 2, что весит отзыв выше, чем точность, и 0,5, что вес отзыва ниже, чем точность.
F-мера была получена так, что «измеряет эффективность поиска по отношению к пользователю, который придает воспоминаниям в β раз большее значение, чем точность».[2] Он основан на Ван Рийсберген мера эффективности
- .
Их отношения куда .
Диагностическое тестирование
Это связано с областью двоичная классификация где отзыв часто называют «чувствительностью».
Истинное состояние | ||||||
Всего населения | Состояние положительное | Состояние отрицательное | Распространенность = Σ Условие положительное/Σ Всего населения | Точность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения | ||
Прогнозируемое состояние положительный | Истинно положительный | Ложный положительный результат, Ошибка типа I | Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительное | Уровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное | ||
Прогнозируемое состояние отрицательный | Ложноотрицательный, Ошибка типа II | Правда отрицательный | Уровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное | Отрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное | ||
Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительное | Ложноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательное | Отношение положительного правдоподобия (LR +) = TPR/FPR | Соотношение диагностических шансов (DOR) = LR +/LR− | F1 счет = 2 · Точность · Отзыв/Точность + отзыв | ||
Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительное | Специфика (SPC), селективность, Истинно отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательное | Отрицательное отношение правдоподобия (LR-) = FNR/TNR |
Приложения
F-оценка часто используется в области поиск информации для измерения поиск, классификация документов, и классификация запросов спектакль.[3] Более ранние работы были сосредоточены в основном на F1 оценка, но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы уделять больше внимания точности или отзыву[4] и так рассматривается в широком применении.
F-оценка также используется в машинное обучение.[5] Однако F-меры не принимают во внимание истинные отрицательные стороны, следовательно, такие меры, как Коэффициент корреляции Мэтьюза, Информированность или же Каппа Коэна может быть предпочтительным для оценки производительности двоичного классификатора.[нужна цитата ]
Оценка F широко использовалась в литературе по обработке естественного языка,[6] например, при оценке признание названного лица и сегментация слов.
Критика
Дэвид Хэнд и другие критикуют широкое использование F1 оценка, так как в нем одинаково важны точность и отзывчивость. На практике разные типы неправильной классификации влекут за собой разные затраты. Другими словами, относительная важность точности и отзывчивости - один из аспектов проблемы.[7]
По словам Давиде Чикко и Джузеппе Юрмана, F1 оценка менее правдива и информативна, чем Коэффициент корреляции Мэтьюза (MCC) в бинарной оценочной классификации.[8]
Дэвид Пауэрс указал, что F1 игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированность и Отмеченность для двух направлений, отмечая, что их среднее геометрическое является корреляцией.[9]
Отличие от индекса Фаулкса – Маллоуса
В то время как F-мера - это гармоническое среднее запоминания и точности, Индекс Фаулкса – Маллоуса является их среднее геометрическое.[10]
Расширение мультиклассовой классификации
F-оценка также используется для оценки задач классификации с более чем двумя классами (Мультиклассовая классификация ). В этой настройке окончательный результат получается путем микро-усреднения (смещенного на частоту класса) или макро-усреднения (принимая все классы как одинаково важные). Для макро-усреднения кандидатами использовались две разные формулы: F-оценка (арифметической) классовой точности и средств вспоминания или среднее арифметическое F-оценок по классам, где последние демонстрируют более желательные свойства.[11]
Смотрите также
- Матрица путаницы
- МЕТЕОР
- BLEU
- NIST (метрическая система)
- Рабочая характеристика приемника
- ROUGE (метрическая система)
- Коэффициент неопределенности, он же Мастерство
- Частота ошибок в словах
Рекомендации
- ^ Сасаки, Ю. (2007). «Истина F-меры» (PDF).
- ^ Ван Рийсберген, К. Дж. (1979). Поиск информации (2-е изд.). Баттерворт-Хайнеманн.
- ^ Beitzel., Стивен М. (2006). О понимании и классификации веб-запросов (Кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634.
- ^ X. Li; Ю.-Й. Ванга; А. Асеро (июль 2008 г.). Изучение цели запроса на основе регуляризованных графиков кликов. Материалы 31-й конференции SIGIR. Дои:10.1145/1390334.1390393. S2CID 8482989.
- ^ См., Например, оценку [1].
- ^ Дерчинский, Л. (2016). Комплементарность, F-оценка и оценка НЛП. Материалы Международной конференции по языковым ресурсам и оценке.
- ^ Рука, Дэвид. «Примечание об использовании F-меры для оценки алгоритмов связывания записей - Размеры». app.dimensions.ai. Дои:10.1007 / s11222-017-9746-6. HDL:10044/1/46235. S2CID 38782128. Получено 2018-12-08.
- ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации». BMC Genomics. 21 (6): 6. Дои:10.1186 / s12864-019-6413-7. ЧВК 6941312. PMID 31898477.
- ^ Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, запоминания и F-Score до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения. 2 (1): 37–63. HDL:2328/27165.
- ^ Тарват А. (август 2018 г.). «Классификационные методы оценки». Прикладные вычисления и информатика (опережающий печать). Дои:10.1016 / j.aci.2018.08.003.
- ^ Дж. Опиц; С. Бурст (2019). «Макро F1 и Макро F1». arXiv:1911.03347 [stat.ML ].