Скорректированная взаимная информация - Adjusted mutual information
В теория вероятности и теория информации, скорректированная взаимная информация, вариант взаимная информация может использоваться для сравнения кластеры.[1] Он исправляет эффект соглашения исключительно из-за случайности между кластеризацией, аналогично тому, как скорректированный индекс ранда исправляет Индекс Rand. Это тесно связано с изменение информации:[2] когда аналогичная корректировка сделана для индекса VI, он становится эквивалентным AMI.[1] Однако скорректированная мера больше не является метрической.[3]
Взаимная информация двух разделов
Учитывая набор S из N элементы рассмотрим два перегородки из S, а именно с р кластеры и с C кластеры. При этом предполагается, что перегородки являются так называемыми жесткие кластеры; разбиения попарно не пересекаются:
для всех , и заполните:
В взаимная информация кластера перекрытия между U и V можно резюмировать в виде рИксC Таблица сопряженности , куда обозначает количество объектов, общих для кластеров и . Это,
Предположим, что объект выбран случайным образом из S; вероятность попадания объекта в кластер является:
В энтропия связанные с разделением U является:
H (U) неотрицательна и принимает значение 0 только тогда, когда нет неопределенности, определяющей принадлежность объекта к кластеру, т.е., когда есть только один кластер. Аналогично энтропия кластеризации V можно рассчитать как:
куда . В взаимная информация (MI) между двумя разделами:
куда обозначает вероятность того, что точка принадлежит как кластеру в U и кластер в V:
MI - неотрицательная величина, ограниченная сверху энтропиями ЧАС(U) и ЧАС(V). Он количественно определяет информацию, совместно используемую двумя кластерами, и, таким образом, может использоваться в качестве кластеризации. мера сходства.
Поправка на случай
Словно Индекс Rand, базовое значение взаимной информации между двумя случайными кластеризациями не принимает постоянного значения и имеет тенденцию к увеличению, когда два раздела имеют большее количество кластеров (с фиксированным количеством установленных элементов N). Приняв гипергеометрический Модель случайности, можно показать, что ожидаемая взаимная информация между двумя случайными кластерами:
куда обозначает . Переменные и - частичные суммы таблицы непредвиденных обстоятельств; то есть,
и
Скорректированная мера[1] поскольку взаимная информация может быть определена как:
- .
AMI принимает значение 1, когда два раздела идентичны, и 0, когда MI между двумя разделами равен значению, ожидаемому только по случайности.
Рекомендации
- ^ а б c Винь, Н. X .; Epps, J .; Бейли, Дж. (2009). «Теоретико-информационные меры для сравнения кластеризации». Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09. п. 1. Дои:10.1145/1553374.1553511. ISBN 9781605585161.
- ^ Мейла, М. (2007). «Сравнение кластеризации - расстояние на основе информации». Журнал многомерного анализа. 98 (5): 873–895. Дои:10.1016 / j.jmva.2006.11.013.
- ^ Винь, Нгуен Суан; Эппс, Жюльен; Бейли, Джеймс (2010), «Теоретико-информационные меры для сравнения кластеризации: варианты, свойства, нормализация и поправка на случайность» (PDF), Журнал исследований в области машинного обучения, 11 (октябрь): 2837–54