Цепочки классификаторов - Classifier chains

Цепочки классификаторов это машинное обучение метод трансформации задачи в классификация с несколькими этикетками. Он сочетает в себе вычислительную эффективность Бинарная релевантность метод, все еще имея возможность учитывать зависимости меток для классификация.[1]

Преобразование проблемы

Существует несколько методов преобразования проблемы. Один из них является Бинарная релевантность метод (BR). Учитывая набор этикеток и набор данных с экземплярами формы куда это вектор признаков и представляет собой набор меток, присвоенных экземпляру. BR преобразует набор данных в наборы данных и учится бинарные классификаторы для каждой этикетки . Во время этого процесса информация о зависимостях между метками не сохраняется. Это может привести к ситуации, когда для экземпляра назначается набор меток, хотя эти метки никогда не встречаются вместе в наборе данных. Таким образом, информация о совместном появлении меток может помочь назначить правильные комбинации меток. Потеря этой информации в некоторых случаях может привести к снижению эффективности классификации.[2]

Другой подход, который учитывает корреляцию меток, - Этикетка Powerset метод (LP). Каждая другая комбинация меток в наборе данных считается одной меткой. После преобразования однокомпонентный классификатор обучается где это набор мощности всех этикеток в . Главный недостаток этого подхода состоит в том, что количество комбинаций меток растет экспоненциально с увеличением количества меток. Например, набор данных с несколькими этикетками с 10 этикетками может содержать до комбинации этикеток. Это увеличивает время выполнения классификации.

Метод цепочек классификаторов основан на методе BR и работает даже на большом количестве меток. Кроме того, он учитывает зависимости между метками.

Описание метода

Для заданного набора этикеток Модель цепочки классификаторов (CC) изучает классификаторы как в методе двоичной релевантности. Все классификаторы связаны в цепочку через пространство признаков.

Учитывая набор данных, где -й экземпляр имеет вид куда это подмножество ярлыков, это набор функций. Набор данных преобразуется в наборы данных, в которых экземпляры -й набор данных имеет вид . Если -я метка была присвоена экземпляру, затем является , иначе это . Таким образом, классификаторы выстраивают цепочку, в которой каждый из них изучает двоичную классификацию отдельной метки. Функции, данные каждому классификатору, расширены двоичными значениями, указывающими, какие из предыдущих меток были присвоены экземпляру.

При классификации новых экземпляров метки снова предсказываются путем построения цепочки классификаторов. Классификация начинается с первого классификатора и переходит к последнему путем передачи информации о ярлыках между классификаторами через пространство признаков. Следовательно, сохраняется зависимость между метками. Однако результат может отличаться для разного порядка цепочек. Например, если метка часто встречается вместе с какой-то другой меткой, только экземпляры одной из меток, которая идет позже в порядке меток, будут иметь информацию о другой в своем векторе признаков. Для решения этой проблемы и повышения точности можно использовать ансамбль классификаторов.[3]

В ансамбле цепочек классификаторов (ECC) несколько классификаторов CC могут быть обучены со случайным порядком цепочек (то есть случайным порядком меток) на случайном подмножестве набора данных. Метки нового экземпляра прогнозируются каждым классификатором отдельно. После этого для каждой метки подсчитывается общее количество прогнозов или «голосов». Метка принимается, если она была предсказана процентным соотношением классификаторов, превышающим некоторое пороговое значение.

Рекомендации

  1. ^ Читай, Джесси; Бернхард Пфарингер; Джефф Холмс; Эйбе Франк (2009). «Цепочки классификаторов для классификации по нескольким меткам» (PDF). Протоколы 13-й Европейской конференции по принципам и практике обнаружения знаний в базах данных и 20-й Европейской конференции по машинному обучению. 2009.
  2. ^ Дембчинский, Кшиштоф; Виллем Вэгеман; Вэйвэй Чэн; Эйке Хюллермайер (2010). «Зависимость от лейбла в многокомпонентной классификации» (PDF). Практикум по изучению данных с нескольких этикеток. 2010: 5–12.
  3. ^ Рокач, Лиор (2010). «Ансамблевые классификаторы» (PDF). Артиф. Intell. Rev. Норвелл, Массачусетс, США: ACM. 33 (1–2): 1–39. Дои:10.1007 / s10462-009-9124-7.

внешняя ссылка