Метод случайных подпространств - Random subspace method

В машинное обучение то метод случайного подпространства,[1] также называемый упаковка атрибутов[2] или же функция упаковки, является ансамблевое обучение метод, который пытается уменьшить корреляция между оценщики в ансамбле, обучая их на случайных выборках Особенности вместо всего набора функций.

Мотивация

При ансамблевом обучении стараются объединить модели, созданные несколькими ученики в ансамбль который работает лучше, чем первоначальные ученики. Один из способов объединения учащихся - начальная агрегация или же упаковка, который показывает каждому учащемуся случайно отобранное подмножество тренировочных точек, чтобы учащиеся производили разные модели которые можно разумно усреднить.[а] В мешках один образец тренировочных точек с заменой из полного обучающего набора.

Метод случайного подпространства аналогичен бэггингу, за исключением того, что Особенности («атрибуты», «предикторы», «независимые переменные») выбираются случайным образом с заменой для каждого учащегося. Неформально это заставляет отдельных учащихся не заострять внимание на функциях, которые кажутся очень предсказательными / описательными в обучающем наборе, но не могут быть столь же предсказуемыми для точек вне этого набора. По этой причине случайные подпространства являются привлекательным выбором для задач, где количество функций намного больше, чем количество обучающих точек, таких как обучение на основе данных фМРТ.[3] или данные об экспрессии генов.[4]

Метод случайных подпространств был использован для деревья решений; в сочетании с "обычным" объединением деревьев решений полученные модели называются случайные леса.[5] Он также был применен к линейные классификаторы,[6] опорные векторные машины,[7] ближайшие соседи[8][9] и другие типы классификаторов. Этот метод также применим к одноклассники.[10][11] В последнее время метод случайных подпространств был использован в выбор портфолио[12][13] проблема, показывающая свое превосходство над обычным переделанное портфолио по сути основанный на Bagging.

Алгоритм

Ансамбль моделей, использующих метод случайных подпространств, можно построить, используя следующие алгоритм:

  1. Пусть количество тренировочных точек будет N и количество функций в обучающих данных должно быть D.
  2. выбирать L быть количеством отдельных моделей в ансамбле.
  3. Для каждой отдельной модели л, выберите пл (пл быть количеством точек входа для l. Обычно используется только одно значение n.л для всех отдельных моделей.
  4. Для каждой отдельной модели l создайте обучающий набор, выбрав dлособенности от D с заменой и обучением модели.

Теперь, чтобы применить модель ансамбля к невидимой точке, объедините выходы L отдельные модели большинством голосов или объединением апостериорные вероятности.

Сноски

  1. ^ Если каждый ученик следует тому же, детерминированный, алгоритм, произведенные модели обязательно все одинаковы.

Рекомендации

  1. ^ Хо, Тин Кам (1998). «Метод случайного подпространства для построения лесов решений» (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 20 (8): 832–844. Дои:10.1109/34.709601.
  2. ^ Брайлл, Р. (2003). «Пакетирование атрибутов: повышение точности ансамблей классификаторов за счет использования случайных подмножеств признаков». Распознавание образов. 36 (6): 1291–1302. Дои:10.1016 / s0031-3203 (02) 00121-8.
  3. ^ Кунчева Людмила; и другие. (2010). «Ансамбли случайных подпространств для классификации фМРТ» (PDF). IEEE Transactions по медицинской визуализации. 29 (2): 531–542. CiteSeerX  10.1.1.157.1178. Дои:10.1109 / TMI.2009.2037756.
  4. ^ Бертони, Альберто; Фольджери, Рафаэлла; Валентини, Джорджио (2005). «Прогнозирование биомолекулярного рака с помощью случайных подпространственных ансамблей опорных векторных машин» (PDF). Нейрокомпьютинг. 63: 535–539. Дои:10.1016 / j.neucom.2004.07.007. HDL:2434/9370.
  5. ^ Хо, Тин Кам (1995). Лес случайных решений (PDF). Труды 3-й Международной конференции по анализу и распознаванию документов, Монреаль, Квебек, 14–16 августа 1995 г., стр. 278–282.
  6. ^ Скуричина, Марина (2002). «Бэггинг, бустинг и метод случайных подпространств для линейных классификаторов». Анализ шаблонов и приложения. 5 (2): 121–135. Дои:10.1007 / с100440200011.
  7. ^ Тао, Д. (2006). «Асимметричная упаковка и случайное подпространство для поддержки обратной связи релевантности на основе векторных машин при поиске изображений» (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 28 (7): 1088–99. Дои:10.1109 / тпами.2006.134. PMID  16792098.
  8. ^ Хо, Тин Кам (1998). Ближайшие соседи в случайных подпространствах. Совместные международные семинары IAPR по статистическим методам распознавания образов (SPR) и структурного и синтаксического распознавания образов (SSPR). Конспект лекций по информатике. 1451. С. 640–648. Дои:10.1007 / BFb0033288. ISBN  978-3-540-64858-1.
  9. ^ Тремблей, Г. (2004). Оптимизация ближайшего соседа в случайных подпространствах с использованием многоцелевого генетического алгоритма (PDF). 17-я Международная конференция по распознаванию образов. С. 208–211. Дои:10.1109 / ICPR.2004.1334060. ISBN  978-0-7695-2128-2.
  10. ^ Нанни, Л. (2006). «Экспериментальное сравнение одноклассных классификаторов для онлайн-проверки подписи». Нейрокомпьютинг. 69 (7): 869–873. Дои:10.1016 / j.neucom.2005.06.007.
  11. ^ Чеплыгина, Вероника; Налог, Дэвид М. Дж. (15.06.2011). Сансоне, Карло; Киттлер, Йозеф; Роли, Фабио (ред.). Системы с несколькими классификаторами. Конспект лекций по информатике. Springer Berlin Heidelberg. С. 96–105. Дои:10.1007/978-3-642-21557-5_12. ISBN  9783642215568.
  12. ^ Шэнь, Вэйвэй; Ван, июнь (2017), «Выбор портфеля с помощью повторной выборки подмножества», Материалы конференции AAAI по искусственному интеллекту (AAAI2017)
  13. ^ Шэнь, Вэйвэй; Ван, Бин; Пу, Цзянь; Ван, июнь (2019), «Оптимальное портфолио роста Келли с ансамблевым обучением», Материалы конференции AAAI по искусственному интеллекту (AAAI2019)