Полу-контролируемое обучение - Semi-supervised learning

Пример влияния немаркированных данных на полу-контролируемое обучение. На верхней панели показана граница решения, которую мы могли бы принять, увидев только один положительный (белый кружок) и один отрицательный (черный кружок) пример. На нижней панели показана граница решения, которую мы могли бы принять, если бы в дополнение к двум помеченным примерам нам дали набор немаркированных данных (серые кружки). Это можно рассматривать как выполнение кластеризация и затем помеча кластеры помеченными данными, отодвигая границу принятия решения от областей с высокой плотностью или изучая лежащее в основе одномерное многообразие, в котором находятся данные.

Полу-контролируемое обучение это подход к машинное обучение который сочетает в себе небольшое количество помеченные данные с большим количеством немаркированных данных во время обучения. Полу-контролируемое обучение находится между обучение без учителя (без помеченных данных обучения) и контролируемое обучение (только с помеченными данными обучения).

Немаркированные данные, когда они используются вместе с небольшим количеством помеченных данных, могут значительно повысить точность обучения. Для получения помеченных данных для задачи обучения часто требуется квалифицированный агент-человек (например, для расшифровки аудиосегмента) или физический эксперимент (например, определение трехмерной структуры белка или определение наличия масла в конкретном месте). Стоимость, связанная с процессом маркировки, таким образом, может сделать большие, полностью маркированные обучающие наборы невозможными, в то время как получение немаркированных данных является относительно недорогим. В таких ситуациях обучение без учителя может иметь большую практическую ценность. Полу-контролируемое обучение также представляет теоретический интерес для машинного обучения и как модель человеческого обучения.

Набор независимо одинаково распределенные Примеры с соответствующими этикетками и немаркированные примеры обрабатываются. Полу-контролируемое обучение объединяет эту информацию, чтобы превзойти классификация производительность, которая может быть получена либо путем отбрасывания немаркированных данных и выполнения контролируемого обучения, либо путем отказа от меток и выполнения обучения без учителя.

Полу-контролируемое обучение может относиться к трансдуктивное обучение или индуктивное обучение.[1] Цель трансдуктивного обучения - вывести правильные метки для данных немаркированных данных. только. Цель индуктивного обучения - вывести правильное отображение из к .

Интуитивно проблема обучения может рассматриваться как экзамен, а данные - как образцы задач, которые учитель решает для класса в качестве помощи в решении другого набора задач. В трансдуктивной среде эти нерешенные проблемы выступают в роли экзаменационных вопросов. В индуктивной обстановке они становятся практическими задачами, из которых состоит экзамен.

Это не нужно (и, по мнению Принцип вапника, неблагоразумно) выполнять трансдуктивное обучение путем вывода правила классификации по всему входному пространству; однако на практике алгоритмы, формально разработанные для преобразования или индукции, часто используются как взаимозаменяемые.

Предположения

Чтобы можно было использовать немаркированные данные, должна существовать некоторая связь с основным распределением данных. Алгоритмы полууправляемого обучения используют по крайней мере одно из следующих предположений:[2]

Предположение о непрерывности

Точки, расположенные близко друг к другу, с большей вероятностью будут иметь метку. Это также обычно предполагается при обучении с учителем и дает предпочтение геометрически простым границы решения. В случае полууправляемого обучения предположение о гладкости дополнительно дает предпочтение границам решения в областях с низкой плотностью, поэтому несколько точек находятся рядом друг с другом, но в разных классах.

Кластерное предположение

Данные, как правило, образуют дискретные кластеры, и точки в одном кластере с большей вероятностью будут иметь общую метку. (хотя данные с общей меткой могут распределяться по нескольким кластерам). Это частный случай предположения о гладкости, который приводит к особенности обучения с алгоритмами кластеризации.

Предположение о многообразии

Данные лежат примерно на многообразие гораздо меньшего размера, чем входное пространство. В этом случае изучение многообразия с использованием как помеченных, так и немаркированных данных может избежать проклятие размерности. Затем обучение может продолжаться с использованием расстояний и плотностей, определенных на многообразии.

Предположение о многообразии практично, когда многомерные данные генерируются некоторым процессом, который может быть трудно смоделировать напрямую, но который имеет только несколько степеней свободы. Например, человеческий голос контролируется несколькими голосовыми связками,[3] а изображения различных выражений лица контролируются несколькими мышцами. В этих случаях расстояния и гладкость в естественном пространстве порождающей задачи лучше, чем рассмотрение пространства всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход самообучение (также известен как самообучение или самооценка) исторически является старейшим подходом к обучению без учителя,[2] с примерами приложений, начиная с 1960-х годов.[4]

Структура трансдуктивного обучения была официально представлена Владимир Вапник в 1970-е гг.[5] Интерес к индуктивному обучению с использованием генеративных моделей также начался в 1970-х годах. А наверное примерно правильно обучение привязан к полу-контролируемому обучению Гауссовский смесь была продемонстрирована Ratsaby и Venkatesh в 1995 году.[6]

Полу-контролируемое обучение в последнее время стало более популярным и практически актуальным из-за разнообразия проблем, для которых доступны огромные объемы немаркированных данных, например. текст на веб-сайтах, белковые последовательности или изображения.[7]

Методы

Генеративные модели

Генеративные подходы к статистическому обучению в первую очередь стремятся оценить ,[оспаривается ] распределение точек данных, принадлежащих к каждому классу. Вероятность что данная точка есть ярлык тогда пропорционально от Правило Байеса. Полу-контролируемое обучение с генеративные модели можно рассматривать либо как продолжение обучения с учителем (классификация плюс информация о ) или как расширение обучения без учителя (кластеризация плюс некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму параметризованный вектором . Если эти предположения неверны, немаркированные данные могут фактически снизить точность решения по сравнению с тем, что было бы получено только на основе помеченных данных.[8] Однако, если предположения верны, то немаркированные данные обязательно улучшают производительность.[6]

Непомеченные данные распределяются в соответствии со смесью распределений индивидуальных классов. Чтобы узнать распределение смеси по немаркированным данным, оно должно быть идентифицируемым, то есть разные параметры должны давать разные суммарные распределения. Распределения гауссовой смеси идентифицируемы и обычно используются для генеративных моделей.

Параметризованные совместное распределение можно записать как используя Правило цепи. Каждый вектор параметров связана с решающей функцией . Затем параметр выбирается на основе соответствия помеченным и немеченным данным, взвешенным по :

[9]

Разделение с низкой плотностью

Другой основной класс методов пытается установить границы в регионах с небольшим количеством точек данных (помеченных или немаркированных). Одним из наиболее часто используемых алгоритмов является трансдуктивная опорная векторная машина, или TSVM (который, несмотря на свое название, также может использоваться для индуктивного обучения). В то время как опорные векторные машины для обучения с учителем найдите границу решения с максимальным прибыль Для помеченных данных цель TSVM - пометить немаркированные данные так, чтобы граница принятия решения имела максимальный запас по всем данным. В дополнение к стандартному потеря петли для помеченных данных функция потерь вводится поверх немаркированных данных, позволяя . Затем TSVM выбирает из воспроизводящее ядро ​​гильбертова пространства минимизируя упорядоченный эмпирический риск:

Точное решение трудно найти из-за не-выпуклый срок , поэтому исследования сосредоточены на полезных приближениях.[9]

Другие подходы, которые реализуют разделение с низкой плотностью, включают гауссовские модели процессов, регуляризацию информации и минимизацию энтропии (частным случаем которой является TSVM).

Графические методы

Методы на основе графов для полууправляемого обучения используют графическое представление данных с узлом для каждого помеченного и немаркированного примера. Граф может быть построен с использованием знаний предметной области или подобия примеров; два общих метода - подключить каждую точку данных к ее ближайшие соседи или примеры на некотором расстоянии . Вес края между и затем устанавливается на .

В рамках многообразная регуляризация,[10][11] граф служит представителем многообразия. К стандарту добавлен термин Тихоновская регуляризация проблема для обеспечения гладкости решения относительно многообразия (во внутреннем пространстве задачи), а также относительно внешнего входного пространства. Проблема минимизации становится

[9]

где воспроизводящее ядро Гильбертово пространство и это многообразие, на котором лежат данные. Параметры регуляризации и контролировать плавность в окружающем и внутреннем пространствах соответственно. График используется для аппроксимации внутреннего члена регуляризации. Определение граф лапласиан где и вектор , у нас есть

.

Лапласиан также может использоваться для расширения алгоритмов контролируемого обучения: регуляризованный метод наименьших квадратов и поддержка векторных машин (SVM) для полууправляемых версий лапласовских регуляризованных наименьших квадратов и лапласовских SVM.

Эвристические подходы

Некоторые методы полууправляемого обучения по своей сути не приспособлены к обучению как на немаркированных, так и на помеченных данных, а вместо этого используют немаркированные данные в рамках контролируемого обучения. Например, помеченные и немаркированные примеры может сообщить выбор представительства, метрика расстояния, или ядро для данных на неконтролируемом первом этапе. Тогда контролируемое обучение основывается только на помеченных примерах.

Самостоятельное обучение это метод-оболочка для полууправляемого обучения.[12] Сначала алгоритм обучения с учителем обучается только на основе помеченных данных. Затем этот классификатор применяется к немаркированным данным, чтобы создать больше помеченных примеров в качестве входных данных для алгоритма обучения с учителем. Обычно на каждом шаге добавляются только те метки, в которых классификатор наиболее уверен.[13]

Совместное обучение является расширением самообучения, в котором несколько классификаторов обучаются на разных (в идеале непересекающихся) наборах функций и генерируют помеченные примеры друг для друга.[14]

В человеческом познании

Ответы людей на формальные проблемы обучения с полу-контролируемым наблюдением привели к различным выводам о степени влияния немаркированных данных.[15] Более естественные проблемы обучения также можно рассматривать как примеры частично контролируемого обучения. Большая часть человеческого концептуальное обучение включает в себя небольшое количество прямых инструкций (например, родительские ярлыки для объектов в детстве) в сочетании с большим объемом немаркированного опыта (например, наблюдение за объектами без их именования и подсчета или, по крайней мере, без обратной связи).

Человеческие младенцы чувствительны к структуре немаркированных природных категорий, таких как изображения собак и кошек или лица мужчин и женщин.[16] Младенцы и дети принимают во внимание не только немаркированные примеры, но и отбор проб процесс, из которого возникают помеченные примеры.[17][18]

Смотрите также

использованная литература

  1. ^ «Обзор учебной литературы под частным руководством, стр. 5». 2007 г. CiteSeerX  10.1.1.99.9681. Цитировать журнал требует | журнал = (Помогите)
  2. ^ а б Chapelle, Schölkopf & Zienin 2006.
  3. ^ Стивенс, Кеннет Н., 1924- (1998). Акустическая фонетика. Кембридж, Массачусетс: MIT Press. ISBN  0-585-08720-2. OCLC  42856189.CS1 maint: несколько имен: список авторов (ссылка на сайт)
  4. ^ Скаддер, Х. (июль 1965 г.). «Вероятность ошибки некоторых адаптивных машин распознавания образов». IEEE Transactions по теории информации. 11 (3): 363–371. Дои:10.1109 / TIT.1965.1053799. ISSN  1557-9654.
  5. ^ Вапник, В .; Червоненкис, А. (1974). Теория распознавания образов (по-русски). Москва: Наука. цитируется в Chapelle, Schölkopf & Zienin 2006, п. 3
  6. ^ а б Ratsaby, J .; Венкатеш, С. «Обучение на смеси помеченных и немаркированных примеров с параметрической дополнительной информацией» (PDF). в Материалы восьмой ежегодной конференции по теории вычислительного обучения - COLT '95. Нью-Йорк, Нью-Йорк, США: ACM Press. 1995. С. 412–417. Дои:10.1145/225298.225348. ISBN  0-89791-723-5.. Цитируется в Chapelle, Schölkopf & Zienin 2006, п. 4
  7. ^ Чжу, Сяоцзинь (2008). «Обзор литературы для полуавтоматического обучения» (PDF). Университет Висконсин-Мэдисон.
  8. ^ Фабио, Козман; Ира, Коэн (2006-09-22), "Риски полу-контролируемого обучения: как немаркированные данные могут ухудшить производительность генеративных классификаторов", Полу-контролируемое обучение, MIT Press, стр. 56–72, Дои:10.7551 / mitpress / 9780262033589.003.0004, ISBN  978-0-262-03358-9 В: Chapelle, Schölkopf & Zienin 2006
  9. ^ а б c Чжу, Сяоцзинь. Полу-контролируемое обучение Университет Висконсин-Мэдисон.
  10. ^ М. Белкин; П. Нийоги (2004). "Полу-контролируемое обучение на римановых многообразиях". Машинное обучение. 56 (Специальный выпуск по кластеризации): 209–239. Дои:10.1023 / b: mach.0000033120.25363.1e.
  11. ^ М. Белкин, П. Нийоги, В. Синдвани. О регуляризации многообразия. АИСТАТС 2005.
  12. ^ Тригуэро, Исаак; Гарсия, Сальвадор; Эррера, Франциско (26 ноября 2013 г.). «Методы самооценки для полууправляемого обучения: таксономия, программное обеспечение и эмпирическое исследование». Знания и информационные системы. 42 (2): 245–284. Дои:10.1007 / s10115-013-0706-y. ISSN  0219-1377.
  13. ^ Фазакис, Никос; Карлос, Стаматис; Коциантис, Сотирис; Сгарбас, Кириакос (29 декабря 2015 г.). "Самостоятельное обучение LMT для полуавтоматического обучения". Вычислительный интеллект и нейробиология. 2016: 3057481. Дои:10.1155/2016/3057481. ЧВК  4709606. PMID  26839531.
  14. ^ Дидачи, Лука; Фумера, Джорджио; Роли, Фабио (07.11.2012). Гимельфарб Георгий; Хэнкок, Эдвин; Имия, Ацуши; Куиджпер, Арьян; Кудо, Минэити; Омачи, Шиничиро; Windeatt, Терри; Ямада, Кейджи (ред.). Анализ алгоритма совместного обучения с очень маленькими обучающими наборами. Конспект лекций по информатике. Springer Berlin Heidelberg. С. 719–726. Дои:10.1007/978-3-642-34166-3_79. ISBN  9783642341656.
  15. ^ Чжу, Сяоцзинь (2009). Введение в обучение без учителя. Гольдберг, А. Б. (Эндрю Б.). [Сан-Рафаэль, Калифорния]: Издательство Morgan & Claypool. ISBN  978-1-59829-548-1. OCLC  428541480.
  16. ^ Младший Б. А .; Опасаясь Д. Д. (1999). «Разбивка предметов на отдельные категории: изменения в развитии в классификации младенцев». Развитие ребенка. 70 (2): 291–303. Дои:10.1111/1467-8624.00022.
  17. ^ Сюй Ф. и Тененбаум Дж. Б. (2007). «Чувствительность к выборке в байесовском обучении слов». Наука о развитии. 10 (3): 288–297. CiteSeerX  10.1.1.141.7505. Дои:10.1111 / j.1467-7687.2007.00590.x. PMID  17444970.
  18. ^ Гвеон, Х., Тененбаум Дж. Б. и Шульц Л. Э. (2010). «Младенцы рассматривают как образец, так и процесс отбора образцов в индуктивном обобщении». Proc Natl Acad Sci U S A. 107 (20): 9066–71. Bibcode:2010PNAS..107.9066G. Дои:10.1073 / pnas.1003095107. ЧВК  2889113. PMID  20435914.CS1 maint: несколько имен: список авторов (ссылка на сайт)

Источники

  • Шапель, Оливье; Шёлкопф, Бернхард; Зиен, Александр (2006). Полу-контролируемое обучение. Кембридж, Массачусетс: MIT Press. ISBN  978-0-262-03358-9.

внешние ссылки