Регуляризация многообразия - Manifold regularization

Регуляризация многообразия может классифицировать данные, когда помеченные данные (черные и белые кружки) разрежены, за счет использования немаркированных данных (серые кружки). Без множества помеченных точек данных, контролируемое обучение алгоритмы могут узнать только очень простые границы решения (верхняя панель). Обучение многообразию может провести границу принятия решения между естественными классами немаркированных данных при предположении, что близко расположенные точки, вероятно, принадлежат одному классу, и поэтому граница принятия решения должна избегать областей с множеством немаркированных точек. Это одна из версий полу-контролируемое обучение.

В машинное обучение, Регуляризация многообразия - это метод использования формы набора данных для ограничения функций, которые должны быть изучены в этом наборе данных. Во многих задачах машинного обучения изучаемые данные не охватывают все пространство ввода. Например, система распознавания лиц может не потребоваться классифицировать любое возможное изображение, а только подмножество изображений, содержащих лица. Техника многообразного обучения предполагает, что соответствующее подмножество данных поступает из многообразие, математическая структура с полезными свойствами. Этот метод также предполагает, что функция, которую необходимо изучить, гладкий: данные с разными метками вряд ли будут близко друг к другу, поэтому функция маркировки не должна быстро меняться в областях, где, вероятно, будет много точек данных. Из-за этого предположения алгоритм множественной регуляризации может использовать немаркированные данные для информирования о том, где выученной функции разрешено быстро меняться, а где нет, с использованием расширения техники Тихоновская регуляризация. Алгоритмы регуляризации многообразия могут расширять контролируемое обучение алгоритмы в полу-контролируемое обучение и трансдуктивное обучение настройки, в которых доступны немаркированные данные. Этот метод использовался для приложений, включая получение медицинских изображений, географические изображения и распознавание объектов.

Регуляризатор коллектора

Мотивация

Регуляризация многообразия - это разновидность регуляризация, семейство методов, сокращающих переоснащение и гарантирует, что проблема хорошо поставленный наказывая сложные решения. В частности, регуляризация многообразий расширяет технику Тихоновская регуляризация применительно к Воспроизведение ядерных гильбертовых пространств (РХС). При стандартной регуляризации Тихонова на RKHS алгоритм обучения пытается изучить функцию из числа гипотез пространства функций . Пространство гипотез - это RKHS, что означает, что оно связано с ядро , и поэтому каждая функция-кандидат имеет норма , который представляет сложность функции кандидата в пространстве гипотез. Когда алгоритм рассматривает функцию-кандидат, он принимает во внимание ее норму, чтобы штрафовать сложные функции.

Формально, учитывая набор помеченных обучающих данных с и функция потерь , алгоритм обучения с использованием регуляризации Тихонова попытается решить выражение

куда это гиперпараметр это контролирует, насколько алгоритм предпочтет более простые функции функциям, которые лучше соответствуют данным.

Двумерный многообразие встроен в трехмерное пространство (вверху слева). Регуляризация многообразия пытается изучить функцию, гладкую на развернутом многообразии (вверху справа).

Регуляризация многообразия добавляет второй член регуляризации, внутренний регуляризатор, в внешний регуляризатор используется в стандартной регуляризации Тихонова. Под многообразие предположений в машинном обучении рассматриваемые данные не поступают из всего входного пространства , но вместо этого из нелинейного многообразие . Геометрия этого многообразия, внутреннего пространства, используется для определения нормы регуляризации.[1]

Норма лапласа

Есть много возможных вариантов . Многие естественные выборы включают градиент на многообразии , который может служить мерой того, насколько гладкая целевая функция. Сглаженная функция должна медленно изменяться там, где входные данные плотные; то есть градиент должно быть маленьким там, где предельная плотность вероятности , то плотность вероятности случайным образом нарисованной точки данных, появляющейся в , большой. Это дает один подходящий выбор для внутреннего регуляризатора:

На практике эту норму нельзя рассчитать напрямую, потому что маржинальное распределение неизвестно, но это можно оценить по предоставленным данным. В частности, если расстояния между входными точками интерпретировать как график, то Матрица лапласа графика может помочь оценить маржинальное распределение. Предположим, что входные данные включают помеченные примеры (пары входных и этикетка ) и немаркированные примеры (входы без связанных меток). Определять быть матрицей весов ребер графа, где это мера расстояния между точками данных и . Определять быть диагональной матрицей с и быть лапласианской матрицей . Затем, поскольку количество точек данных увеличивается, сходится к Оператор Лапласа – Бельтрами , какой расхождение градиента .[2][3] Тогда, если - вектор значений по данным, , внутреннюю норму можно оценить:

Как количество точек данных увеличивается, это эмпирическое определение сходится к определению, когда известен.[1]

Решение проблемы регуляризации

Использование весов и для внешнего и внутреннего регуляризаторов окончательное выражение, которое необходимо решить, становится:

Как и в случае с другими методы ядра, может быть бесконечномерным пространством, поэтому, если выражение регуляризации не может быть решено явно, невозможно найти решение во всем пространстве. Вместо этого теорема о представителе показывает, что при определенных условиях выбора нормы , оптимальное решение должен быть линейной комбинацией ядра с центром в каждой из входных точек: для некоторых весов ,

Используя этот результат, можно искать оптимальное решение путем поиска в конечномерном пространстве, определяемом возможным выбором .[1]

Приложения

Регуляризация многообразия может расширять множество алгоритмов, которые могут быть выражены с помощью регуляризации Тихонова, путем выбора подходящей функции потерь и пространство гипотез . Два обычно используемых примера - это семейства опорные векторные машины и регуляризованный метод наименьших квадратов алгоритмы. (Регуляризованный метод наименьших квадратов включает алгоритм гребневой регрессии; связанные алгоритмы LASSO и эластичная чистая регуляризация могут быть выражены как машины опорных векторов.[4][5]Расширенные версии этих алгоритмов называются лапласовскими регуляризованными методами наименьших квадратов (сокращенно LapRLS) и лапласовскими опорными векторами (LapSVM) соответственно.[1]

Лапласианские регуляризованные наименьшие квадраты (LapRLS)

Регуляризованные методы наименьших квадратов (RLS) - это семейство алгоритмы регрессии: алгоритмы, которые предсказывают значение для его входов , чтобы прогнозируемые значения были близки к истинным меткам данных. В частности, RLS предназначен для минимизации среднеквадратичная ошибка между прогнозируемыми значениями и истинными метками при условии регуляризации. Риджерная регрессия - одна из форм RLS; в общем, RLS - это то же самое, что регрессия гребня в сочетании с ядерный метод.[нужна цитата ] Постановка задачи для RLS является результатом выбора функции потерь в регуляризации Тихонова как среднеквадратичную ошибку:

Благодаря теорема о представителе, решение можно записать как взвешенную сумму ядра, оцененного в точках данных:

и решение для дает:

куда определяется как матрица ядра, с , и - вектор меток данных.

Добавление лапласовского члена для регуляризации многообразия дает лапласианское RLS-утверждение:

Теорема о представителе для регуляризации многообразия снова дает

и это дает выражение для вектора . Сдача матрица ядра, как указано выше, быть вектором меток данных, и быть блочная матрица :

с решением

[1]

LapRLS применялся для решения проблем, включая сенсорные сети,[6]медицинская визуализация,[7][8]обнаружение объекта,[9]спектроскопия,[10]классификация документов,[11]лекарственно-белковые взаимодействия,[12]и сжатие изображений и видео.[13]

Машины лапласовских опорных векторов (LapSVM)

Опорные векторные машины (SVM) - это семейство алгоритмов, часто используемых для классификация данных на две или более группы, или классы. Интуитивно SVM проводит границу между классами, так что самые близкие помеченные примеры к границе находятся как можно дальше. Это можно прямо выразить как линейная программа, но это также эквивалентно регуляризации Тихонова с потеря петли функция :

[14][15]

Добавление внутреннего члена регуляризации к этому выражению дает формулировку задачи LapSVM:

Опять же, теорема о представителе позволяет выразить решение в терминах ядра, вычисленного в точках данных:

можно найти, записав задачу в виде линейной программы и решив двойная проблема. Снова позволяя - матрица ядра и быть блочной матрицей , можно показать, что решение имеет вид

куда это решение двойственной проблемы

и определяется

[1]

LapSVM был применен для решения проблем, включая географические изображения,[16][17][18]медицинская визуализация,[19][20][21]распознавание лица,[22]техобслуживание машины,[23]и мозг-компьютерные интерфейсы.[24]

Ограничения

  • Регуляризация многообразия предполагает, что данные с разными метками вряд ли будут близко друг к другу. Это предположение позволяет этой технике извлекать информацию из немаркированных данных, но это применимо только к некоторым проблемным областям. В зависимости от структуры данных может потребоваться другой алгоритм полууправляемого или трансдуктивного обучения.[25]
  • В некоторых наборах данных внутренняя норма функции может быть очень близким к окружающей норме : например, если данные состоят из двух классов, лежащих на перпендикулярных линиях, внутренняя норма будет равна внешней норме. В этом случае немаркированные данные не влияют на решение, полученное путем множественной регуляризации, даже если данные соответствуют предположению алгоритма о том, что разделитель должен быть гладким. Подходы, связанные с совместное обучение были предложены для устранения этого ограничения.[26]
  • Если имеется очень большое количество примеров без меток, матрица ядра становится очень большим, и алгоритм множественной регуляризации может стать слишком медленным для вычисления. В этом случае могут помочь онлайн-алгоритмы и разреженные аппроксимации многообразия.[27]

Программного обеспечения

Смотрите также

Рекомендации

  1. ^ а б c d е ж Белкин, Михаил; Нийоги, Партха; Синдвани, Викас (2006). «Регуляризация многообразия: геометрическая структура для обучения на помеченных и немаркированных примерах». Журнал исследований в области машинного обучения. 7: 2399–2434. Получено 2015-12-02.
  2. ^ Хайн, Матиас; Аудибер, Жан-Ив; Фон Люксбург, Ульрике (2005). «От графов к многообразиям - слабая и сильная поточечная согласованность лапласианов графов». Теория обучения. Конспект лекций по информатике. 3559. Springer. С. 470–485. CiteSeerX  10.1.1.103.82. Дои:10.1007/11503415_32. ISBN  978-3-540-26556-6.
  3. ^ Белкин, Михаил; Нийоги, Партха (2005). «К теоретической основе методов многообразия, основанных на лапласиане». Теория обучения. Конспект лекций по информатике. 3559. Springer. С. 486–500. CiteSeerX  10.1.1.127.795. Дои:10.1007/11503415_33. ISBN  978-3-540-26556-6.
  4. ^ Джагги, Мартин (2014). Суйкенс, Йохан; Синьоретто, Марко; Аргириу, Андреас (ред.). Эквивалентность машин лассо и опорных векторов. Чепмен и Холл / CRC.
  5. ^ Чжоу, Цюань; Чен, Вэньлинь; Сун, Шиджи; Гарднер, Джейкоб; Вайнбергер, Килиан; Чен, Исинь. Уменьшение эластичной сети для поддержки векторных машин с приложением для вычислений на GPU. Ассоциация развития искусственного интеллекта.
  6. ^ Пан, Джеффри Джунфенг; Ян, Цян; Чанг, Хонг; Юнг, Дит-Ян (2006). «Многосторонний подход к уменьшению калибровки для отслеживания на основе сенсорной сети» (PDF). Материалы национальной конференции по искусственному интеллекту. 21. Менло-Парк, Калифорния; Кембридж, Массачусетс; Лондон; AAAI Press; MIT Press; 1999. с. 988. Получено 2015-12-02.
  7. ^ Чжан, Даоцян; Шен, Дингган (2011). «Полуконтролируемая мультимодальная классификация болезни Альцгеймера». Биомедицинская визуализация: от нано к макро, Международный симпозиум IEEE 2011 г.. IEEE. С. 1628–1631. Дои:10.1109 / ISBI.2011.5872715.
  8. ^ Пак, Сан Хён; Гао, Яоцзун; Ши, Инхуань; Шен, Дингган (2014). «Интерактивная сегментация простаты на основе адаптивного выбора функций и регуляризации коллектора». Машинное обучение в медицинской визуализации. Конспект лекций по информатике. 8679. Springer. С. 264–271. Дои:10.1007/978-3-319-10581-9_33. ISBN  978-3-319-10580-2.
  9. ^ Пиллай, Судип. «Полууправляемый детектор объектов, обучающийся по минимальным меткам» (PDF). Получено 2015-12-15. Цитировать журнал требует | журнал = (помощь)
  10. ^ Ван, Сунцзин; Ву, Ди; Лю, Каншэн (2012). "Полу-контролируемый алгоритм машинного обучения в ближней инфракрасной спектральной калибровке: пример использования дизельного топлива". Письма о продвинутой науке. 11 (1): 416–419. Дои:10.1166 / asl.2012.3044.
  11. ^ Ван, Цзыцян; Вс, ся; Чжан, Лицзе; Цянь, Сюй (2013). «Классификация документов на основе оптимальных лапрлов». Журнал программного обеспечения. 8 (4): 1011–1018. Дои:10.4304 / jsw.8.4.1011-1018.
  12. ^ Ся, Чжэн; У, Лин-Юнь; Чжоу, Сяобо; Вонг, Стивен TC (2010). «Полу-контролируемое предсказание взаимодействия лекарств и белков из гетерогенных биологических пространств». BMC Systems Biology. 4 (Дополнение 2): –6. CiteSeerX  10.1.1.349.7173. Дои:10.1186 / 1752-0509-4-S2-S6. ЧВК  2982693. PMID  20840733.
  13. ^ Ченг, Ли; Вишванатан, С. В. Н. (2007). «Учимся сжимать изображения и видео». Материалы 24-й международной конференции по машинному обучению. ACM. стр. 161–168. Получено 2015-12-16.
  14. ^ Линь, Йи; Вахба, Грейс; Чжан, Хао; Ли, Юнкён (2002). «Статистические свойства и адаптивная настройка машин опорных векторов». Машинное обучение. 48 (1–3): 115–136. Дои:10.1023 / А: 1013951620650.
  15. ^ Вахба, Грейс; другие (1999). «Поддержка векторных машин, воспроизводящих гильбертовы пространства ядра и рандомизированный GACV». Достижения в методах ядра - обучение опорных векторов. 6: 69–87. CiteSeerX  10.1.1.53.2114.
  16. ^ Ким, Вонкук; Кроуфорд, Мельба М. (2010). «Адаптивная классификация данных гиперспектрального изображения с использованием машин ядра регуляризации многообразия». IEEE Transactions по наукам о Земле и дистанционному зондированию. 48 (11): 4110–4121. Дои:10.1109 / TGRS.2010.2076287. S2CID  29580629.
  17. ^ Кэмпс-Валлс, Густаво; Туиа, Дэвис; Бруззоне, Лоренцо; Атли Бенедиктссон, Джон (2014). «Достижения в классификации гиперспектральных изображений: мониторинг Земли с помощью статистических методов обучения». Журнал IEEE Signal Processing Magazine. 31 (1): 45–54. arXiv:1310.5107. Bibcode:2014ISPM ... 31 ... 45C. Дои:10.1109 / msp.2013.2279179. S2CID  11945705.
  18. ^ Гомес-Чова, Луис; Кэмпс-Валлс, Густаво; Муньос-Мари, Хорди; Кальпе, Хавьер (2007). «Полуавтоматическая фильтрация облаков с лапласианской SVM». Симпозиум по геонаукам и дистанционному зондированию, 2007. IGARSS 2007. IEEE International. IEEE. С. 1521–1524. Дои:10.1109 / IGARSS.2007.4423098.
  19. ^ Ченг, Бо; Чжан, Даоцян; Шен, Дингган (2012). «Обучение передачи домена для прогнозирования преобразования MCI». Обработка медицинских изображений и компьютерное вмешательство - MICCAI 2012. Конспект лекций по информатике. 7510. Springer. С. 82–90. Дои:10.1007/978-3-642-33415-3_11. ISBN  978-3-642-33414-6. ЧВК  3761352. PMID  23285538.
  20. ^ Джеймисон, Эндрю Р .; Giger, Maryellen L .; Друккер, Карен; Пеше, Лоренцо Л. (2010). «Улучшение CADx груди с немаркированными даннымиa)». Медицинская физика. 37 (8): 4155–4172. Bibcode:2010MedPh..37.4155J. Дои:10.1118/1.3455704. ЧВК  2921421. PMID  20879576.
  21. ^ Ву, Цзян; Дяо, Юань-Бо; Ли, Мэн-Лун; Фанг, Я-Пин; Ма, Дай-Чуань (2009). «Метод на основе полууправляемого обучения: машина лапласовских векторов поддержки, используемая в диагностике диабета». Междисциплинарные науки: вычислительные науки о жизни. 1 (2): 151–155. Дои:10.1007 / s12539-009-0016-2. PMID  20640829. S2CID  21860700.
  22. ^ Ван, Цзыцян; Чжоу, Чжицян; Вс, ся; Цянь, Сюй; Солнце, Лицзюнь (2012). «Улучшенный алгоритм LapSVM для распознавания лиц». Международный журнал достижений в области вычислительной техники. 4 (17). Получено 2015-12-16.
  23. ^ Чжао, Сюкуань; Ли, Мин; Сюй, Цзиньву; Песня, Групповуха (2011). «Эффективная процедура использования немаркированных данных для построения системы мониторинга». Экспертные системы с приложениями. 38 (8): 10199–10204. Дои:10.1016 / j.eswa.2011.02.078.
  24. ^ Чжун, Цзи-Инь; Лэй, Сюй; Яо, Д. (2009). «Полу-контролируемое обучение на основе многообразия в BCI» (PDF). Журнал электронной науки и технологий Китая. 7 (1): 22–26. Получено 2015-12-16.
  25. ^ Чжу, Сяоцзинь (2005). «Обзор литературы для полуавтоматического обучения». CiteSeerX  10.1.1.99.9681. Цитировать журнал требует | журнал = (помощь)
  26. ^ Синдвани, Викас; Розенберг, Дэвид С. (2008). «RKHS для многовидового обучения и множественной регуляризации». Материалы 25-й международной конференции по машинному обучению. ACM. стр. 976–983. Получено 2015-12-02.
  27. ^ Гольдберг, Эндрю; Ли, Мин; Чжу, Сяоцзинь (2008). Онлайн-множественная регуляризация: новые условия обучения и эмпирическое исследование. Машинное обучение и обнаружение знаний в базах данных. Конспект лекций по информатике. 5211. С. 393–407. Дои:10.1007/978-3-540-87479-9_44. ISBN  978-3-540-87478-2.