Байесовская интерпретация регуляризации ядра - Bayesian interpretation of kernel regularization

В машинное обучение, методы ядра возникают из предположения о внутреннем пространстве продукта или структуре сходства входных данных. Для некоторых таких методов, например опорные векторные машины (SVM), исходная формулировка и ее регуляризация не были байесовскими по своей природе. Их полезно понять из Байесовский перспектива. Поскольку ядра не обязательно являются положительно полуопределенными, основная структура может быть не внутренним пространством продукта, а более общей воспроизводящие ядерные гильбертовы пространства. В байесовском вероятностном ядре методы являются ключевым компонентом Гауссовские процессы, где функция ядра называется ковариационной функцией. Методы ядра традиционно использовались в контролируемое обучение проблемы, где входное пространство обычно пространство векторов в то время как выходное пространство это пространство скаляров. В последнее время эти методы были расширены на задачи, связанные с несколько выходов например, в многозадачное обучение.[1]

Математическая эквивалентность между регуляризацией и байесовской точкой зрения легко доказывается в случаях, когда воспроизводящее ядро ​​гильбертова пространства конечномерный. Бесконечномерный случай поднимает тонкие математические вопросы; мы рассмотрим здесь конечномерный случай. Мы начинаем с краткого обзора основных идей, лежащих в основе ядерных методов для скалярного обучения, и кратко вводим концепции регуляризации и гауссовских процессов. Затем мы покажем, как обе точки зрения приходят к практически эквивалентному оценщики, и показать связь, которая связывает их вместе.

Проблема контролируемого обучения

Классический контролируемое обучение проблема требует оценки выхода для некоторой новой точки входа изучая скалярную оценку на основе обучающего набора состоящий из пары ввода-вывода, .[2] Для симметричной положительной двумерной функции называется ядро, одна из самых популярных оценок в машинном обучении дается

 

 

 

 

(1)

куда это матрица ядра с записями , , и . Мы увидим, как эта оценка может быть получена как с регуляризации, так и с байесовской точки зрения.

Перспектива регуляризации

Основное предположение с точки зрения регуляризации состоит в том, что набор функций предполагается, что он принадлежит воспроизводящему ядру гильбертова пространства .[2][3][4][5]

Воспроизведение ядра гильбертова пространства

А воспроизводящее ядро ​​гильбертова пространства (РХС) это Гильбертово пространство функций, определенных симметричный, положительно определенная функция называется воспроизводящее ядро так что функция принадлежит для всех .[6][7][8] Есть три основных свойства, которые делают RKHS привлекательным:

1. В воспроизводящая собственность, который дает имя пространству,

куда внутренний продукт в .

2. Функции в RKHS заключаются в замыкании линейной комбинации ядра в заданных точках,

.

Это позволяет строить в единой структуре как линейные, так и обобщенные линейные модели.

3. Квадрат нормы в RKHS можно записать как

и может рассматриваться как измерение сложность функции.

Регуляризованный функционал

Оценка выводится как минимизатор регуляризованного функционала

 

 

 

 

(2)

куда и это норма в . Первый член этого функционала, который измеряет среднее значение квадратов ошибок между и , называется эмпирический риск и представляет собой стоимость, которую мы платим, прогнозируя за истинную ценность . Второй член в функционале - это квадрат нормы в RKHS, умноженный на вес и служит для стабилизации проблемы[3][5] а также добавить компромисс между подгонкой и сложностью оценщика.[2] Вес , называется регуляризатор, определяет степень наказания за нестабильность и сложность оценщика (более высокий штраф за увеличение значения ).

Вывод оценщика

Явный вид оценки в уравнении (1) выводится в два этапа. Во-первых, теорема о представителе[9][10][11] утверждает, что минимизатор функционала (2) всегда можно записать как линейную комбинацию ядер с центрами в точках обучающей выборки,

 

 

 

 

(3)

для некоторых . Явный вид коэффициентов можно найти, заменив в функционале (2). Для функции вида в уравнении (3), имеем

Мы можем переписать функционал (2) в качестве

Этот функционал выпуклый в и поэтому мы можем найти его минимум, задав градиент относительно к нулю,

Подставляя это выражение для коэффициентов в уравнение (3), мы получаем оценку, указанную ранее в уравнении (1),

Байесовская перспектива

Понятие ядра играет решающую роль в байесовской вероятности как ковариационная функция случайного процесса, называемого Гауссовский процесс.

Обзор байесовской вероятности

Как часть байесовской структуры, гауссовский процесс определяет предварительное распространение который описывает предыдущие представления о свойствах моделируемой функции. Эти убеждения обновляются после учета данных наблюдений с помощью функция правдоподобия что связывает предыдущие убеждения с наблюдениями. Взятые вместе, априорность и вероятность приводят к обновленному распределению, называемому апостериорное распределение который обычно используется для прогнозирования тестовых случаев.

Гауссовский процесс

А Гауссовский процесс (GP) - это случайный процесс, в котором любое конечное число выбираемых случайных величин следует за совместной Нормальное распределение.[12] Вектор среднего и ковариационная матрица гауссова распределения полностью определяют GP. GP обычно используются в качестве априорного распределения для функций, и поэтому вектор среднего и ковариационная матрица можно рассматривать как функции, где ковариационная функция также называется ядро ГП. Пусть функция следовать гауссовскому процессу со средней функцией и функция ядра ,

С точки зрения основного распределения Гаусса, мы имеем, что для любого конечного множества если мы позволим тогда

куда - средний вектор и - ковариационная матрица многомерного гауссова распределения.

Вывод оценщика

В контексте регрессии обычно предполагается, что функция правдоподобия является распределением Гаусса, а наблюдения - независимыми и одинаково распределенными (iid),

Это предположение соответствует искажению наблюдений гауссовским шумом с нулевым средним и дисперсией . Предположение iid позволяет факторизовать функцию правдоподобия по точкам данных с учетом набора входных данных. и дисперсия шума , и, таким образом, апостериорное распределение можно вычислить аналитически. Для тестового входного вектора , учитывая данные обучения , апостериорное распределение дается выражением

куда обозначает набор параметров, которые включают дисперсию шума и любые параметры из ковариационной функции и где

Связь между регуляризацией и Байесом

Связь между теорией регуляризации и байесовской теорией может быть достигнута только в случае конечномерный RKHS. При этом предположении теория регуляризации и байесовская теория связаны через предсказание гауссовского процесса.[3][12]

В конечномерном случае каждая RKHS может быть описана в терминах карты характеристик такой, что[2]

Функции в РКХС с ядром тогда можно записать как

и у нас также есть это

Теперь мы можем построить гауссовский процесс, предположив распределяться согласно многомерному распределению Гаусса с нулевым средним и единичной ковариационной матрицей,

Если мы предположим гауссовское правдоподобие, мы имеем

куда . Результирующее апостериорное распределение определяется выражением

Мы видим, что максимальный задний (MAP) оценка эквивалентна задаче минимизации, определяющей Тихоновская регуляризация, где в байесовском случае параметр регуляризации связан с дисперсией шума.

С философской точки зрения функция потерь в настройке регуляризации играет иную роль, чем функция правдоподобия в байесовской настройке. В то время как функция потерь измеряет ошибку, которая возникает при прогнозировании на месте функция правдоподобия измеряет, насколько вероятны наблюдения модели, которая считалась истинной в процессе генерации. С математической точки зрения, однако, формулировки структур регуляризации и байесовской системы делают функцию потерь и функцию правдоподобия одной и той же математической ролью, способствуя логическому выводу функций. которые приблизительно соответствуют этикеткам как можно больше.

Смотрите также

Рекомендации

  1. ^ Альварес, Маурисио А .; Росаско, Лоренцо; Лоуренс, Нил Д. (июнь 2011 г.). «Ядра для векторно-значных функций: обзор». arXiv:1106.6251 [stat.ML ].
  2. ^ а б c d Вапник, Владимир (1998). Статистическая теория обучения. Вайли. ISBN  9780471030034.
  3. ^ а б c Вахба, Грейс (1990). Сплайновые модели для данных наблюдений. СИАМ.
  4. ^ Шёлкопф, Бернхард; Смола, Александр Дж. (2002). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и не только. MIT Press. ISBN  9780262194754.
  5. ^ а б Girosi, F .; Поджио, Т. (1990). «Сети и собственность наилучшего приближения» (PDF). Биологическая кибернетика. Springer. 63 (3): 169–176. Дои:10.1007 / bf00195855. HDL:1721.1/6017.
  6. ^ Ароншайн, Н. (май 1950 г.). «Теория воспроизводства ядер». Труды Американского математического общества. 68 (3): 337–404. Дои:10.2307/1990404. JSTOR  1990404.
  7. ^ Шварц, Лоран (1964). "Sous-espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux replicants)". Журнал д'анализа математика. Springer. 13 (1): 115–256. Дои:10.1007 / bf02786620.
  8. ^ Кукер, Фелипе; Смейл, Стив (5 октября 2001 г.). «О математических основах обучения». Бюллетень Американского математического общества. 39 (1): 1–49. Дои:10.1090 / s0273-0979-01-00923-5.
  9. ^ Кимелдорф, Джордж С .; Вахба, Грейс (1970). «Соответствие байесовского оценивания случайных процессов и сглаживания сплайнами». Анналы математической статистики. 41 (2): 495–502. Дои:10.1214 / aoms / 1177697089.
  10. ^ Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Алекс Дж. (2001). «Обобщенная теорема о представителях». COLT / EuroCOLT 2001, LNCS. Конспект лекций по информатике. 2111/2001: 416–426. Дои:10.1007/3-540-44581-1_27. ISBN  978-3-540-42343-0.
  11. ^ Де Вито, Эрнесто; Росаско, Лоренцо; Капоннетто, Андреа; Пиана, Микеле; Верри, Алессандро (октябрь 2004 г.). «Некоторые свойства методов регуляризованного ядра». Журнал исследований в области машинного обучения. 5: 1363–1390.
  12. ^ а б Расмуссен, Карл Эдвард; Уильямс, Кристофер К. И. (2006). Гауссовские процессы для машинного обучения. MIT Press. ISBN  0-262-18253-X.