Минимизация эмпирического риска - Empirical risk minimization

Минимизация эмпирического риска (ERM) - принцип теория статистического обучения который определяет семью алгоритмы обучения и используется для теоретических оценок их производительности. Основная идея заключается в том, что мы не можем точно знать, насколько хорошо алгоритм будет работать на практике (истинный «риск»), потому что мы не знаем истинного распределения данных, с которыми будет работать алгоритм, но вместо этого мы можем измерить его производительность на известный набор обучающих данных («эмпирический» риск).

Фон

Рассмотрим следующую ситуацию, которая является общей для многих контролируемое обучение проблемы. У нас есть два пространства объектов и и хотел бы изучить функцию (часто называют гипотеза) который выводит объект , данный . Для этого в нашем распоряжении Обучающий набор из Примеры куда это вход и это соответствующий ответ, который мы хотим получить от .

Выражаясь более формально, мы предполагаем, что существует совместное распределение вероятностей над и , и что обучающая выборка состоит из экземпляры нарисованный i.i.d. из . Обратите внимание, что предположение о совместном распределении вероятностей позволяет нам моделировать неопределенность в прогнозах (например, из-за шума в данных), потому что не является детерминированной функцией , а скорее случайная переменная с условное распределение для фиксированного .

Мы также предполагаем, что нам дан неотрицательный вещественный функция потерь который измеряет, насколько отличается прогноз гипотезы от истинного результата В риск связанный с гипотезой тогда определяется как ожидание функции потерь:

В теории обычно используется функция потерь: 0-1 функция потерь: .

Конечная цель алгоритма обучения - найти гипотезу среди фиксированного класса функций для которого риск минимально:

Минимизация эмпирического риска

В общем риск невозможно вычислить, потому что распределение неизвестна алгоритму обучения (эта ситуация называется агностическое обучение ). Однако мы можем вычислить приближение, называемое эмпирический риск, усредняя функцию потерь на обучающей выборке:

Принцип минимизации эмпирического риска[1] утверждает, что алгоритм обучения должен выбрать гипотезу что минимизирует эмпирический риск:

Таким образом, алгоритм обучения, определяемый принципом ERM, состоит в решении вышеуказанной оптимизация проблема.

Характеристики

Вычислительная сложность

Минимизация эмпирического риска для задачи классификации с 0-1 функция потерь известен как NP-жесткий проблема даже для такого относительно простого класса функций, как линейные классификаторы.[2] Однако ее можно эффективно решить, когда минимальный эмпирический риск равен нулю, т.е. линейно отделимый.

На практике алгоритмы машинного обучения справляются с этим либо с помощью выпуклое приближение в функцию потерь 0-1 (например, потеря петли за SVM ), который проще оптимизировать, или путем наложения допущений на распределение (и, таким образом, перестают быть агностическими алгоритмами обучения, к которым применим вышеуказанный результат).

Смотрите также

Рекомендации

  1. ^ В. Вапник (1992). [http://papers.nips.cc/paper/506-principles-of-risk-minimization-for-learning-theory.pdf Принципы минимизации рисковдля теории обучения.]
  2. ^ В. Фельдман, В. Гурусвами, П. Рагхавендра и Йи Ву (2009). Агностическое изучение мономов полупространствами сложно. (См. Статью и ссылки в ней)

дальнейшее чтение

  • Вапник, В. (2000). Природа статистической теории обучения. Информатика и статистика. Springer-Verlag. ISBN  978-0-387-98780-4.