Статистическая теория обучения - Statistical learning theory

Статистическая теория обучения это основа для машинное обучение рисунок с полей статистика и функциональный анализ.[1][2] Теория статистического обучения занимается проблемой поиска прогнозирующей функции на основе данных. Теория статистического обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи, и биоинформатика.

Вступление

Цели обучения - понимание и предсказание. Обучение подпадает под множество категорий, в том числе контролируемое обучение, обучение без учителя, онлайн обучение, и обучение с подкреплением. С точки зрения теории статистического обучения, обучение с учителем понимается лучше всего.[3] Обучение с учителем предполагает обучение Обучающий набор данных. Каждая точка в обучении - это пара ввода-вывода, где ввод отображается на вывод. Проблема обучения состоит в том, чтобы вывести функцию, которая отображает между входом и выходом, так что изученная функция может использоваться для предсказания выхода из будущих входных данных.

В зависимости от типа выходных данных, контролируемые проблемы обучения являются либо проблемами регресс или проблемы классификация. Если выходные данные имеют непрерывный диапазон значений, это проблема регрессии. С помощью Закон Ома Например, регрессия может быть выполнена с напряжением на входе и током на выходе. Регрессия обнаружит, что функциональная связь между напряжением и током , так что

Проблемы классификации - это те, для которых выводом будет элемент из дискретного набора меток. Классификация очень распространена для приложений машинного обучения. В распознавание лиц например, изображение лица человека будет входом, а метка выхода будет именем этого человека. Входные данные будут представлены большим многомерным вектором, элементы которого представляют пиксели изображения.

После изучения функции, основанной на данных обучающего набора, эта функция проверяется на тестовом наборе данных, данных, которые не появились в обучающем наборе.

Формальное описание

Брать быть векторное пространство всех возможных входов, и в векторное пространство всех возможных выходов. Теория статистического обучения исходит из того, что есть некоторые неизвестные распределение вероятностей над пространством продукта , т.е. существует какое-то неизвестное . Учебный набор состоит из выборки из этого распределения вероятностей и помечены

Каждые - входной вектор из обучающих данных, а - это результат, который ему соответствует.

В этом формализме проблема вывода состоит в нахождении функции такой, что . Позволять быть пространством функций называется пространством гипотез. Пространство гипотез - это пространство функций, которые алгоритм будет искать. Позволять быть функция потерь, показатель разницы между прогнозируемым значением и фактическая стоимость . В ожидаемый риск определяется как

Целевая функция, наилучшая возможная функция что можно выбрать, дается это удовлетворяет

Поскольку распределение вероятностей неизвестно, необходимо использовать приблизительную меру ожидаемого риска. Эта мера основана на обучающем наборе, выборке из этого неизвестного распределения вероятностей. Это называется эмпирический риск

Алгоритм обучения, выбирающий функцию минимизирующий эмпирический риск называется минимизация эмпирического риска.

Функции потерь

Выбор функции потерь является определяющим фактором для функции который будет выбран алгоритмом обучения. Функционал потерь также влияет на скорость сходимости алгоритма. Важно, чтобы функция потерь была выпуклой.[4]

В зависимости от того, является ли проблема регрессией или проблемой классификации, используются разные функции потерь.

Регресс

Наиболее распространенной функцией потерь для регрессии является функция квадратичных потерь (также известная как L2-норма ). Эта знакомая функция потерь используется в Регрессия обыкновенных наименьших квадратов. Форма такая:

Потеря абсолютного значения (также известная как L1-норма ) также иногда используется:

Классификация

В каком-то смысле 0-1 индикаторная функция является наиболее естественной функцией потерь для классификации. Он принимает значение 0, если прогнозируемый вывод совпадает с фактическим выводом, и принимает значение 1, если прогнозируемый вывод отличается от фактического вывода. Для двоичной классификации с , это:

где это Ступенчатая функция Хевисайда.

Регуляризация

Это изображение представляет собой пример переобучения в машинном обучении. Красные точки представляют данные обучающего набора. Зеленая линия представляет истинную функциональную взаимосвязь, а синяя линия показывает изученную функцию, которая стала жертвой переобучения.

В задачах машинного обучения возникает основная проблема: переоснащение. Поскольку обучение - это проблема прогнозирования, цель состоит не в том, чтобы найти функцию, которая наиболее точно соответствует (ранее наблюдаемым) данным, а в том, чтобы найти такую, которая наиболее точно предсказывает выходные данные из будущих входных данных. Минимизация эмпирического риска существует риск переобучения: поиск функции, которая точно соответствует данным, но плохо предсказывает будущий результат.

Переоснащение симптомом нестабильных решений; небольшое возмущение в данных обучающей выборки вызовет большое изменение изученной функции. Можно показать, что если устойчивость решения может быть гарантирована, гарантируются также обобщение и согласованность.[5][6] Регуляризация может решить проблему переобучения и обеспечить стабильность проблемы.

Регуляризация может быть достигнута путем ограничения пространства гипотез. . Типичный пример - ограничение к линейным функциям: это можно рассматривать как редукцию к стандартной проблеме линейная регрессия. также можно ограничить полиномом степени , экспоненты или ограниченные функции на L1. Ограничение пространства гипотез позволяет избежать переобучения, поскольку форма потенциальных функций ограничена и, следовательно, не позволяет выбрать функцию, которая дает эмпирический риск, произвольно близкий к нулю.

Одним из примеров регуляризации является Тихоновская регуляризация. Это состоит из минимизации

где - фиксированный положительный параметр, параметр регуляризации. Тихоновская регуляризация обеспечивает существование, единственность и устойчивость решения.[7]

Смотрите также

Рекомендации

  1. ^ Тревор Хасти, Роберт Тибширани, Джером Фридман (2009) Элементы статистического обучения, Springer-Verlag ISBN  978-0-387-84857-0.
  2. ^ Мохри, Мехриар; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения. США, Массачусетс: MIT Press. ISBN  9780262018258.
  3. ^ Томазо Поджио, Лоренцо Росаско и др. Статистическая теория обучения и приложения, 2012, 1 класс
  4. ^ Росаско, Л., Вито, Э. Д., Капоннетто, А., Фиана, М., и Верри А., 2004. Нейронные вычисления Том 16, стр 1063-1076
  5. ^ Вапник, В. и Червоненкис, А. 1971 г. О равномерной сходимости относительных частот событий к их вероятностям. Теория вероятностей и ее приложения Том 16, стр 264-280.
  6. ^ Мукерджи, С., Нийоги, П. Поджио, Т. и Рифкин, Р. 2006. Теория обучения: стабильность достаточна для обобщения и необходима и достаточна для согласованности минимизации эмпирического риска.. Достижения в вычислительной математике. Том 25, стр 161-193.
  7. ^ Томазо Поджио, Лоренцо Росаско и др. Статистическая теория обучения и приложения, 2012, 2 класс