Теория распределенного обучения - Distribution learning theory

В теория распределенного обучения или же изучение распределения вероятностей это основа в теория вычислительного обучения. Это было предложено Майкл Кернс, Ишай Мансур, Дана Рон, Ронитт Рубинфельд, Роберт Шапир и Линда Селли в 1994 [1] и он был вдохновлен PAC-фреймворк представлен Лесли Валиант.[2]

В этой структуре входом является количество выборок, взятых из распределения, которое принадлежит определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты эти выборки. Из-за своей универсальности этот фреймворк использовался в большом количестве различных областей, таких как машинное обучение, аппроксимационные алгоритмы, прикладная вероятность и статистика.

В этой статье объясняются основные определения, инструменты и результаты в этой структуре с точки зрения теории вычислений.

Определения

Позволять быть опорой интересующих распределений. Как и в оригинальной работе Kearns et al.[1] если конечно, без ограничения общности можно считать, что куда это количество битов, которые должны быть использованы для представления любого . Мы фокусируемся на распределении вероятностей по .

Есть два возможных представления распределения вероятностей над .

  • функция распределения вероятностей (или оценщик) оценщик за принимает на вход любые и выводит действительное число что означает вероятность того, что в соответствии с , т.е. если .
  • генератор генератор за принимает на вход строку действительно случайных битов и выходы согласно распределению . Генератор можно интерпретировать как процедуру, имитирующую выборку из распределения. учитывая последовательность справедливых подбрасываний монеты.

Распределение вызывается, чтобы иметь полиномиальный генератор (соответственно оценщик), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время.

Позволять класс распределения над X, т. е. такое множество, что каждый - распределение вероятностей с поддержкой . В также можно записать как для простоты.

Перед определением обучаемости необходимо определить хорошие приближения распределения. . Есть несколько способов измерить расстояние между двумя распределениями. Еще три общие возможности:

Самым сильным из этих расстояний является Расхождение Кульбака-Лейблера а самый слабый - это Расстояние Колмогорова. Это означает, что для любой пары распределений ,  :

Поэтому, например, если и близки по отношению к Расхождение Кульбака-Лейблера то они также близки по отношению ко всем остальным расстояниям.

Следующие определения верны для всех расстояний, поэтому символ обозначает расстояние между распределениями и распределение используя одно из расстояний, которые мы описали выше. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к определенному расстоянию.

Базовый ввод, который мы используем для изучения распределения, - это количество выборок, взятых этим распределением. С вычислительной точки зрения предполагается, что такая выборка дается за постоянный промежуток времени. Это похоже на доступ к оракулу который возвращает образец из распределения . Иногда интерес, помимо измерения временной сложности, состоит в том, чтобы измерить количество выборок, которые необходимо использовать, чтобы изучить конкретное распределение. в классе раздач . Эта величина называется сложность образца алгоритма обучения.

Чтобы проблема распределенного обучения была более ясной, рассмотрим проблему контролируемого обучения, как определено в.[3] В рамках этого теория статистического обучения тренировочный набор и цель - найти целевую функцию который минимизирует некоторую функцию потерь, например квадратная функция потерь. Более формально , куда функция потерь, например и распределение вероятностей, согласно которому отбираются элементы обучающей выборки. Если условное распределение вероятностей известно, то целевая функция имеет замкнутый вид . Итак, набор представляет собой набор образцов из распределение вероятностей . Теперь цель теории распределенного обучения - найти данный который можно использовать для нахождения целевой функции .

Определение обучаемости

Класс распределений называется эффективно обучаемый если для каждого и предоставлен доступ к для неизвестного распределения , существует алгоритм с полиномиальным временем , называемый алгоритмом обучения , который выводит генератор или оценщик распределения такой, что

Если мы это знаем тогда называется правильный алгоритм обучения, иначе называется неправильный алгоритм обучения.

В некоторых настройках класс раздач - это класс с хорошо известными распределениями, которые можно описать набором параметров. Например может быть классом всех гауссовских распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае называется алгоритм обучения параметрам.

Очевидно, что изучение параметров для простых распределений - это очень хорошо изученная область, которая называется статистической оценкой, и существует очень длинная библиография по различным оценкам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.

Первые результаты

В своей основополагающей работе Kearns et al. иметь дело со случаем, когда описывается в терминах схемы конечного полиномиального размера, и они доказали следующее для некоторых конкретных классов распределения.[1]

  • распределение ворот для этого типа распределений нет вычислителя полиномиального размера, если только . С другой стороны, этот класс можно эффективно изучить с помощью генератора.
  • Распределения ворот четности этот класс можно эффективно изучить как с помощью генератора, так и с помощью вычислителя.
  • Смеси мячей Хэмминга этот класс можно эффективно изучить как с помощью генератора, так и с помощью вычислителя.
  • Вероятностные конечные автоматы этот класс не может быть эффективно изучен с помощью оценщика в соответствии с допущением о шумовой четности, которое является невозможным предположением в среде обучения PAC.

Охватывает

Один очень распространенный метод поиска алгоритма обучения для класса распределений сначала найти небольшой обложка .

Определение

Множество называется -обложка если для каждого Существует такой, что . An крышка мала, если она имеет полиномиальный размер относительно параметров, описывающих .

Когда-то существует эффективная процедура, которая для каждого находит небольшой крышка of C, то единственная оставшаяся задача - выбрать из распространение что ближе к раздаче этому нужно научиться.

Проблема в том, что данный нетривиально, как мы можем сравнивать и чтобы решить, какой из них ближе всего к , потому что неизвестно. Таким образом, образцы из должны использоваться для этих сравнений. Очевидно, что результат сравнения всегда имеет вероятность ошибки. Таким образом, задача аналогична поиску минимума в наборе элементов с использованием зашумленных сравнений. Для достижения этой цели существует множество классических алгоритмов. Самая последняя версия, обеспечивающая наилучшие гарантии, была предложена Даскалакис и Камат [4] Этот алгоритм устанавливает быстрый турнир между элементами где победитель этого турнира элемент, который рядом с (т.е. ) с вероятностью не менее . Для этого их алгоритм использует образцы из и бежит в время, где .

Суммы обучения случайных величин

Изучение простых хорошо известных распределений - хорошо изученная область, и существует множество оценок, которые можно использовать. Еще один сложный класс распределений - это распределение суммы переменных, подчиняющееся простым распределениям. Эта процедура обучения имеет тесную связь с предельными теоремами, такими как центральная предельная теорема, потому что они стремятся исследовать один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно были получены два описанных здесь результата: изучение биномиальных распределений Пуассона и обучение сумм независимых целочисленных случайных величин. Все результаты ниже верны при использовании полное изменение расстояние как мера расстояния.

Изучение биномиальных распределений Пуассона

Учитывать независимые случайные величины Бернулли с вероятностью успеха . Биномиальное распределение Пуассона порядка. является распределением суммы . Для изучения класса . Первый из следующих результатов касается случая неправильного обучения а второй при правильном изучении . [5]

Теорема

Позволять то есть алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы .

Теорема

Позволять то есть алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы .

Одна часть приведенных выше результатов заключается в том, что сложность выборки алгоритма обучения не зависит от , хотя описание линейно по . Также второй результат является почти оптимальным с точки зрения сложности выборки, потому что также существует нижняя граница .

В доказательстве используется небольшой обложка который был произведен Даскалакисом и Пападимитриу,[6] чтобы получить этот алгоритм.

Изучение сумм независимых целочисленных случайных величин

Учитывать независимые случайные величины каждый из которых следует произвольному распределению с поддержкой . А сумма независимых целочисленных случайных величин порядка является распределением суммы . Для изучения класса

есть следующий результат

Теорема

Позволять то есть алгоритм, который дает , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы также .

Другая часть заключается в том, что выборка и временная сложность не зависят от . Можно заключить эту независимость для предыдущего раздела, если мы положим .[7]

Обучающие смеси гауссианов

Пусть случайные величины и . Определите случайную величину который принимает то же значение, что и с вероятностью и то же значение, что и с вероятностью . Тогда если это плотность и это плотность плотность является . В этом случае как говорят, следует за смесью гауссианцев. Пирсон [8] был первым, кто ввел понятие смеси гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он наконец приспособил свои данные к смеси гауссиан. Задачей обучения в этом случае является определение параметров смеси .

Первая попытка решить эту проблему была от Дасгупта.[9] В этой работе Дасгупта предполагает, что два средних значения гауссианцев достаточно далеко друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризация образцы в два разных кластера, минимизируя некоторую метрику. Используя предположение, что средние значения гауссианов находятся далеко друг от друга, с высокой вероятностью выборки в первом кластере соответствуют выборкам из первого гауссиана, а выборки во втором кластере - выборкам из второго. Теперь, когда образцы разделены, могут быть вычислены с помощью простых статистических оценок и сравнивая величину кластеров.

Если является набором всех смесей двух гауссианов, используя приведенную выше процедуру, можно доказать следующие теоремы.

Теорема [9]

Позволять с , куда и наибольшее собственное значение , то есть алгоритм, который задан , и доступ к находит приближение таких параметров, что (соответственно для и . Примерная сложность этого алгоритма составляет и время работы .

Приведенный выше результат также можно обобщить в смесь гауссианцев.[9]

Для случая смешения двух гауссианов есть результаты обучения без предположения о расстоянии между их средними значениями, как в следующем, который использует общее расстояние вариации в качестве меры расстояния.

Теорема [10]

Позволять то есть алгоритм, который дает , и доступ к находит так что если , куда тогда . Сложность выборки и время работы этого алгоритма .

Расстояние между и влияет не на качество результата алгоритма, а только на сложность выборки и время выполнения.[9][10]

Рекомендации

  1. ^ а б c М. Кернс, Ю. Мансур, Д. Рон, Р. Рубинфельд, Р. Шапайр, Л. Селли Об обучаемости дискретных распределений. Симпозиум ACM по теории вычислений, 1994 г. [1]
  2. ^ Л. Валиант Теория обучаемого. Сообщения ACM, 1984 г.
  3. ^ Лоренцо Росаско, Томазо Поджио, Рукопись «Регуляризационный тур по машинному обучению - MIT-9.520 Лекции», декабрь 2014 г. [2]
  4. ^ К. Даскалакис, Г. Камат Более быстрые и примерные почти оптимальные алгоритмы для правильного обучения смесей гауссианов. Ежегодная конференция по теории обучения, 2014 г. [3]
  5. ^ К. Даскалакис, И. Диакониколас, Р. Серведио Изучение биномиальных распределений Пуассона. Симпозиум ACM по теории вычислений, 2012 г. [4]
  6. ^ К. Даскалакис, К. Пападимитриу Редкие обложки для сумм индикаторов. Теория вероятностей и смежные области, 2014 г. [5]
  7. ^ К. Даскалакис, И. Диакониколас, Р. О’Доннелл, Р. Серведио, Л. Тан Изучение сумм независимых целочисленных случайных величин. Симпозиум IEEE по основам компьютерных наук, 2013 г. [6]
  8. ^ К. Пирсон Вклад в математическую теорию эволюции. Философские труды Королевского общества в Лондоне, 1894 г. [7]
  9. ^ а б c d С. Дасгупта Изучение смесей гауссианов. Симпозиум IEEE по основам компьютерных наук, 1999 г. [8]
  10. ^ а б А. Калаи, А. Моитра, Г. Валиант Эффективно обучающиеся смеси двух гауссианов Симпозиум ACM по теории вычислений, 2010 г. [9]