Метод обновления мультипликативного веса - Multiplicative weight update method

В метод обновления мультипликативных весов является алгоритмическая техника чаще всего используется для принятия решений и прогнозирования, а также широко применяется в теории игр и разработке алгоритмов. Самый простой вариант использования - это проблема прогнозирования на основе рекомендаций экспертов, при которой лицо, принимающее решения, должно итеративно выбирать эксперта, чей совет следует выполнять. Метод назначает начальные веса экспертам (обычно идентичные начальные веса) и обновляет эти веса мультипликативно и итеративно в соответствии с обратной связью о том, насколько хорошо эксперт работал: уменьшая его в случае низкой производительности и увеличивая в противном случае. [1] Он неоднократно обнаруживался в самых разных областях, таких как машинное обучение (AdaBoost, Winnow, Живая изгородь), оптимизация (решение линейные программы ), теоретическая информатика (разработка быстрого алгоритма для LP и SDP ), и теория игры.

имя

«Мультипликативные веса» подразумевают итерационное правило, используемое в алгоритмах, полученных на основе метода обновления мультипликативных весов.[2] Ему даны разные названия в разных областях, где он был обнаружен или переоткрыт.

История и предыстория

Самая ранняя известная версия этого метода была в алгоритме под названием "фиктивная игра "который был предложен в теория игры в начале 1950-х гг. Григориадис и Хачиян[3] применил случайный вариант «фиктивной игры» для решения двух игроков игры с нулевой суммой эффективно используя алгоритм мультипликативных весов. В этом случае игрок присваивает больший вес действиям, у которых был лучший результат, и выбирает свою стратегию, основываясь на этих весах. В машинное обучение Литтлстоун применил самую раннюю форму правила обновления мультипликативных весов в своей знаменитой алгоритм веянки, что похоже на более ранние работы Мински и Паперта. алгоритм обучения персептрона. Позже он обобщил алгоритм веянки до алгоритма взвешенного большинства. Фройнд и Шапир последовали его примеру и обобщили алгоритм веянки в виде алгоритма хеджирования.

Алгоритм мультипликативных весов также широко применяется в вычислительная геометрия такие как Кларксона алгоритм для линейное программирование (ЛП) с ограниченным числом переменных за линейное время.[4][5] Позже Бронниман и Гудрич применили аналогичные методы, чтобы найти установить обложки для гиперграфы с маленьким Размер ВК.[6]

В оперативное исследование и область задач принятия статистических решений в режиме онлайн, независимо найдены алгоритм взвешенного большинства и его более сложные версии.

В области информатики некоторые исследователи ранее наблюдали тесную взаимосвязь между алгоритмами мультипликативного обновления, используемыми в различных контекстах. Янг обнаружил сходство между быстрыми алгоритмами LP и методом пессимистических оценок Рагхавана для дерандомизации алгоритмов рандомизированного округления; Кливанс и Серведио связали алгоритмы повышения в теории обучения с доказательствами леммы Яо XOR; Гарг и Хандекар определили общую структуру для задач выпуклой оптимизации, которая содержит Гарг-Конеманн и Плоткин-Шмойс-Тардос в качестве подслучая.[7]

Общие настройки

Чтобы получить соответствующий результат, необходимо принять бинарное решение на основе мнений n экспертов. В первом туре мнения всех экспертов имеют одинаковый вес. Лицо, принимающее решение, примет первое решение на основе прогнозов большинства экспертов. Затем в каждом последующем раунде лицо, принимающее решение, будет неоднократно обновлять вес мнения каждого эксперта в зависимости от правильности его предыдущих прогнозов. Примеры из реальной жизни включают в себя прогнозирование, будет ли завтра дождливый день или будет ли фондовый рынок расти или падать.

Анализ алгоритмов

Алгоритм халвинга[2]

При последовательной игре между противником и агрегатором, которого советуют N экспертов, цель состоит в том, чтобы агрегатор делал как можно меньше ошибок. Предположим, что среди N экспертов есть эксперт, который всегда дает верный прогноз. В алгоритме деления пополам сохраняются только согласованные эксперты. Допускающие ошибки эксперты будут уволены. Каждое решение агрегатор принимает большинством голосов среди оставшихся экспертов. Поэтому каждый раз, когда агрегатор ошибается, не менее половины оставшихся экспертов увольняется. Агрегатор производит не более журнал2(N) ошибки.[2]

Алгоритм взвешенного большинства[7][8]

В отличие от алгоритма деления вдвое, который исключает экспертов, допустивших ошибки, алгоритм взвешенного большинства игнорирует их рекомендации. Учитывая ту же настройку «экспертного совета», предположим, что у нас есть n решений, и нам нужно выбрать одно решение для каждого цикла. В каждом цикле за каждое решение приходится платить. Все затраты будут раскрыты после выбора. Стоимость 0, если эксперт верен, и 1 в противном случае. цель этого алгоритма - ограничить совокупные потери примерно такими же, как у лучших из экспертов. Самый первый алгоритм, который делает выбор на основе большинства голосов на каждой итерации, не работает, поскольку большинство экспертов могут постоянно ошибаться каждый раз. Алгоритм взвешенного большинства исправляет вышеупомянутый тривиальный алгоритм, сохраняя вес экспертов вместо фиксации стоимости на уровне 1 или 0.[7] Это сделает меньше ошибок по сравнению с алгоритмом сокращения вдвое.

   Инициализация: Исправить . Для каждого эксперта свяжите вес ≔1.   Для  = , ,…,      1. Сделайте прогноз, основанный на взвешенном большинстве прогнозов экспертов, на основе их весов.. То есть выберите 0 или 1 в зависимости от того, какой прогноз имеет больший общий вес советников (произвольное разрушение связей). 2. Для каждого эксперта i, который предсказал неверно, уменьшите его вес для следующего раунда, умножив его на коэффициент (1-η): = (обновить правило)

Если , вес советов специалиста останется прежним. Когда увеличивается, вес совета специалиста снижается. Обратите внимание, что некоторые исследователи исправляют в алгоритме взвешенного большинства.

После шаги, пусть быть количеством ошибок эксперта i и быть количеством ошибок, сделанных нашим алгоритмом. Тогда для каждого :

    .

В частности, это справедливо для i, который является лучшим экспертом. Поскольку у лучшего эксперта будет меньше всего , это даст наилучшую оценку количества ошибок, сделанных алгоритмом в целом.

Рандомизированный алгоритм взвешенного большинства[2][9]

При такой же настройке с N экспертами. Рассмотрим особую ситуацию, когда пропорции экспертов, предсказывающих положительные и отрицательные результаты с учетом весов, близки к 50%. Тогда может быть ничья. Следуя правилу обновления веса в алгоритме взвешенного большинства, прогнозы, сделанные алгоритмом, будут рандомизированы. Алгоритм вычисляет вероятности того, что эксперты предсказывают положительные или отрицательные результаты, а затем принимает случайное решение на основе вычисленной доли:

предсказывать

где

 .

Количество ошибок, сделанных алгоритмом рандомизированного взвешенного большинства, ограничено следующим образом:

 

где и .

Обратите внимание, что рандомизируется только алгоритм обучения. В основе лежит предположение, что примеры и прогнозы экспертов не случайны. Единственная случайность - это случайность, при которой учащийся делает свое собственное предсказание. В этом рандомизированном алгоритме если . По сравнению с взвешенным алгоритмом эта случайность вдвое сократила количество ошибок, которые алгоритм собирается совершить.[10] Однако важно отметить, что в некоторых исследованиях люди определяют в алгоритме взвешенного большинства и позволяют в алгоритм рандомизированного взвешенного большинства.[2]

Приложения

Метод мультипликативных весов обычно используется для решения задачи оптимизации с ограничениями. Пусть каждый эксперт будет ограничением в проблеме, а события представляют точки в интересующей области. Наказание эксперта соответствует тому, насколько хорошо его соответствующее ограничение выполняется в точке, представленной событием.[1]

Примерное решение игр с нулевой суммой (алгоритм Oracle):[1][7][10]

Предположим, нам дано распределение по экспертам. Позволять = матрица выигрыша конечной игры двух игроков с нулевой суммой, с ряды.

Когда рядовой игрок использует план и игрок колонны использует план , выигрыш игрока является , предполагая .

Если игрок выбирает действие из раздачи по строкам, то ожидаемый результат для игрока выбор действия является .

Чтобы максимизировать , игрок следует выбрать план . Точно так же ожидаемый выигрыш для игрока является . Выбор плана минимизирует этот выигрыш. По теореме Джона фон Неймана о мин-максе мы получаем:

                                          

где P и i изменяют распределения по строкам, Q и j изменяют по столбцам.

Тогда пусть обозначают общее значение вышеуказанных величин, также называемое "ценностью игры". Позволять быть параметром ошибки. Для решения игры с нулевой суммой, ограниченной аддитивной ошибкой ,

                                                                                                  

Итак, есть алгоритм, решающий игру с нулевой суммой до аддитивного множителя δ, используя O (журнал2(п)/) вызовов ORACLE с дополнительным временем обработки O (n) на вызов[10]

Бейли и Пилиурас показали, что, хотя среднее по времени поведение обновления мультипликативных весов сходится к равновесию Нэша в играх с нулевой суммой, повседневное поведение (последняя итерация) отклоняется от него.[11]

Машинное обучение

В машинном обучении Литтлстоун и Вармут обобщили алгоритм веянки до алгоритма взвешенного большинства.[12] Позже Фройнд и Шапир обобщили его в виде алгоритма хеджирования.[13] Алгоритм AdaBoost, сформулированный Йоавом Фройндом и Робертом Шапиром, также использовал метод обновления мультипликативного веса.[7]

Алгоритм Winnow

Основываясь на текущих знаниях алгоритмов, метод обновления мультипликативного веса был впервые использован в алгоритме веянки Литтлстоуна.[7] Он используется в машинном обучении для решения линейной программы.

Данный помеченные примеры где являются векторами признаков, и их ярлыки.

Цель состоит в том, чтобы найти неотрицательные веса, такие, чтобы для всех примеров знак взвешенной комбинации признаков соответствовал ее меткам. То есть требовать, чтобы для всех . Без потери общности предположим, что общий вес равен 1, чтобы они образовали распределение. Таким образом, для удобства записи переопределим быть , проблема сводится к поиску решения следующей ЛП:

                     ,                     ,                     .

Это общая форма LP.

Алгоритм хеджирования [2]

Алгоритм хеджирования аналогичен алгоритму взвешенного большинства. Однако их правила экспоненциального обновления отличаются.[2]Обычно он используется для решения проблемы двоичного распределения, в которой нам нужно выделить различную часть ресурсов на N различных вариантов. Убыток с каждым вариантом доступен в конце каждой итерации. Цель состоит в том, чтобы уменьшить общие потери, понесенные для конкретного распределения. Распределение для следующей итерации затем пересматривается на основе общих потерь, понесенных в текущей итерации, с использованием мультипликативного обновления.[14]

Анализ

Предположим, что скорость обучения и для , выбран Hedge. Тогда для всех знатоков ,

                                

Инициализация: Исправить . Для каждого эксперта свяжите вес ≔1Для t = 1,2,…, T:

      1. Выберите дистрибутив  где . 2. Обратите внимание на стоимость решения. . 3. Установить ).

Алгоритм AdaBoost

Этот алгоритм[13] поддерживает набор весов над обучающими примерами. На каждой итерации , распределение вычисляется путем нормализации этих весов. Это распределение передается слабому ученику WeakLearn, который генерирует гипотезу. это (надеюсь) имеет небольшую ошибку в отношении распределения. Используя новую гипотезу , AdaBoost генерирует следующий вектор веса . Процесс повторяется. После T таких итераций окончательная гипотеза это выход. Гипотеза объединяет результаты T слабых гипотез с использованием взвешенного большинства голосов.[13]

Ввод:       Последовательность  помеченные примеры (,),…,(, ) Распределение  над  примеры Алгоритм слабого обучения "WeakLearn" 'Integer  указание количества итерацийИнициализировать вектор веса:  для ,..., .Делать для ,...,       1. Набор .      2. Вызов Слабый, снабдив его раздачей ; вернуть гипотезу  [0,1].      3. Рассчитайте погрешность |.      4. Набор .                                           5. Установите новый вектор веса как .Вывод гипотеза:
      

Примерное решение линейных программ[15]

Проблема

Учитывая матрица и , Есть ли такой, что ?

                                    (1)

Предположение

Использование алгоритма оракула при решении задачи с нулевой суммой с параметром ошибки , вывод будет либо точкой такой, что или доказательство того, что не существует, т. е. не существует решения этой линейной системы неравенств.

Решение

Данный вектор , решает следующую упрощенную задачу

                                  (2)

Если существует x, удовлетворяющий (1), то x удовлетворяет (2) для всех . Противоположное этому утверждению также верно. Предположим, что если оракул возвращает допустимое решение для , решение он возвращает ограниченную ширину Таким образом, если существует решение (1), то существует алгоритм, согласно которому его выход x удовлетворяет системе (2) с точностью до аддитивной ошибки . Алгоритм делает не более обращается к оракулу с ограниченной шириной для задачи (2). Верно и контрапозитив. В этом случае в алгоритме применяются мультипликативные обновления.

Другие приложения

Эволюционная теория игр

Обновление мультипликативных весов - это вариант дискретного времени уравнение репликатора (динамика репликатора), которая является широко используемой моделью в эволюционная теория игр. Он сходится к равновесие по Нэшу применительно к игра в пробки.[16]

Исследование операций и принятие статистических решений в режиме онлайн[7]

В исследование операций и область задач принятия статистических решений в режиме онлайн, независимо найдены алгоритм взвешенного большинства и его более сложные версии.

Вычислительная геометрия

Алгоритм мультипликативных весов также широко применяется в вычислительная геометрия[7], такие как Кларксон алгоритм для линейное программирование (ЛП) с ограниченным числом переменных за линейное время.[4][5] Позже Бронниман и Гудрич применили аналогичные методы, чтобы найти Установить обложки для гиперграфы с маленьким Размер ВК.[6]

Метод градиентного спуска[1]

Матрица обновление мультипликативных весов[1]

Плоткин, Шмойс, Тардос рамки для упаковка /покрытие LP[7]

Приблизительный проблемы с потоком нескольких товаров[7]

O (logn) - приближение для многих NP-сложные задачи[7]

Теория обучения и повышение[7]

Жесткие множества и лемма XOR[7]

Алгоритм Ханнана и мультипликативные веса[7]

онлайн выпуклая оптимизация[7]

использованная литература

  1. ^ а б c d е «Метод обновления мультипликативных весов: метаалгоритм и приложения» (PDF). Май 2012 г.
  2. ^ а б c d е ж г «Алгоритм мультипликативных весов *» (PDF). Получено 9 ноября 2016.
  3. ^ «Сублинейный алгоритм рандомизированного приближения для матричных игр». 1995 г. Отсутствует или пусто | url = (Помогите)
  4. ^ а б КЕННЕТ Л. КЛАРКСОН. Алгоритм Лас-Вегаса для линейного программирования, когда размерность мала., В Proc. 29-я FOCS, стр. 452–456. IEEE Comp. Soc. Press, 1988. [DOI: 10.1109 / SFCS.1988.21961] 123, 152.
  5. ^ а б КЕННЕТ Л. КЛАРКСОН. Алгоритм Лас-Вегаса для линейного и целочисленного программирования, когда размерность мала., J. ACM, 42: 488–499, 1995. [DOI: 10.1145 / 201019.201036] 123, 152.
  6. ^ а б Х. БРОННИМАН И ¨ M.T. ГУДРИЧ. Почти оптимальные покрытия множеств в конечной VC-размерности., Дискретные вычисления. Geom., 14: 463–479, 1995. Предварительная версия в 10th Ann. Symp. Комп. Геом. (SCG'94). [DOI: 10.1007 / BF02570718] 123, 152
  7. ^ а б c d е ж г час я j k л м п о «Метод обновления мультипликативных весов: метаалгоритм и приложения» (PDF). 2012.
  8. ^ «Лекция 8: Принятие решений в условиях полной неопределенности: алгоритм мультипликативного веса» (PDF). 2013.
  9. ^ «COS 511: основы машинного обучения» (PDF). 20 марта 2006 г.
  10. ^ а б c «Инструментарий алгоритмиста». 8 декабря 2009 г.. Получено 9 ноября 2016.
  11. ^ Бейли, Джеймс П. и Георгиос Пилиурас. «Обновление мультипликативных весов в играх с нулевой суммой». Материалы конференции ACM по экономике и вычислениям 2018 г. ACM, 2018.
  12. ^ ДИН П. ФОСТЕР И РАКЕШ ВОХРА (1999). Сожаление о проблеме онлайн-решения, п. 29. Игры и экономическое поведение.
  13. ^ а б c Йоав, Фройнд. Роберт, Э. Шапир (1996). Теоретико-технологическое обобщение онлайн-обучения и его применение для повышения квалификации *, п. 55. Журнал компьютерных и системных наук.
  14. ^ «Онлайн-обучение от экспертов: взвешенное большинство и хеджирование» (PDF). Получено 7 декабря 2016.
  15. ^ «Основы выпуклой оптимизации» (PDF). Получено 9 ноября 2016.
  16. ^ Клейнберг, Роберт, Георгиос Пилиурас и Ева Тардос. «Мультипликативные обновления превосходят обычное беспроблемное обучение в играх с перегрузками». Материалы сорок первого ежегодного симпозиума ACM по теории вычислений. ACM, 2009.

внешние ссылки