Ограниченная машина Больцмана - Restricted Boltzmann machine

Схема ограниченной машины Больцмана с тремя видимыми блоками и четырьмя скрытыми блоками (без блоков смещения).

А ограниченная машина Больцмана (УОР) это генеративный стохастический искусственная нейронная сеть что может узнать распределение вероятностей над своим набором входов.

Изначально УКР были изобретены под названием Фисгармония к Павел Смоленский в 1986 г.^[1]и стал известен после Джеффри Хинтон и сотрудники изобрели для них алгоритмы быстрого обучения в середине 2000 года. УКР нашли применение в уменьшение размерности,^[2]классификация,^[3]совместная фильтрация,^[4] особенности обучения,^[5]тематическое моделирование^[6]и даже квантовая механика многих тел.^[7]^[8] Их можно обучить под наблюдением или же без присмотра способами, в зависимости от задачи.

Как следует из их названия, УКР - это вариант Машины Больцмана, с ограничением, что их нейроны должен сформировать двудольный граф: пара узлов из каждой из двух групп модулей (обычно называемых «видимыми» и «скрытыми» модулями соответственно) может иметь симметричное соединение между собой; и нет никаких связей между узлами внутри группы. Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытые единицы. Это ограничение позволяет использовать более эффективные алгоритмы обучения, чем те, которые доступны для общего класса машин Больцмана, в частности, для машин Больцмана. на основе градиента контрастное расхождение алгоритм.^[9]

Машины Больцмана с ограничениями также могут использоваться в глубокое обучение сети. Особенно, сети глубоких убеждений могут быть сформированы путем «наложения» RBM и, при необходимости, тонкой настройки результирующей глубокой сети с градиентный спуск и обратное распространение.^[10]

Структура

Стандартный тип RBM имеет двоичные значения (Булево /Бернулли ) скрытых и видимых блоков и состоит из матрица весов ${ Displaystyle W = (w_ {я, j})}$ (размер м×п) связанный с соединением между скрытым блоком ${ displaystyle h_ {j}}$ и видимый блок ${ displaystyle v_ {i}}$ , а также веса смещения (смещения) ${ displaystyle a_ {i}}$ для видимых блоков и ${ displaystyle b_ {j}}$ для скрытых блоков. Учитывая это, энергия конфигурации (пара булевых векторов) $(v, час)$ определяется как

{ displaystyle E (v, h) = - sum _ {i} a_ {i} v_ {i} - sum _ {j} b_ {j} h_ {j} - sum _ {i} sum _ {j} v_ {i} w_ {i, j} h_ {j}}

или, в матричной записи,

{ displaystyle E (v, h) = - a ^ { mathrm {T}} v-b ^ { mathrm {T}} h-v ^ { mathrm {T}} Wh}

Эта энергетическая функция аналогична функции Сеть Хопфилда. Как и в обычных машинах Больцмана, распределения вероятностей по скрытым и / или видимым векторам определяются в терминах функции энергии:^[11]

{ Displaystyle P (v, h) = { frac {1} {Z}} e ^ {- E (v, h)}}

куда ${ displaystyle Z}$ это функция распределения определяется как сумма ${ displaystyle e ^ {- E (v, h)}}$ по всем возможным конфигурациям (другими словами, просто нормализующая константа чтобы гарантировать, что сумма распределения вероятностей равна 1). Аналогичным образом (маргинальный ) вероятность видимого (входного) вектора логических значений - это сумма по всем возможным конфигурациям скрытого слоя:^[11]

{ displaystyle P (v) = { frac {1} {Z}} sum _ {h} e ^ {- E (v, h)}}

Поскольку RBM имеет форму двудольного графа без внутриуровневых соединений, скрытые активации модулей взаимно независимый учитывая видимые активации модулей, и, наоборот, видимые активации модулей взаимно независимы, учитывая скрытые активации модулей.^[9] То есть для ${ displaystyle m}$ видимые единицы и ${ displaystyle n}$ скрытые подразделения, условная возможность конфигурации видимых блоков $v$ , учитывая конфигурацию скрытых блоков $час$ , является

{ Displaystyle P (v | h) = prod _ {i = 1} ^ {m} P (v_ {i} | h)}

.

И наоборот, условная вероятность $час$ данный $v$ является

{ Displaystyle P (час | v) = prod _ {j = 1} ^ {n} P (h_ {j} | v)}

.

Индивидуальные вероятности активации представлены как

{ Displaystyle P (h_ {j} = 1 | v) = sigma left (b_ {j} + sum _ {i = 1} ^ {m} w_ {i, j} v_ {i} right) }

и

{ Displaystyle , P (v_ {i} = 1 | h) = sigma left (a_ {i} + sum _ {j = 1} ^ {n} w_ {i, j} h_ {j} верно)}

куда ${ displaystyle sigma}$ обозначает логистическая сигмовидная.

Видимые единицы Ограниченной машины Больцмана могут быть полиномиальный, хотя скрытые блоки Бернулли. В этом случае логистическая функция для видимых единиц заменяется на функция softmax

{ Displaystyle P (v_ {i} ^ {k} = 1 | h) = { frac { exp (a_ {i} ^ {k} + Sigma _ {j} W_ {ij} ^ {k} h_ {j})} { Sigma _ {k '= 1} ^ {K} exp (a_ {i} ^ {k'} + Sigma _ {j} W_ {ij} ^ {k '} h_ {j })}}}

куда K - количество дискретных значений, которые имеют видимые значения. Они применяются в тематическом моделировании,^[6] и рекомендательные системы.^[4]

Отношение к другим моделям

Машины Больцмана с ограничениями - частный случай Машины Больцмана и Марковские случайные поля.^[12]^[13]Их графическая модель соответствует тому из факторный анализ.^[14]

Алгоритм обучения

Машины Больцмана с ограничениями обучаются так, чтобы максимизировать произведение вероятностей, назначенных некоторой обучающей выборке ${ displaystyle V}$ (матрица, каждая строка которой рассматривается как видимый вектор ${ displaystyle v}$ ),

{ Displaystyle arg max _ {W} prod _ {v in V} P (v)}

или, что эквивалентно, чтобы максимизировать ожидал логарифмическая вероятность обучающей выборки ${ displaystyle v}$ выбран случайным образом из ${ displaystyle V}$ :^[12]^[13]

{ displaystyle arg max _ {W} mathbb {E} left [ log P (v) right]}

Алгоритм, наиболее часто используемый для обучения RBM, то есть для оптимизации вектора весов ${ displaystyle W}$ , - алгоритм контрастной дивергенции (CD) за счет Хинтон, изначально разработанная для обучения PoE (продукт экспертов ) модели.^[15]^[16]Алгоритм выполняет Выборка Гиббса и используется внутри градиентный спуск процедура (аналогично тому, как внутри такой процедуры используется обратное распространение ошибки при обучении нейронных сетей с прямой связью) для вычисления обновления веса.

Базовую одноэтапную процедуру контрастного расхождения (CD-1) для одной выборки можно резюмировать следующим образом:

Возьмите обучающую выборку $v$ , вычислить вероятности скрытых единиц и выбрать скрытый вектор активации $час$ из этого распределения вероятностей.
Вычислить внешний продукт из $v$ и $час$ и назовите это положительный градиент.
Из $час$ , пример реконструкции $v '$ видимых юнитов, затем пересчитайте скрытые активации $час'$ из этого. (Шаг выборки Гиббса)
Вычислить внешний продукт из $v '$ и $час'$ и назовите это отрицательный градиент.
Пусть обновление весовой матрицы ${ displaystyle W}$ - положительный градиент минус отрицательный градиент, умноженный на скорость обучения: ${ displaystyle Delta W = epsilon (vh ^ { mathsf {T}} - v'h '^ { mathsf {T}})}$ .
Обновите предубеждения $а$ и $б$ аналогично: ${ displaystyle Delta a = epsilon (v-v ')}$ , ${ displaystyle Delta b = epsilon (ч-ч ')}$ .

Практическое руководство по обучению RBM, написанное Хинтоном, можно найти на его домашней странице.^[11]

Смотрите также

внешняя ссылка

Введение в машины Больцмана с ограничениями. Блог Эдвина Чена, 18 июля 2011 г.
«Руководство для начинающих по машинам Больцмана с ограничениями». Архивировано 11 февраля 2017 года.. Получено 15 ноября, 2018.CS1 maint: BOT: статус исходного URL-адреса неизвестен (связь). Deeplearning4j Документация
«Понимание УКР». Архивировано из оригинал 20 сентября 2016 г.. Получено 29 декабря, 2014.. Документация Deeplearning4j
Python выполнение УКР Бернулли и руководство
SimpleRBM - это очень маленький код RBM (24 КБ), полезный для вас, чтобы узнать, как учатся и работают RBM.

[1] Смоленский, Павел (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF). В Rumelhart, David E .; Маклелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: Исследования микроструктуры познания, Том 1: Основы. MIT Press. стр.194–281. ISBN 0-262-68053-X.

[2] Hinton, G.E .; Салахутдинов, Р. Р. (2006). «Снижение размерности данных с помощью нейронных сетей» (PDF). Наука. 313 (5786): 504–507. Bibcode:2006Научный ... 313..504H. Дои:10.1126 / science.1127647. PMID 16873662.

[3] Larochelle, H .; Бенджио, Ю. (2008). Классификация с использованием дискриминативных ограниченных машин Больцмана (PDF). Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. Дои:10.1145/1390156.1390224. ISBN 9781605582054.

[softCF-4] а ^б Салахутдинов, Р .; Mnih, A .; Хинтон, Г. (2007). Машины Больцмана с ограничениями для совместной фильтрации. Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. Дои:10.1145/1273496.1273596. ISBN 9781595937933.

[coates2011-5] Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей при неконтролируемом обучении функций (PDF). Международная конференция по искусственному интеллекту и статистике (AISTATS).

[softTM-6] а ^б Руслан Салахутдинов и Джеффри Хинтон (2010). Replicated softmax: неориентированная тематическая модель. Системы обработки нейронной информации 23.

[7] Карлео, Джузеппе; Тройер, Маттиас (10.02.2017). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука. 355 (6325): 602–606. arXiv:1606.02318. Bibcode:2017Наука ... 355..602C. Дои:10.1126 / science.aag2302. ISSN 0036-8075. PMID 28183973.

[8] Мелко, Роджер Г .; Карлео, Джузеппе; Карраскилла, Хуан; Чирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике». Природа Физика. 15 (9): 887–892. Bibcode:2019НатФ..15..887M. Дои:10.1038 / s41567-019-0545-1. ISSN 1745-2481.

[oncd-9] а ^б Miguel Á. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном обучении дивергенции. Искусственный интеллект и статистика.

[10] Хинтон, Г. (2009). "Сети глубоких убеждений". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ ... 4.5947H. Дои:10.4249 / scholarpedia.5947.

[guide-11] а ^б ^c Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана. UTML TR 2010–003, Университет Торонто.

[cdconvergence-12] а ^б Суцкевер Илья; Тилеман, Таймен (2010). «О свойствах сходимости контрастной дивергенции» (PDF). Proc. 13-я Международная конференция Об искусственном интеллекте и статистике (AISTATS). Архивировано из оригинал (PDF) на 2015-06-10.

[RBMTutorial-13] а ^б Ася Фишер и Кристиан Игель. Обучение ограниченным машинам Больцмана: Введение В архиве 2015-06-10 на Wayback Machine. Распознавание образов 47, стр. 25-39, 2014

[14] Мария Анджелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана» (PDF). Алгебраические методы в статистике и теории вероятностей. Американское математическое общество. 516. arXiv:0908.4425. Bibcode:2009arXiv0908.4425A.^{[постоянная мертвая ссылка ]}

[15] Джеффри Хинтон (1999). Продукция экспертов. ICANN 1999 г..

[16] Хинтон, Г. Э. (2002). «Продукты для обучения экспертов путем сведения к минимуму противоречивых расхождений» (PDF). Нейронные вычисления. 14 (8): 1771–1800. Дои:10.1162/089976602760128018. PMID 12180402.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]