Закрытый рекуррентный блок - Gated recurrent unit

Закрытый рекуррентный блокs (ГРУs) являются запорным механизмом в повторяющиеся нейронные сети, представленный в 2014 году Kyunghyun Cho et al.^[1] ГРУ похоже на долговременная кратковременная память (LSTM) с воротами забвения,^[2] но имеет меньше параметров, чем LSTM, так как в нем отсутствует выходной вентиль.^[3] Было обнаружено, что производительность ГРУ по определенным задачам моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична LSTM.^[4]^[5] Было показано, что ГРУ демонстрируют лучшую производительность на некоторых меньших и менее частых наборах данных.^[6]^[7]

Однако, как показали Гейл Вайс, Йоав Голдберг и Эран Яхав, LSTM «строго сильнее», чем ГРУ, поскольку он может легко выполнять неограниченный подсчет, а ГРУ - нет. Вот почему ГРУ не может изучать простые языки, которые можно выучить с помощью LSTM.^[8]

Точно так же, как показали Денни Бритц, Анна Голди, Минь-Тханг Луонг и Куок Ле из Google Brain, Ячейки LSTM неизменно превосходят ячейки GRU в «первом крупномасштабном анализе вариантов архитектуры нейронного машинного перевода».^[9]

Архитектура

Существует несколько вариаций полностью закрытого блока, где стробирование выполняется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным закрытым блоком.^[10]

Оператор ${ displaystyle odot}$ обозначает Произведение Адамара В следующих.

Полностью закрытый блок

Рекуррентный блок закрытого типа, полностью закрытая версия

Первоначально для ${ displaystyle t = 0}$ , выходной вектор ${ displaystyle h_ {0} = 0}$ .

{ displaystyle { begin {align} z_ {t} & = sigma _ {g} (W_ {z} x_ {t} + U_ {z} h_ {t-1} + b_ {z}) r_ {t} & = sigma _ {g} (W_ {r} x_ {t} + U_ {r} h_ {t-1} + b_ {r}) { hat {h}} _ {t} & = phi _ {h} (W_ {h} x_ {t} + U_ {h} (r_ {t} odot h_ {t-1}) + b_ {h}) h_ {t} & = (1-z_ {t}) odot h_ {t-1} + z_ {t} odot { hat {h}} _ {t} end {выровнено}}}

Переменные

${ displaystyle x_ {t}}$ : входной вектор
${ displaystyle h_ {t}}$ : выходной вектор
${ displaystyle { hat {h}} _ {t}}$ : вектор активации кандидата
${ displaystyle z_ {t}}$ : обновить вектор ворот
${ displaystyle r_ {t}}$ : сбросить вектор ворот
${ displaystyle W}$ , ${ displaystyle U}$ и ${ displaystyle b}$ : матрицы параметров и вектор

Функции активации

${ displaystyle sigma _ {g}}$ : Оригинал сигмовидная функция.
${ displaystyle phi _ {h}}$ : Оригинал гиперболический тангенс.

Возможны альтернативные функции активации при условии, что ${ Displaystyle sigma _ {г} (х) в [0,1]}$ .

Тип 1

Тип 2

Тип 3

Альтернативные формы можно создать, изменив ${ displaystyle z_ {t}}$ и ${ displaystyle r_ {t}}$ ^[11]

Тип 1, каждый вентиль зависит только от предыдущего скрытого состояния и смещения.
${ displaystyle { begin {align} z_ {t} & = sigma _ {g} (U_ {z} h_ {t-1} + b_ {z}) r_ {t} & = sigma _ { g} (U_ {r} h_ {t-1} + b_ {r}) конец {выровнено}}}$
Тип 2, каждый гейт зависит только от предыдущего скрытого состояния.
${ displaystyle { begin {align} z_ {t} & = sigma _ {g} (U_ {z} h_ {t-1}) r_ {t} & = sigma _ {g} (U_ { r} h_ {t-1}) конец {выровнено}}}$
Тип 3, каждый вентиль вычисляется только с использованием смещения.
${ displaystyle { begin {align} z_ {t} & = sigma _ {g} (b_ {z}) r_ {t} & = sigma _ {g} (b_ {r}) конец {выровнен}}}$

Минимальный закрытый блок

Минимальный стробируемый модуль аналогичен полностью стробированному модулю, за исключением того, что вектор затвора обновления и сброса объединяется в стробирующий затвор. Это также означает, что уравнение для выходного вектора должно быть изменено:^[12]

{ displaystyle { begin {align} f_ {t} & = sigma _ {g} (W_ {f} x_ {t} + U_ {f} h_ {t-1} + b_ {f}) { hat {h}} _ {t} & = phi _ {h} (W_ {h} x_ {t} + U_ {h} (f_ {t} odot h_ {t-1}) + b_ {h }) h_ {t} & = (1-f_ {t}) odot h_ {t-1} + f_ {t} odot { hat {h}} _ {t} end {выровнено}} }

Переменные

${ displaystyle x_ {t}}$ : входной вектор
${ displaystyle h_ {t}}$ : выходной вектор
${ displaystyle { hat {h}} _ {t}}$ : вектор активации кандидата
${ displaystyle f_ {t}}$ : забыть вектор
${ displaystyle W}$ , ${ displaystyle U}$ и ${ displaystyle b}$ : матрицы параметров и вектор

Рекомендации

^ Чо, Кёнхён; ван Мерриенбоер, Барт; Гульчере, Чаглар; Богданов, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv:1406.1078. Цитировать журнал требует | журнал = (помощь)
^ Феликс Герс; Юрген Шмидхубер; Фред Камминс (1999). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Proc. ICANN'99, IEE, Лондон. 1999: 850–855. Дои:10.1049 / cp: 19991218. ISBN 0-85296-721-7.
^ "Учебное пособие по рекуррентным нейронным сетям, часть 4 - Реализация RNN GRU / LSTM с помощью Python и Theano - WildML". Wildml.com. 2015-10-27. Получено 18 мая, 2016.
^ Раванелли, Мирко; Бракел, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). "Легкие закрытые рекуррентные блоки для распознавания речи". Транзакции IEEE по новым темам в области вычислительного интеллекта. 2 (2): 92–102. arXiv:1803.10225. Дои:10.1109 / TETCI.2017.2762739. S2CID 4402991.
^ Су, Юахан; Куо, Джей (2019). «О расширенной долгосрочной краткосрочной памяти и зависимой двунаправленной рекуррентной нейронной сети». arXiv:1803.01686.
^ Су, Юаньхан; Куо, Джей (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].
^ Gruber, N .; Jockisch, A. (2020), "Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?", Границы искусственного интеллекта, 3, Дои:10.3389 / frai.2020.00040, S2CID 220252321
^ Вайс, Гейл; Гольдберг, Йоав; Яхав, Эран (2018). «О практической вычислительной мощности RNN конечной точности для распознавания языков». arXiv:1805.04908 [cs.NE ].
^ Бритц, Денни; Голди, Анна; Луонг, Минь-Тханг; Ле, Куок (2018). «Массовое исследование архитектур нейронного машинного перевода». arXiv:1703.03906 [cs.NE ].
^ Чунг, Чжунён; Гульчере, Чаглар; Чо, Кён Хён; Бенжио, Йошуа (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].
^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). "Gate-варианты нейронных сетей Gated Recurrent Unit (GRU)". arXiv:1701.05923 [cs.NE ].
^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные вариации стробированных единиц для рекуррентных нейронных сетей». arXiv:1701.03452 [cs.NE ].

[1] Чо, Кёнхён; ван Мерриенбоер, Барт; Гульчере, Чаглар; Богданов, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv:1406.1078. Цитировать журнал требует | журнал = (помощь)

[lstm1999-2] Феликс Герс; Юрген Шмидхубер; Фред Камминс (1999). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Proc. ICANN'99, IEE, Лондон. 1999: 850–855. Дои:10.1049 / cp: 19991218. ISBN 0-85296-721-7.

[MyUser_Wildml.com_May_18_2016c-3] "Учебное пособие по рекуррентным нейронным сетям, часть 4 - Реализация RNN GRU / LSTM с помощью Python и Theano - WildML". Wildml.com. 2015-10-27. Получено 18 мая, 2016.

[Ravalli2018-4] Раванелли, Мирко; Бракел, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). "Легкие закрытые рекуррентные блоки для распознавания речи". Транзакции IEEE по новым темам в области вычислительного интеллекта. 2 (2): 92–102. arXiv:1803.10225. Дои:10.1109 / TETCI.2017.2762739. S2CID 4402991.

[Su2019-5] Су, Юахан; Куо, Джей (2019). «О расширенной долгосрочной краткосрочной памяти и зависимой двунаправленной рекуррентной нейронной сети». arXiv:1803.01686.

[MyUser_Arxiv.org_May_18_2016c-6] Су, Юаньхан; Куо, Джей (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].

[gruber_jockisch-7] Gruber, N .; Jockisch, A. (2020), "Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?", Границы искусственного интеллекта, 3, Дои:10.3389 / frai.2020.00040, S2CID 220252321

[weiss2018-8] Вайс, Гейл; Гольдберг, Йоав; Яхав, Эран (2018). «О практической вычислительной мощности RNN конечной точности для распознавания языков». arXiv:1805.04908 [cs.NE ].

[britz2018-9] Бритц, Денни; Голди, Анна; Луонг, Минь-Тханг; Ле, Куок (2018). «Массовое исследование архитектур нейронного машинного перевода». arXiv:1703.03906 [cs.NE ].

[Chung_18_2016c-10] Чунг, Чжунён; Гульчере, Чаглар; Чо, Кён Хён; Бенжио, Йошуа (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].

[11] Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). "Gate-варианты нейронных сетей Gated Recurrent Unit (GRU)". arXiv:1701.05923 [cs.NE ].

[12] Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные вариации стробированных единиц для рекуррентных нейронных сетей». arXiv:1701.03452 [cs.NE ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]