Закрытый рекуррентный блок - Gated recurrent unit

Закрытый рекуррентный блокs (ГРУs) являются запорным механизмом в повторяющиеся нейронные сети, представленный в 2014 году Kyunghyun Cho et al.[1] ГРУ похоже на долговременная кратковременная память (LSTM) с воротами забвения,[2] но имеет меньше параметров, чем LSTM, так как в нем отсутствует выходной вентиль.[3] Было обнаружено, что производительность ГРУ по определенным задачам моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична LSTM.[4][5] Было показано, что ГРУ демонстрируют лучшую производительность на некоторых меньших и менее частых наборах данных.[6][7]

Однако, как показали Гейл Вайс, Йоав Голдберг и Эран Яхав, LSTM «строго сильнее», чем ГРУ, поскольку он может легко выполнять неограниченный подсчет, а ГРУ - нет. Вот почему ГРУ не может изучать простые языки, которые можно выучить с помощью LSTM.[8]

Точно так же, как показали Денни Бритц, Анна Голди, Минь-Тханг Луонг и Куок Ле из Google Brain, Ячейки LSTM неизменно превосходят ячейки GRU в «первом крупномасштабном анализе вариантов архитектуры нейронного машинного перевода».[9]

Архитектура

Существует несколько вариаций полностью закрытого блока, где стробирование выполняется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным закрытым блоком.[10]

Оператор обозначает Произведение Адамара В следующих.

Полностью закрытый блок

Рекуррентный блок закрытого типа, полностью закрытая версия

Первоначально для , выходной вектор .

Переменные

  • : входной вектор
  • : выходной вектор
  • : вектор активации кандидата
  • : обновить вектор ворот
  • : сбросить вектор ворот
  • , и : матрицы параметров и вектор

Функции активации

Возможны альтернативные функции активации при условии, что .

Тип 1
Тип 2
Тип 3

Альтернативные формы можно создать, изменив и [11]

  • Тип 1, каждый вентиль зависит только от предыдущего скрытого состояния и смещения.
  • Тип 2, каждый гейт зависит только от предыдущего скрытого состояния.
  • Тип 3, каждый вентиль вычисляется только с использованием смещения.

Минимальный закрытый блок

Минимальный стробируемый модуль аналогичен полностью стробированному модулю, за исключением того, что вектор затвора обновления и сброса объединяется в стробирующий затвор. Это также означает, что уравнение для выходного вектора должно быть изменено:[12]

Переменные

  • : входной вектор
  • : выходной вектор
  • : вектор активации кандидата
  • : забыть вектор
  • , и : матрицы параметров и вектор

Рекомендации

  1. ^ Чо, Кёнхён; ван Мерриенбоер, Барт; Гульчере, Чаглар; Богданов, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv:1406.1078. Цитировать журнал требует | журнал = (помощь)
  2. ^ Феликс Герс; Юрген Шмидхубер; Фред Камминс (1999). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Proc. ICANN'99, IEE, Лондон. 1999: 850–855. Дои:10.1049 / cp: 19991218. ISBN  0-85296-721-7.
  3. ^ "Учебное пособие по рекуррентным нейронным сетям, часть 4 - Реализация RNN GRU / LSTM с помощью Python и Theano - WildML". Wildml.com. 2015-10-27. Получено 18 мая, 2016.
  4. ^ Раванелли, Мирко; Бракел, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). "Легкие закрытые рекуррентные блоки для распознавания речи". Транзакции IEEE по новым темам в области вычислительного интеллекта. 2 (2): 92–102. arXiv:1803.10225. Дои:10.1109 / TETCI.2017.2762739. S2CID  4402991.
  5. ^ Су, Юахан; Куо, Джей (2019). «О расширенной долгосрочной краткосрочной памяти и зависимой двунаправленной рекуррентной нейронной сети». arXiv:1803.01686.
  6. ^ Су, Юаньхан; Куо, Джей (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].
  7. ^ Gruber, N .; Jockisch, A. (2020), "Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?", Границы искусственного интеллекта, 3, Дои:10.3389 / frai.2020.00040, S2CID  220252321
  8. ^ Вайс, Гейл; Гольдберг, Йоав; Яхав, Эран (2018). «О практической вычислительной мощности RNN конечной точности для распознавания языков». arXiv:1805.04908 [cs.NE ].
  9. ^ Бритц, Денни; Голди, Анна; Луонг, Минь-Тханг; Ле, Куок (2018). «Массовое исследование архитектур нейронного машинного перевода». arXiv:1703.03906 [cs.NE ].
  10. ^ Чунг, Чжунён; Гульчере, Чаглар; Чо, Кён Хён; Бенжио, Йошуа (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].
  11. ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). "Gate-варианты нейронных сетей Gated Recurrent Unit (GRU)". arXiv:1701.05923 [cs.NE ].
  12. ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные вариации стробированных единиц для рекуррентных нейронных сетей». arXiv:1701.03452 [cs.NE ].