Сеть состояния эха - Echo state network

В сеть состояний эха (ESN)[1][2] это тип резервуарный компьютер который использует рекуррентная нейронная сеть со скрытым слоем с редкими связями (обычно с подключением 1%). Связь и вес скрытых нейроны фиксированы и назначаются случайным образом. Веса выходных нейронов можно узнать, чтобы сеть могла создавать или воспроизводить определенные временные паттерны. Главный интерес этой сети заключается в том, что, хотя ее поведение нелинейно, единственные веса, которые изменяются во время обучения, предназначены для синапсов, которые соединяют скрытые нейроны с выходными нейронами. Таким образом, функция ошибок квадратична по отношению к вектору параметров и может быть легко дифференцирована до линейной системы.

В качестве альтернативы можно рассмотреть непараметрическую байесовскую формулировку выходного слоя, согласно которой: (i) на выходные веса накладывается априорное распределение; и (ii) выходные веса не учитываются в контексте генерации прогнозов с учетом обучающих данных. Эта идея была продемонстрирована в [3] с использованием априорных значений Гаусса, в результате чего получается гауссовская модель процесса с функцией ядра, управляемой ESN. Было показано, что такое решение превосходит ESN с обучаемыми (конечными) наборами весов в нескольких тестах.

Некоторые общедоступные реализации ESN: (i) резервуар: эффективная библиотека C ++ для различных типов сетей эхо-состояний с привязками python / numpy; и (ii) Код Matlab: эффективный Matlab для сети состояний эха, (iii) ReservoirComputing.jl: эффективная реализация на основе Julia различных типов сетей эхо-состояний и (iv) pyESN: простые сети состояний эха в Python.

Сеть состояния эха (ESN)[4] принадлежит к семейству рекуррентных нейронных сетей (RNN) и обеспечивает свою архитектуру и принцип контролируемого обучения. В отличие от нейронных сетей прямого распространения, рекуррентные нейронные сети являются динамическими системами, а не функциями. Рекуррентные нейронные сети обычно используются для: изучения динамического процесса: обработки сигналов в технике и телекоммуникациях, анализа вибрации, сейсмологии, управления двигателями и генераторами. Прогнозирование и генерация сигналов: текстовые, музыкальные, электрические сигналы. Моделирование биологических систем, нейронауки (когнитивная нейродинамика), моделирование памяти, интерфейсы мозг-компьютер (BCI), фильтрация и процессы Калмана, военные приложения, моделирование волатильности и т. Д.

Для обучения RNN доступен ряд алгоритмов обучения: обратное распространение во времени, периодическое обучение в реальном времени. Сходимость не гарантируется из-за явлений нестабильности и бифуркации.[4]  

Основной подход ESN состоит в том, чтобы, во-первых, управлять случайной, большой, фиксированной, повторяющейся нейронной сетью с входным сигналом, который индуцирует нелинейный ответный сигнал в каждом нейроне в этой «резервуарной» сети, и, во-вторых, подключать требуемый выходной сигнал с помощью обучаемая линейная комбинация всех этих ответных сигналов.[2]

Другой особенностью ESN является автономная работа при прогнозировании: если сеть состояний эха обучается с использованием входа, который является версией выхода с обратным смещением, то ее можно использовать для генерации / прогнозирования сигнала, используя предыдущий выход в качестве входа.[4]

Основная идея ESN связана с Liquid State Machines (LSM), которые были независимо и одновременно разработаны с ESN Вольфгангом Маассом.[5] LSM, ESN и недавно исследованное правило обучения декорреляции обратного распространения для RNN[6] все больше и больше обобщаются под названием «Резервуарные вычисления».

Шиллер и Стейл[6] также продемонстрировали, что в традиционных подходах к обучению для RNN, в которых все веса (а не только выходные веса) адаптированы, преобладающие изменения происходят в выходных весах. В области когнитивной нейробиологии Питер Ф. Домини проанализировал связанный процесс, связанный с моделированием обработки последовательностей в мозге млекопитающих, в частности, с распознаванием речи в человеческом мозге.[7] Основная идея также включала модель временной дискриминации входа в биологических нейронных сетях.[8] Ранняя четкая формулировка идеи расчета резервуаров принадлежит К. Кирби, который раскрыл эту концепцию в почти забытом докладе конференции.[9] Первая известная сегодня формулировка идеи пластовых вычислений принадлежит Л. Шомакеру,[10] который описал, как желаемый целевой выходной сигнал может быть получен из RNN путем обучения объединению сигналов от случайно сконфигурированного ансамбля импульсных нейронных осцилляторов.[2]

Варианты

Сети эхо-состояний можно строить по-разному. Их можно настроить с напрямую обучаемыми соединениями ввода-вывода или без них, с обратной связью резервирования вывода или без, с различными нейротипами, различными шаблонами внутренней связи резервуара и т. Д. онлайн или офлайн. Помимо решений для ошибок с наименьшими квадратами, для определения выходных значений используются критерии максимизации маржи, так называемые машины векторов поддержки обучения.[11] Другие варианты сетей эхо-состояний стремятся изменить формулировку, чтобы лучше соответствовать общим моделям физических систем, например тем, которые обычно определяются дифференциальными уравнениями. Работа в этом направлении включает сети эхо-состояний, которые частично включают физические модели,[12] гибридные сети состояния эха,[13] и сети с постоянным временем эхо-состояния.[14]

Фиксированная RNN действует как случайная нелинейная среда, динамический отклик которой, «эхо», используется в качестве основы сигнала. Линейная комбинация этой базы может быть обучена восстанавливать желаемый результат путем минимизации некоторых критериев ошибки.[2]

Значимость

До введения ESN на практике RNN использовались редко. Поскольку эти модели подходят, нужна версия градиентного спуска для корректировки соединений. В результате алгоритмы работают медленно и намного хуже, что делает процесс обучения уязвимым для ошибок ветвления.[15] Следовательно, сходимость не может быть гарантирована. Проблема с ветвлением не требует обучения ESN и, кроме того, легко реализуема. ESN превосходят все другие нелинейные динамические модели.[1] [16] Однако сегодня проблема, связанная с медленными и подверженными ошибкам RNN, была решена с появлением Deep Learning, и уникальные преимущества ESN были потеряны. Кроме того, RNN зарекомендовали себя в нескольких практических областях, таких как языковая обработка. Чтобы справиться с задачами аналогичной сложности с использованием методов расчета коллектора, потребуется память чрезмерного размера. Однако они используются в некоторых областях, например, во многих приложениях для обработки сигналов. Однако ESN широко используются в качестве вычислительного принципа, который сочетается с нецифровыми компьютерными подложками. Например: оптические микрочипы, механические наноосцилляторы, полимерные смеси или даже протезы мягких конечностей.[2]

Смотрите также

Рекомендации

  1. ^ а б Герберт Йегер и Харальд Хаас. Использование нелинейности: прогнозирование хаотических систем и экономия энергии при беспроводной связи. Наука 2 апреля 2004 г .: Vol. 304. нет. 5667, с. 78 - 80 Дои:10.1126 / science.1091277 PDF
  2. ^ а б c d е Герберт Джегер (2007) Сеть состояния эха. Scholarpedia.
  3. ^ Сотириос П. Хатзис, Яннис Демирис, «Гауссовский процесс эхо-состояния», IEEE Transactions on Neural Networks, vol. 22, нет. 9, pp. 1435-1445, сентябрь 2011 г. [1]
  4. ^ а б c Jaeger, Герберт (2002). Учебное пособие по обучению рекуррентных нейронных сетей, охватывающее BPPT, RTRL, EKF и подход «сеть состояний эха».. Германия: Немецкий национальный исследовательский центр информационных технологий. С. 1–45.
  5. ^ Маасс В., Начлэгер Т. и Маркрам Х. (2002). «Вычисления в реальном времени без стабильных состояний: новая структура для нейронных вычислений на основе возмущений». Нейронные вычисления. 14 (11): 2531–2560. Дои:10.1162/089976602760407955. PMID  12433288.CS1 maint: несколько имен: список авторов (связь)
  6. ^ а б Шиллер У.Д. и Стейл Дж. Дж. (2005). «Анализ динамики веса повторяющихся алгоритмов обучения». Нейрокомпьютинг. 63: 5–23. Дои:10.1016 / j.neucom.2004.04.006.
  7. ^ Домини П.Ф. (1995). «Сложное обучение сенсорно-моторной последовательности на основе репрезентации повторяющегося состояния и обучения с подкреплением». Биол. Кибернетика. 73 (3): 265–274. Дои:10.1007 / BF00201428.
  8. ^ Буономано, Д.В. и Мерзених, М. (1995). «Временная информация, преобразованная в пространственный код нейронной сетью с реалистичными свойствами». Наука. 267 (5200): 1028–1030. Bibcode:1995Научный ... 267.1028B. Дои:10.1126 / science.7863330. PMID  7863330. S2CID  12880807.CS1 maint: несколько имен: список авторов (связь)
  9. ^ Кирби, К. (1991). «Контекстная динамика в нейронном последовательном обучении. Учеб.». Симпозиум по исследованиям искусственного интеллекта во Флориде: 66–70.
  10. ^ Шомакер, Л. (1992). «Нейронная осцилляторно-сетевая модель генерации временных паттернов». Наука человеческого движения. 11 (1–2): 181–192. Дои:10.1016 / 0167-9457 (92) 90059-К.
  11. ^ Шмидхубер Дж., Гомес Ф., Виерстра Д. и Гальоло М. (2007). «Обучение рекуррентных сетей от evolino». Нейронные вычисления. 19 (3): 757–779. Дои:10.1162 / neco.2007.19.3.757. PMID  17298232.CS1 maint: несколько имен: список авторов (связь)
  12. ^ Доан Н., Полифке В., Магри Л. "Физические сети с эхо-состоянием". Журнал вычислительной науки. Дои:10.1016 / j.jocs.2020.101237.CS1 maint: несколько имен: список авторов (связь)
  13. ^ Патак Дж., Викнер А., Рассел Р., Чандра С., Хант Б., Гирван М., Отт Э. «Гибридное прогнозирование хаотических процессов: использование машинного обучения в сочетании с моделью, основанной на знаниях». Хаос. Дои:10.1063/1.5028373.CS1 maint: несколько имен: список авторов (связь)
  14. ^ Anantharaman R, Ma Y, Gowda S, Laughman C, Shah V, Edelman A, Rackauckas C. "Ускорение моделирования жестких нелинейных систем с использованием сетей состояний эхо-сигналов с непрерывным временем". arxiv. arXiv:2010.04004.CS1 maint: несколько имен: список авторов (связь)
  15. ^ Доя К. (1992). «Бифуркации в обучении рекуррентных нейронных сетей». В трудах 1992 г. IEEE Int. Symp. О схемах и системах. 6: 2777–2780. Дои:10.1109 / ISCAS.1992.230622. ISBN  0-7803-0593-0.
  16. ^ Джегер Х. (2007). «Обнаружение многомасштабных динамических функций с помощью иерархических сетей эхо-состояний». Технический отчет 10, Школа инженерии и науки, Университет Джейкобса.