Многослойный перцептрон - Multilayer perceptron

А многослойный персептрон (MLP) - это класс прямая связь искусственная нейронная сеть (АННА). Термин MLP используется неоднозначно, иногда вольно, чтобы любой ИНС прямого распространения, иногда строго для обозначения сетей, состоящих из нескольких уровней перцептроны (с пороговой активацией); видеть § Терминология. Многослойные перцептроны иногда в просторечии называют «ванильными» нейронными сетями, особенно когда они имеют единственный скрытый слой.[1]

MLP состоит как минимум из трех слоев узлов: входного, скрытого и выходного. За исключением входных узлов, каждый узел представляет собой нейрон, использующий нелинейный функция активации. MLP использует контролируемое обучение техника называется обратное распространение для тренировки.[2][3] Его несколько слоев и нелинейная активация отличают MLP от линейного перцептрон. Он может различать данные, которые не линейно отделимый.[4]

Теория

Функция активации

Если многослойный персептрон имеет линейную функция активации во всех нейронах, то есть линейная функция, отображающая взвешенные входы к выходу каждого нейрона, то линейная алгебра показывает, что любое количество слоев можно свести к двухуровневой модели ввода-вывода. В MLP некоторые нейроны используют нелинейный функция активации, которая была разработана для моделирования частоты потенциалы действия, или срабатывание биологических нейронов.

Две исторически распространенные функции активации: сигмоиды, и описываются

.

В последних разработках глубокое обучение то выпрямительный линейный блок (ReLU) чаще используется как один из возможных способов преодоления числового проблемы связанные с сигмоидами.

Первый - это гиперболический тангенс который колеблется от -1 до 1, а другой - логистическая функция, который похож по форме, но находится в диапазоне от 0 до 1. Здесь это результат й узел (нейрон) и - взвешенная сумма входных соединений. Были предложены альтернативные функции активации, включая выпрямитель и softplus функции. Более специализированные функции активации включают радиальные базисные функции (используется в радиально-базисные сети, другой класс моделей контролируемых нейронных сетей).

Слои

MLP состоит из трех или более слоев (входной и выходной слой с одним или несколькими скрытые слои) нелинейно-активирующих узлов. Поскольку MLP полностью связаны, каждый узел на одном уровне подключается с определенным весом. к каждому узлу в следующем слое.

Учусь

Обучение происходит в перцептроне путем изменения весов соединений после обработки каждого фрагмента данных в зависимости от количества ошибок в выходных данных по сравнению с ожидаемым результатом. Это пример контролируемое обучение, и осуществляется через обратное распространение, обобщение алгоритм наименьших средних квадратов в линейном персептроне.

Мы можем представить степень ошибки в выходном узле в th data point (обучающий пример) по , куда целевое значение и это значение, производимое перцептроном. Затем веса узлов могут быть скорректированы на основе поправок, которые минимизируют ошибку для всего вывода, заданного формулой

.

С помощью градиентный спуск, изменение каждого веса равно

куда это выход предыдущего нейрона и это скорость обучения, который выбран, чтобы веса быстро сходились к отклику без колебаний.

Вычисляемая производная зависит от индуцированного локального поля , который сам по себе меняется. Легко доказать, что для выходного узла эту производную можно упростить до

куда является производной функции активации, описанной выше, которая сама по себе не изменяется. Анализ является более сложным для изменения весов скрытого узла, но можно показать, что соответствующая производная

.

Это зависит от изменения веса th узлы, которые представляют выходной слой. Таким образом, чтобы изменить веса скрытого слоя, веса выходного слоя изменяются в соответствии с производной функции активации, и поэтому этот алгоритм представляет собой обратное распространение функции активации.[5]


Терминология

Термин «многослойный перцептрон» не относится к одному перцептрону, имеющему несколько слоев. Скорее, он содержит множество перцептронов, которые организованы в слои. Альтернатива - «многослойная сеть персептронов». Более того, «персептроны» MLP не являются персептронами в самом строгом смысле этого слова. Истинные перцептроны формально являются частным случаем искусственных нейронов, которые используют пороговую функцию активации, такую ​​как Ступенчатая функция Хевисайда. Персептроны MLP могут использовать произвольные функции активации. Настоящий перцептрон выполняет двоичный классификации нейрон MLP может выполнять классификацию или регрессию, в зависимости от своей функции активации.

Термин «многослойный перцептрон» позже был применен независимо от природы узлов / слоев, которые могут состоять из произвольно определенных искусственных нейронов, а не конкретно перцептронов. Эта интерпретация позволяет избежать ослабления определения «перцептрон» для обозначения искусственного нейрона в целом.

Приложения

MLP полезны в исследованиях благодаря их способности решать проблемы стохастически, что часто позволяет приближенно решать чрезвычайно сложные задачи. сложный проблемы вроде приближение пригодности.

MLP представляют собой универсальные аппроксиматоры функций, как показывает теорема Цибенко,[4] поэтому их можно использовать для создания математических моделей с помощью регрессионного анализа. В качестве классификация частный случай регресс когда переменная ответа категоричный, MLP составляют хорошие алгоритмы классификатора.

MLP были популярным решением для машинного обучения в 1980-х годах и находили приложения в различных областях, таких как распознавание речи, распознавание изображений, и машинный перевод программного обеспечения,[6] но после этого столкнулись с сильной конкуренцией со стороны гораздо более простых (и связанных[7]) опорные векторные машины. Интерес к сетям обратного распространения ошибки вернулся благодаря успехам глубокое обучение.

Рекомендации

  1. ^ Хасти, Тревор. Тибширани, Роберт. Фридман, Джером. Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. Спрингер, Нью-Йорк, Нью-Йорк, 2009.
  2. ^ Розенблатт, Франк. Икс. Принципы нейродинамики: персептроны и теория механизмов мозга. Спартанские книги, Вашингтон, округ Колумбия, 1961 г.
  3. ^ Рамелхарт, Дэвид Э., Джеффри Э. Хинтон и Р. Дж. Уильямс. "Изучение внутренних представлений путем распространения ошибок ". Дэвид Э. Румелхарт, Джеймс Л. Макклелланд и исследовательская группа PDP (редакторы), Параллельная распределенная обработка: Исследования микроструктуры познания, Том 1: Foundation. MIT Press, 1986.
  4. ^ а б Цибенко, Г. 1989. Аппроксимация суперпозициями сигмоидальной функции. Математика управления, сигналов и систем, 2(4), 303–314.
  5. ^ Хайкин, Симон (1998). Нейронные сети: всеобъемлющий фундамент (2-е изд.). Прентис Холл. ISBN  0-13-273350-1.
  6. ^ Нейронные сети. II. Что это такое и почему они сейчас так интересны ?; Вассерман, П.Д .; Schwartz, T .; Страницы: 10-15; Эксперт IEEE, 1988, том 3, выпуск 1
  7. ^ Р. Коллобер и С. Бенжио (2004). Связи между персептронами, MLP и SVM. Proc. Междунар. Конф. по машинному обучению (ICML).

внешняя ссылка