Скорость обучения - Learning rate
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
В машинное обучение и статистика, то скорость обучения это параметр настройки в алгоритм оптимизации который определяет размер шага на каждой итерации при движении к минимуму функция потерь.[1] Поскольку он влияет на то, в какой степени вновь полученная информация перекрывает старую информацию, он метафорически представляет скорость, с которой модель машинного обучения «учится». в адаптивное управление литературе, скорость обучения обычно называют усиление.[2]
При установке скорости обучения существует компромисс между скоростью сходимости и превышения. В то время направление спуска обычно определяется из градиент функции потерь скорость обучения определяет, насколько большой шаг будет сделан в этом направлении. Слишком высокая скорость обучения заставит обучение перескочить через минимумы, но слишком низкая скорость обучения либо займет слишком много времени, чтобы сойтись, либо застрянет в нежелательном локальном минимуме.[3]
Чтобы достичь более быстрой сходимости, предотвратить колебания и застревание в нежелательных локальных минимумах, скорость обучения часто изменяется во время обучения либо в соответствии с графиком скорости обучения, либо с использованием адаптивной скорости обучения.[4] Скорость обучения и ее настройки также могут отличаться в зависимости от параметра, и в этом случае это диагональная матрица что можно интерпретировать как приближение к обратный из Матрица Гессе в Метод Ньютона.[5] Скорость обучения связана с длиной шага, определяемой неточными линейный поиск в квазиньютоновские методы и соответствующие алгоритмы оптимизации.[6][7]
График обучения
График скорости обучения изменяет скорость обучения во время обучения и чаще всего меняется между эпохами / итерациями. В основном это делается с двумя параметрами: распад и импульс . Существует много разных графиков скорости обучения, но наиболее распространенными являются: по времени, по шагам и экспоненциальный.[4]
Распад служит для размещения обучения в удобном месте и предотвращения колебаний, ситуации, которая может возникнуть, когда слишком высокая постоянная скорость обучения заставляет обучение прыгать вперед и назад через минимум и контролируется гиперпараметром.
Импульс аналогичен мячу, катящемуся с холма; мы хотим, чтобы мяч остановился в самой низкой точке холма (соответствующей наименьшей ошибке). Momentum ускоряет обучение (увеличивает скорость обучения), когда градиент стоимости ошибки движется в одном направлении в течение длительного времени, а также позволяет избежать локальных минимумов за счет «перекатывания» небольших выступов. Импульс управляется гиперпараметром, аналогичным массе шара, который должен выбираться вручную - слишком высокий, и мяч перекатывается через минимумы, которые мы хотим найти, слишком низкий, и он не будет выполнять свою задачу. Формула факторизации импульса сложнее, чем разложение, но чаще всего встроено в библиотеки глубокого обучения, такие как Керас.
По времени расписания обучения изменяют скорость обучения в зависимости от скорости обучения предыдущей итерации. С учетом спада математическая формула скорости обучения:
где скорость обучения, параметр распада и - шаг итерации.
Пошаговый расписания обучения изменяют скорость обучения в соответствии с некоторыми заранее определенными шагами. Формула применения распада здесь определяется как:
где скорость обучения на итерации , начальная скорость обучения, насколько скорость обучения должна изменяться при каждом падении (0,5 соответствует уменьшению вдвое) и соответствует скорости сброса или тому, как часто скорость должна снижаться (10 соответствует снижению каждые 10 итераций). В этаж здесь функция сбрасывает значение своего ввода до 0 для всех значений меньше 1.
Экспоненциальный расписания обучения аналогичны пошаговым, но вместо шагов используется убывающая экспоненциальная функция. Математическая формула для учета распада:
где - параметр распада.
Адаптивная скорость обучения
Проблема с расписаниями скорости обучения заключается в том, что все они зависят от гиперпараметров, которые должны выбираться вручную для каждого конкретного сеанса обучения, и могут сильно различаться в зависимости от решаемой задачи или используемой модели. Для борьбы с этим существует множество различных типов алгоритмов адаптивного градиентного спуска, таких как Адаград, Ададелта, RMSprop, Адам которые обычно встроены в библиотеки глубокого обучения, такие как Керас.
Смотрите также
использованная литература
- ^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива. Кембридж: MIT Press. п. 247. ISBN 978-0-262-01802-9.
- ^ Делион, Бернар (2000). «Стохастическая аппроксимация с убывающим усилением: сходимость и асимптотическая теория». Неопубликованные конспекты лекций. Université de Rennes.
- ^ Будума, Нихил; Locascio, Николас (2017). Основы глубокого обучения: разработка алгоритмов машинного интеллекта нового поколения. О'Рейли. п. 21. ISBN 978-1-4919-2558-4.
- ^ а б Паттерсон, Джош; Гибсон, Адам (2017). «Понимание темпов обучения». Глубокое обучение: подход практикующего специалиста. О'Рейли. С. 258–263. ISBN 978-1-4919-1425-0.
- ^ Рудер, Себастьян (2017). «Обзор алгоритмов оптимизации градиентного спуска». arXiv:1609.04747. Bibcode:2016arXiv160904747R. Цитировать журнал требует
| журнал =
(Помогите) - ^ Нестеров, Ю. (2004). Вводные лекции по выпуклой оптимизации: базовый курс. Бостон: Клувер. п. 25. ISBN 1-4020-7553-7.
- ^ Диксон, Л. К. У. (1972). «Выбор длины шага, решающий фактор в производительности алгоритмов переменной метрики». Численные методы нелинейной оптимизации.. Лондон: Academic Press. С. 149–170. ISBN 0-12-455650-7.
дальнейшее чтение
- Жерон, Орелиен (2017). «Градиентный спуск». Практическое машинное обучение с помощью Scikit-Learn и TensorFlow. О'Рейли. С. 113–124. ISBN 978-1-4919-6229-9.
- Плагианакос, В. П .; Magoulas, G.D .; Врахатис, М. Н. (2001). «Адаптация скорости обучения при стохастическом градиентном спуске». Достижения в области выпуклого анализа и глобальной оптимизации. Kluwer. С. 433–444. ISBN 0-7923-6942-4.
внешние ссылки
- де Фрейтас, Нандо (12 февраля 2015 г.). «Оптимизация». Лекция по глубокому обучению 6. Оксфордский университет - через YouTube.