Детерминированный шум - Deterministic noise

В (контролируемое) машинное обучение особенно при обучении на данных, бывают ситуации, когда значения данных не могут быть смоделированы. Это может возникнуть, если есть случайные флуктуации или ошибки измерения в данных, которые не моделируются и могут быть соответствующим образом названы стохастический шум; или, когда моделируемое (или изучаемое) явление слишком сложно, и поэтому данные содержат эту дополнительную сложность, которая не моделируется. Эта дополнительная сложность данных была названа детерминированный шум.[1] Хотя эти два типа шума возникают по разным причинам, их неблагоприятное влияние на обучение одинаково. Переобучение происходит из-за того, что модель пытается подобрать (стохастический или детерминированный) шум (ту часть данных, которую она не может смоделировать) за счет подгонки той части данных, которую она может моделировать. Когда присутствует какой-либо тип шума, обычно рекомендуется упорядочить алгоритм обучения для предотвращения переоснащение модель к данным и получение худшей производительности. Регуляризация обычно приводит к модели с более низкой дисперсией за счет предвзятость.

Можно также попытаться уменьшить воздействие шума с помощью обнаружение и удаление зашумленных обучающих примеров перед обучением алгоритма обучения с учителем. Существует несколько алгоритмов, которые идентифицируют примеры обучения с шумом, и удаление предполагаемых примеров обучения с шумом перед обучением обычно улучшает производительность.[2][3]

Рекомендации

  1. ^ Ясер С.Абу-Мостафа; Малик Магдон-Исмаил; Сюань-Тянь Линь (март 2012 г.). Изучение данных. amlbook.
  2. ^ К.Е. Бродели и М.А.Фридл (1999). Выявление и устранение неправильно маркированных учебных заведений, журнал исследований искусственного интеллекта 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf В архиве 2016-05-12 в Wayback Machine )
  3. ^ Мистер Смит; Т. Мартинес (2011). «Повышение точности классификации путем выявления и удаления экземпляров, которые должны быть неправильно классифицированы». Труды международной совместной конференции по нейронным сетям (IJCNN 2011). С. 2690–2697. Дои:10.1109 / IJCNN.2011.6033571.