Средняя абсолютная ошибка - Mean absolute error

В статистика, средняя абсолютная ошибка (MAE) является мерой ошибки между парными наблюдениями, выражающими одно и то же явление. Примеры Y против Икс включают сравнения прогнозируемого и наблюдаемого, последующего времени и начального времени, а также один метод измерения по сравнению с альтернативным методом измерения. MAE рассчитывается как:

[1]

Таким образом, это среднее арифметическое абсолютных ошибок. , куда это предсказание и истинное значение. Обратите внимание, что альтернативные составы могут включать относительные частоты в качестве весовых коэффициентов. Средняя абсолютная ошибка использует ту же шкалу, что и измеряемые данные. Это известно как мера точности, зависящая от масштаба, и поэтому не может использоваться для сравнения серий с использованием разных шкал.[2] Средняя абсолютная ошибка - это обычная мера ошибка прогноза в анализ временных рядов,[3] иногда используется в замешательстве с более стандартным определением среднее абсолютное отклонение. Та же путаница существует и в целом.

Несогласие по количеству и разногласию по распределению

2 точки данных, для которых количество разногласий равно 0, а несогласие распределения равно 2 как для MAE, так и для RMSE

MAE можно выразить как сумму двух компонентов: несогласия по количеству и несогласие в распределении. Количественное несоответствие - это абсолютное значение средней ошибки, определяемое по формуле:

[4]

Несогласие в распределении - это MAE минус несогласие по количеству.

Также можно определить типы различий, посмотрев на участок. Количественная разница существует, когда среднее значение X не равно среднему значению Y. Разница в размещении существует тогда и только тогда, когда точки находятся по обе стороны от линии идентичности.[4][5]

Связанные меры

Средняя абсолютная ошибка - это один из способов сравнения прогнозов с их окончательными результатами. Хорошо зарекомендовавшие себя альтернативы средняя абсолютная масштабированная ошибка (MASE) и среднеквадратичная ошибка. Все они суммируют производительность таким образом, чтобы игнорировать направление завышенного или заниженного прогноза; мерой, которая делает акцент на этом, является средняя знаковая разница.

Если модель прогнозирования должна быть адаптирована с использованием выбранной меры производительности в том смысле, что наименьших квадратов подход связан с среднеквадратичная ошибка, эквивалент средней абсолютной ошибки равен наименьшие абсолютные отклонения.

MAE не идентично RMSE (Средняя квадратическая ошибка ), но некоторые исследователи сообщают и интерпретируют RMSE так, как будто RMSE отражает измерение, которое дает MAE. MAE концептуально проще и понятнее, чем RMSE. MAE не требует использования квадратов или квадратных корней. Использование квадратов расстояний затрудняет интерпретацию RMSE. MAE - это просто среднее абсолютное расстояние по вертикали или горизонтали между каждой точкой диаграммы рассеяния и линией Y = X. Другими словами, MAE - это средняя абсолютная разница между X и Y. MAE принципиально легче понять, чем квадратный корень из среднего квадрата отклонений. Более того, каждая ошибка вносит вклад в MAE пропорционально абсолютному значению ошибки, что неверно для RMSE; поскольку RMSE включает возведение в квадрат разницы между X и Y, несколько больших различий увеличивают RMSE в большей степени, чем MAE.[4] См. Пример выше для иллюстрации этих различий.

Свойство оптимальности

В средняя абсолютная ошибка реальной переменной c с уважением к случайная переменная  Икс является

При условии, что распределение вероятностей Икс такова, что указанное выше ожидание существует, то м это медиана из Икс если и только если м является минимизатором средней абсолютной ошибки относительно Икс.[6] Особенно, м является выборочной медианой тогда и только тогда, когда м минимизирует среднее арифметическое абсолютных отклонений.[7]

В более общем смысле медиана определяется как минимум

как обсуждалось на Многомерная медиана (и особенно в Пространственная медиана ).

Это основанное на оптимизации определение медианы полезно при статистическом анализе данных, например, в kкластеризация медианы.

Доказательство оптимальности

Утверждение: классификатор, минимизирующий является .

Доказательство:

В Функции потерь для классификации является

Дифференциация по а дает

Это означает

Следовательно

Смотрите также

Рекомендации

  1. ^ Уиллмотт, Корт Дж .; Мацуура, Кендзи (19 декабря 2005 г.). «Преимущества средней абсолютной ошибки (MAE) над среднеквадратичной ошибкой (RMSE) при оценке средней производительности модели». Климатические исследования. 30: 79–82. Дои:10.3354 / cr030079.
  2. ^ «2.5 Оценка точности прогнозов | OTexts». www.otexts.org. Получено 2016-05-18.
  3. ^ Гайндман, Р. и Келер А. (2005). «Еще один взгляд на меры точности прогнозов» [1]
  4. ^ а б c Понтиус-младший, Роберт Гилмор; Тонттех, Олуфунмилайо; Чен, Хао (2008). «Компоненты информации для сравнения нескольких разрешений между картами, имеющими реальную переменную». Экологическая и экологическая статистика. 15 (2): 111–142. Дои:10.1007 / s10651-007-0043-у.
  5. ^ Willmott, C.J .; Мацуура, К. (январь 2006 г.). «Об использовании размерных мер ошибки для оценки производительности пространственных интерполяторов». Международный журнал географической информатики. 20: 89–102. Дои:10.1080/13658810500286976.
  6. ^ Строок, Дэниел (2011). Теория вероятности. Издательство Кембриджского университета. стр.43. ISBN  978-0-521-13250-3.
  7. ^ Николас, Андр 茅 (2012-02-25). «Медиана минимизирует сумму абсолютных отклонений (норма $ {L} _ {1} $)». StackExchange.