Масштабирование Платта - Platt scaling

В машинное обучение, Масштабирование Платта или же Платта калибровка это способ преобразования выходов модель классификации в распределение вероятностей по классам. Метод был изобретен Джон Платт в контексте опорные векторные машины,[1]замена более раннего метода на Вапник, но может применяться к другим моделям классификации.[2]Масштабирование Platt работает путем установки логистическая регрессия модель в баллы классификатора.

Описание

Рассмотрим проблему двоичная классификация: для входов Икс, мы хотим определить, принадлежат ли они к одному из двух классов, произвольно обозначенных +1 и −1. Мы предполагаем, что задача классификации будет решена действительной функцией ж, предсказывая метку класса y = знак (ж(Икс)).[а] Для многих задач удобно получить вероятность П(y=1|Икс), то есть классификация, которая не только дает ответ, но и дает определенную степень уверенности в ответе. Некоторые модели классификации не предоставляют такую ​​вероятность или дают плохие оценки вероятности.

Масштабирование Платта - это алгоритм для решения вышеупомянутой проблемы. Он производит оценки вероятности

,

т.е. логистика преобразование оценок классификатора ж(Икс), куда А и B два скаляр параметры, которые узнает алгоритм. Обратите внимание, что теперь прогнозы можно делать в соответствии с y = 1 если только П(y=1|Икс) > 1/2; если B ≠ 0, оценки вероятности содержат поправку по сравнению со старой решающей функцией y = знак (ж(Икс)).[3]

Параметры А и B оцениваются с использованием максимальная вероятность метод, который оптимизируется на том же наборе обучения, что и для исходного классификатора ж. Избежать переоснащение к этому набору протянул калибровочный набор или же перекрестная проверка можно использовать, но Платт дополнительно предлагает преобразовать метки y нацеливать вероятности

для положительных образцов (y = 1), и
для отрицательных образцов, y = -1.

Здесь, N+ и N - количество положительных и отрицательных образцов соответственно. Это преобразование следует путем применения Правило Байеса к модели данных вне выборки, которая имеет одинаковый приоритет над метками.[1] Константы 1 и 2 в числителе и знаменателе соответственно получены с помощью сглаживания Лапласа.

Сам Платт предложил использовать Алгоритм Левенберга-Марквардта для оптимизации параметров, но Алгоритм Ньютона позже было предложено, что должно быть больше численно стабильный.[4]

Анализ

Масштабирование Платта оказалось эффективным для SVM, а также для других типов классификационных моделей, включая усиленный модели и даже наивные байесовские классификаторы, которые создают искаженные распределения вероятностей. Это особенно эффективно для методов максимальной маржи, таких как SVM и усиленные деревья, которые показывают сигмоидальные искажения в их прогнозируемых вероятностях, но имеют меньший эффект с хорошооткалиброванный такие модели как логистическая регрессия, многослойные персептроны, и случайные леса.[2]

Альтернативный подход к калибровке вероятности - подгонка изотоническая регрессия модель к плохо откалиброванной вероятностной модели. Было показано, что это работает лучше, чем масштабирование Платта, в частности, когда доступно достаточно данных для обучения.[2]

Смотрите также

Примечания

  1. ^ Видеть функция знака. Этикетка для ж(Икс) = 0 произвольно выбирается равным нулю или единице.

Рекомендации

  1. ^ а б Платт, Джон (1999). «Вероятностные выходы для опорных векторных машин и сравнения с регуляризованными методами правдоподобия». Достижения в классификаторах с большой маржой. 10 (3): 61–74.
  2. ^ а б c Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с помощью контролируемого обучения (PDF). ICML. Дои:10.1145/1102351.1102430.
  3. ^ Оливье Шапель; Владимир Вапник; Оливье Буске; Саян Мукерджи (2002). «Выбор нескольких параметров для опорных векторных машин» (PDF). Машинное обучение. 46: 131–159. Дои:10.1023 / а: 1012450327387.
  4. ^ Линь Сюань-Тянь; Линь, Чи-Джен; Вен, Руби С. (2007). «Заметка о вероятностных выходах Платта для машин опорных векторов» (PDF). Машинное обучение. 68 (3): 267–276. Дои:10.1007 / s10994-007-5018-6.