В статистическая классификация, то Байесовский классификатор сводит к минимуму вероятность ошибочной классификации.[1]
Определение
Предположим, что пара
принимает значения в
, куда
это метка класса
. Это означает, что условное распределение из Икс, учитывая, что этикетка Y принимает значение р дан кем-то
за 
куда "
"означает" распространяется как ", и где
обозначает распределение вероятностей.
А классификатор это правило, которое назначает наблюдение Икс=Икс предположение или оценка того, что ненаблюдаемая метка Y=р на самом деле было. Теоретически классификатор - это измеримая функция.
, с интерпретацией, что C классифицирует точку Икс к классу C(Икс). Вероятность ошибочной классификации, или рисковать, классификатора C определяется как

Классификатор Байеса

На практике, как и в большинстве статистических данных, трудности и тонкости связаны с эффективным моделированием вероятностных распределений - в данном случае
. Классификатор Байеса - полезный ориентир в статистическая классификация.
Избыточный риск общего классификатора
(возможно, в зависимости от некоторых данных обучения) определяется как
Таким образом, эта неотрицательная величина важна для оценки эффективности различных методов классификации. Классификатор называется последовательный если избыточный риск сходится к нулю, поскольку размер обучающего набора данных стремится к бесконечности.[2]
Доказательство оптимальности
Доказательство того, что классификатор Байеса оптимален и Коэффициент байесовских ошибок минимально происходит следующим образом.
Определите переменные: риск
, Байесовский риск
, все возможные классы, к которым могут быть отнесены точки
. Пусть апостериорная вероятность точки, принадлежащей классу 1, равна
. Определите классификатор
в качестве

Тогда мы получаем следующие результаты:
(а)
, т.е.
классификатор Байеса,
(б) Для любого классификатора
, то чрезмерный риск удовлетворяет ![{ Displaystyle R (ч) -R ^ {*} = 2 mathbb {E} _ {X} left [| eta (x) -0,5 | cdot mathbb {I} _ { left {h (X) neq h ^ {*} (X) right }} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/92a2fec73684d3551d08cf02e2c48ed1005af28d)
(c) ![{ Displaystyle R ^ {*} = mathbb {E} _ {X} left [ min ( eta (X), 1- eta (X)) right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/fa3bb978cc7e2b5d3664f9051f7562943ddf73fc)
Доказательство (а): для любого классификатора
, у нас есть
![{ Displaystyle { begin {align} R (h) & = mathbb {E} _ {XY} left [ mathbb {I} _ { left {h (X) neq Y right }} right] & = mathbb {E} mathbb {E} _ {Y | X} [ mathbb {I} _ { left {h (X) neq Y right }}] & = mathbb {E} _ {X} [ eta (X) mathbb {I} _ { left {h (X) = 0 right }} + (1- eta (X)) mathbb {I} _ { left {h (X) = 1 right }}] end {выравнивается}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/46a9f1efbe207c4208cb23bff0ccdd3f73a97ce6)
Заметь
сводится к минимуму, принимая
,

Следовательно, минимально возможный риск - это риск Байеса,
.
Доказательство (b):
![{ displaystyle { begin {align} R (h) -R ^ {*} & = R (h) -R (h ^ {*}) & = mathbb {E} _ {X} [ eta (X) mathbb {I} _ { left {h (X) = 0 right }} + (1- eta (X)) mathbb {I} _ { left {h (X) = 1 right }} - eta (X) mathbb {I} _ { left {h ^ {*} (X) = 0 right }} - (1- eta (X)) mathbb {I} _ { left {h ^ {*} (X) = 1 right }}] & = mathbb {E} _ {X} [| 2 eta (X) -1 | mathbb {I} _ { left {h (X) neq h ^ {*} (X) right }}] & = 2 mathbb {E} _ {X} [| eta ( X) -0,5 | mathbb {I} _ { left {h (X) neq h ^ {*} (X) right }}] end {align}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b0340d50b1dd24e974c522f8ea9c59e2bcbeef3f)
Доказательство (c):
![{ displaystyle { begin {align} R (h ^ {*}) & = mathbb {E} _ {X} [ eta (X) mathbb {I} _ { left {h ^ {*} (X) = 0 right }} + (1- eta (X)) mathbb {I} _ { left {h * (X) = 1 right }}] & = mathbb {E} _ {X} [ min ( eta (X), 1- eta (X))] end {align}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/01df273ced4bc3702c2210244ef440c44f67bac6)
Общий случай, когда байесовский классификатор минимизирует ошибку классификации, когда каждый элемент может принадлежать любому из п категорий исходит из завышенных ожиданий следующим образом.
![{ displaystyle { begin {align} mathbb {E} ( mathbb {I} _ { {y neq { hat {y}} }}) & = mathbb {E} mathbb {E} left ( mathbb {I} _ { {y neq { hat {y}} }} | X = x right) & = mathbb {E} left [Pr (Y = 1 | X = x) mathbb {I} _ { {{ hat {y}} = 2,3, dots, n }} + Pr (Y = 2 | X = x) mathbb {I} _ { {{ hat {y}} = 1,3, dots, n }} + dots + Pr (Y = n | X = x) mathbb {I} _ { {{ hat {y} } = 1,2,3, точки, n-1 }} right] end {выровнены}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/28899b9bdb3f5a9e6b66a3d7b1bad87ed0e9d464)
Это минимизируется путем классификации

за каждое наблюдение Икс.
Смотрите также
Рекомендации