Байесовский классификатор - Bayes classifier

В статистическая классификация, то Байесовский классификатор сводит к минимуму вероятность ошибочной классификации.^[1]

Определение

Предположим, что пара ${ displaystyle (X, Y)}$ принимает значения в ${ Displaystyle mathbb {R} ^ {d} times {1,2, точки, K }}$ , куда ${ displaystyle Y}$ это метка класса ${ displaystyle X}$ . Это означает, что условное распределение из Икс, учитывая, что этикетка Y принимает значение р дан кем-то

{ displaystyle X mid Y = r sim P_ {r}}

за

{ Displaystyle г = 1,2, точки, К}

куда " ${ displaystyle sim}$ "означает" распространяется как ", и где ${ displaystyle P_ {r}}$ обозначает распределение вероятностей.

А классификатор это правило, которое назначает наблюдение Икс=Икс предположение или оценка того, что ненаблюдаемая метка Y=р на самом деле было. Теоретически классификатор - это измеримая функция. ${ Displaystyle C: mathbb {R} ^ {d} to {1,2, точки, K }}$ , с интерпретацией, что C классифицирует точку Икс к классу C(Икс). Вероятность ошибочной классификации, или рисковать, классификатора C определяется как

{ displaystyle { mathcal {R}} (C) = operatorname {P} {C (X) neq Y }.}

Классификатор Байеса

{ displaystyle C ^ { text {Bayes}} (x) = { underset {r in {1,2, dots, K }} { operatorname {argmax}}} operatorname {P} ( Y = r mid X = x).}

На практике, как и в большинстве статистических данных, трудности и тонкости связаны с эффективным моделированием вероятностных распределений - в данном случае ${ Displaystyle OperatorName {P} (Y = r mid X = x)}$ . Классификатор Байеса - полезный ориентир в статистическая классификация.

Избыточный риск общего классификатора ${ displaystyle C}$ (возможно, в зависимости от некоторых данных обучения) определяется как ${ displaystyle { mathcal {R}} (C) - { mathcal {R}} (C ^ { text {Bayes}}).}$ Таким образом, эта неотрицательная величина важна для оценки эффективности различных методов классификации. Классификатор называется последовательный если избыточный риск сходится к нулю, поскольку размер обучающего набора данных стремится к бесконечности.^[2]

Доказательство оптимальности

Доказательство того, что классификатор Байеса оптимален и Коэффициент байесовских ошибок минимально происходит следующим образом.

Определите переменные: риск ${ displaystyle R (h)}$ , Байесовский риск ${ Displaystyle R ^ {*}}$ , все возможные классы, к которым могут быть отнесены точки ${ Displaystyle Y = {0,1 }}$ . Пусть апостериорная вероятность точки, принадлежащей классу 1, равна ${ displaystyle eta (x) = Pr (Y = 1 | X = x)}$ . Определите классификатор ${ displaystyle { mathcal {h}} ^ {*}}$ в качестве

${ displaystyle { mathcal {h}} ^ {*} (x) = { begin {cases} 1 &, eta (x) geqslant 0.5 0 &, eta (x) <0.5 end {cases} }}$

Тогда мы получаем следующие результаты:

(а) ${ Displaystyle R (час ^ {*}) = R ^ {*}}$ , т.е. ${ displaystyle h ^ {*}}$ классификатор Байеса,

(б) Для любого классификатора ${ displaystyle h}$ , то чрезмерный риск удовлетворяет ${ Displaystyle R (ч) -R ^ {*} = 2 mathbb {E} _ {X} left [| eta (x) -0,5 | cdot mathbb {I} _ { left {h (X) neq h ^ {*} (X) right }} right]}$

(c) ${ Displaystyle R ^ {*} = mathbb {E} _ {X} left [ min ( eta (X), 1- eta (X)) right]}$

Доказательство (а): для любого классификатора ${ displaystyle h}$ , у нас есть

${ Displaystyle { begin {align} R (h) & = mathbb {E} _ {XY} left [ mathbb {I} _ { left {h (X) neq Y right }} right] & = mathbb {E} mathbb {E} _ {Y | X} [ mathbb {I} _ { left {h (X) neq Y right }}] & = mathbb {E} _ {X} [ eta (X) mathbb {I} _ { left {h (X) = 0 right }} + (1- eta (X)) mathbb {I} _ { left {h (X) = 1 right }}] end {выровнено}}}$

Заметь ${ displaystyle R (h)}$ сводится к минимуму, принимая ${ displaystyle forall x in X}$ ,

${ displaystyle h (x) = { begin {cases} 1 &, eta (x) geqslant 1- eta (x) 0 &, { text {else}} end {cases}}}$

Следовательно, минимально возможный риск - это риск Байеса, ${ Displaystyle R ^ {*} = R (ч ^ {*})}$ .

Доказательство (b):

${ displaystyle { begin {align} R (h) -R ^ {*} & = R (h) -R (h ^ {*}) & = mathbb {E} _ {X} [ eta (X) mathbb {I} _ { left {h (X) = 0 right }} + (1- eta (X)) mathbb {I} _ { left {h (X) = 1 right }} - eta (X) mathbb {I} _ { left {h ^ {*} (X) = 0 right }} - (1- eta (X)) mathbb {I} _ { left {h ^ {*} (X) = 1 right }}] & = mathbb {E} _ {X} [| 2 eta (X) -1 | mathbb {I} _ { left {h (X) neq h ^ {*} (X) right }}] & = 2 mathbb {E} _ {X} [| eta ( X) -0,5 | mathbb {I} _ { left {h (X) neq h ^ {*} (X) right }}] end {align}}}$

Доказательство (c):

${ displaystyle { begin {align} R (h ^ {*}) & = mathbb {E} _ {X} [ eta (X) mathbb {I} _ { left {h ^ {*} (X) = 0 right }} + (1- eta (X)) mathbb {I} _ { left {h * (X) = 1 right }}] & = mathbb {E} _ {X} [ min ( eta (X), 1- eta (X))] end {align}}}$

Общий случай, когда байесовский классификатор минимизирует ошибку классификации, когда каждый элемент может принадлежать любому из п категорий исходит из завышенных ожиданий следующим образом.

${ displaystyle { begin {align} mathbb {E} ( mathbb {I} _ { {y neq { hat {y}} }}) & = mathbb {E} mathbb {E} left ( mathbb {I} _ { {y neq { hat {y}} }} | X = x right) & = mathbb {E} left [Pr (Y = 1 | X = x) mathbb {I} _ { {{ hat {y}} = 2,3, dots, n }} + Pr (Y = 2 | X = x) mathbb {I} _ { {{ hat {y}} = 1,3, dots, n }} + dots + Pr (Y = n | X = x) mathbb {I} _ { {{ hat {y} } = 1,2,3, точки, n-1 }} right] end {выровнены}}}$

Это минимизируется путем классификации

${ Displaystyle час (х) = к, четырехъядерный arg max _ {k} Pr (Y = k | X = x)}$

за каждое наблюдение Икс.

Смотрите также

Наивный байесовский классификатор

Байесовский классификатор - Bayes classifier

Содержание

Определение

Доказательство оптимальности

Смотрите также

Рекомендации