Перекрестная энтропия - Cross entropy

В теория информации, то кросс-энтропия между двумя распределения вероятностей ${ displaystyle p}$ и ${ displaystyle q}$ по одному и тому же базовому набору событий измеряет среднее количество биты необходимо для идентификации события, взятого из набора, если схема кодирования, используемая для набора, оптимизирована для оцененного распределения вероятностей ${ displaystyle q}$ , а не истинное распределение ${ displaystyle p}$ .

Определение

Кросс-энтропия распределения ${ displaystyle q}$ относительно распределения ${ displaystyle p}$ над заданным набором определяется следующим образом:

{ displaystyle H (p, q) = - operatorname {E} _ {p} [ log q]}

,

куда ${ Displaystyle E_ {p} [ cdot]}$ - оператор математического ожидания относительно распределения ${ displaystyle p}$ . Определение может быть сформулировано с использованием Дивергенция Кульбака – Лейблера ${ Displaystyle D _ { mathrm {KL}} (п | q)}$ из ${ displaystyle p}$ из ${ displaystyle q}$ (также известный как относительная энтропия из ${ displaystyle q}$ относительно ${ displaystyle p}$ ).

{ Displaystyle Н (п, д) = Н (р) + D _ { mathrm {KL}} (р | д)}

,

куда ${ displaystyle H (p)}$ это энтропия из ${ displaystyle p}$ .

За дискретный распределения вероятностей ${ displaystyle p}$ и ${ displaystyle q}$ с тем же поддерживать ${ displaystyle { mathcal {X}}}$ это означает

{ Displaystyle Н (п, д) = - сумма _ {х в { mathcal {X}}} р (х) , журнал д (х)}

(Уравнение 1)

Ситуация для непрерывный распределение аналогично. Мы должны предположить, что ${ displaystyle p}$ и ${ displaystyle q}$ находятся абсолютно непрерывный относительно некоторой ссылки мера ${ displaystyle r}$ (обычно ${ displaystyle r}$ это Мера Лебега на Борель σ-алгебра ). Позволять ${ displaystyle P}$ и ${ displaystyle Q}$ - функции плотности вероятности ${ displaystyle p}$ и ${ displaystyle q}$ относительно ${ displaystyle r}$ . потом

{ displaystyle - int _ { mathcal {X}} P (x) , log Q (x) , dr (x) = operatorname {E} _ {p} [- log Q]}

и поэтому

{ Displaystyle Н (п, q) = - int _ { mathcal {X}} P (x) , log Q (x) , dr (x)}

(Уравнение 2)

NB: Обозначения ${ Displaystyle Н (п, д)}$ также используется для другой концепции, совместная энтропия из ${ displaystyle p}$ и ${ displaystyle q}$ .

Мотивация

В теория информации, то Теорема Крафт – Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения ${ displaystyle x_ {i}}$ из множества возможностей ${ Displaystyle {х_ {1}, ..., х_ {п} }}$ можно рассматривать как представление неявного распределения вероятностей ${ displaystyle q (x_ {i}) = left ({ frac {1} {2}} right) ^ {l_ {i}}}$ над ${ Displaystyle {х_ {1}, ..., х_ {п} }}$ , куда ${ displaystyle l_ {i}}$ длина кода для ${ displaystyle x_ {i}}$ в битах. Следовательно, кросс-энтропия может быть интерпретирована как ожидаемая длина сообщения для данных при неправильном распределении ${ displaystyle q}$ предполагается, в то время как данные фактически соответствуют распределению ${ displaystyle p}$ . Вот почему математическое ожидание берется из истинного распределения вероятностей. ${ displaystyle p}$ и нет ${ displaystyle q}$ . Действительно, ожидаемая длина сообщения при истинном распределении ${ displaystyle p}$ является,

{ displaystyle operatorname {E} _ {p} [l] = - operatorname {E} _ {p} left [{ frac { ln {q (x)}} { ln (2)}} right] = - operatorname {E} _ {p} left [ log _ {2} {q (x)} right] = - sum _ {x_ {i}} p (x_ {i}) , log _ {2} {q (x_ {i})} = - sum _ {x} p (x) , log _ {2} q (x) = H (p, q)}

Оценка

Есть много ситуаций, когда необходимо измерить кросс-энтропию, но распределение ${ displaystyle p}$ неизвестно. Примером является языковое моделирование, где модель создается на основе обучающей выборки ${ displaystyle T}$ , а затем его перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере ${ displaystyle p}$ истинное распределение слов в любом корпусе, и ${ displaystyle q}$ - это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии рассчитывается по следующей формуле:

{ displaystyle H (T, q) = - sum _ {i = 1} ^ {N} { frac {1} {N}} log _ {2} q (x_ {i})}

куда ${ displaystyle N}$ - размер тестового набора, а ${ displaystyle q (x)}$ вероятность события ${ displaystyle x}$ оценивается из обучающей выборки. Сумма рассчитывается по ${ displaystyle N}$ . Это Оценка Монте-Карло истинной кросс-энтропии, где набор тестов рассматривается как образцы из ${ displaystyle p (x)}$ ^{[нужна цитата ]}.

Отношение к логарифмической вероятности

В задачах классификации мы хотим оценить вероятность различных исходов. Если предполагаемая вероятность исхода ${ displaystyle i}$ является ${ displaystyle q_ {i}}$ , а частота (эмпирическая вероятность) исхода ${ displaystyle i}$ в обучающем наборе есть ${ displaystyle p_ {i}}$ , а есть N условно независимый образцов в обучающем наборе, то вероятность обучающего набора равна

{ displaystyle prod _ {i} ({ mbox {вероятность}} i) ^ {{ mbox {количество вхождений}} i} = prod _ {i} q_ {i} ^ {Np_ {i }}}

поэтому логарифмическая вероятность, деленная на ${ displaystyle N}$ является

{ displaystyle { frac {1} {N}} log prod _ {i} q_ {i} ^ {Np_ {i}} = sum _ {i} p_ {i} log q_ {i} = -H (p, q)}

так что максимизация вероятности - это то же самое, что минимизация перекрестной энтропии.

Минимизация кросс-энтропии

Минимизация кросс-энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении раздачи ${ displaystyle q}$ против фиксированного распределения ссылок ${ displaystyle p}$ , кросс-энтропия и KL дивергенция идентичны с точностью до аддитивной константы (поскольку ${ displaystyle p}$ фиксировано): оба принимают свои минимальные значения, когда ${ displaystyle p = q}$ , который ${ displaystyle 0}$ для расхождения KL, и ${ displaystyle mathrm {H} (p)}$ для кросс-энтропии.^[1] В инженерной литературе принцип минимизации расхождения KL (Кульбака ")Принцип минимальной дискриминации в отношении информации ") часто называют Принцип минимальной кросс-энтропии (MCE) или Minxent.

Однако, как уже говорилось в статье Дивергенция Кульбака – Лейблера, иногда раздача ${ displaystyle q}$ - фиксированное априорное эталонное распределение, а распределение ${ displaystyle p}$ оптимизирован, чтобы быть как можно ближе к ${ displaystyle q}$ по возможности, с некоторыми ограничениями. В этом случае две минимизации нет эквивалент. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как ${ Displaystyle D _ { mathrm {KL}} (п | q)}$ , скорее, чем ${ Displaystyle Н (п, д)}$ .

Функция кроссэнтропийных потерь и логистическая регрессия

Кросс-энтропия может использоваться для определения функции потерь в машинное обучение и оптимизация. Истинная вероятность ${ displaystyle p_ {i}}$ истинная метка, и данное распределение ${ displaystyle q_ {i}}$ - прогнозируемое значение текущей модели.

В частности, рассмотрим логистическая регрессия, который (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помечаются ${ displaystyle 0}$ и ${ displaystyle 1}$ ). Выход модели для данного наблюдения с учетом вектора входных характеристик ${ displaystyle x}$ , можно интерпретировать как вероятность, которая служит основанием для классификации наблюдения. Вероятность моделируется с помощью логистическая функция ${ Displaystyle г (г) = 1 / (1 + е ^ {- z})}$ куда ${ displaystyle z}$ некоторая функция входного вектора ${ displaystyle x}$ , обычно просто линейная функция. Вероятность выхода ${ displaystyle y = 1}$ дан кем-то

{ Displaystyle q_ {Y = 1} = { hat {y}} Equiv g ( mathbf {w} cdot mathbf {x}) = 1 / (1 + e ^ {- mathbf {w} cdot mathbf {x}}),}

где вектор весов ${ displaystyle mathbf {w}}$ оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск. Точно так же дополнительная вероятность нахождения выхода ${ displaystyle y = 0}$ просто дается

{ displaystyle q_ {y = 0} = 1 - { hat {y}}}

Установив наши обозначения, ${ displaystyle p in {y, 1-y }}$ и ${ displaystyle q in {{ hat {y}}, 1 - { hat {y}} }}$ , мы можем использовать кросс-энтропию, чтобы измерить различие между ${ displaystyle p}$ и ${ displaystyle q}$ :

{ Displaystyle H (p, q) = - sum _ {i} p_ {i} log q_ {i} = -y log { hat {y}} - (1-y) журнал (1 - { hat {y}})}

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть ${ displaystyle N}$ образцы, каждый из которых проиндексирован ${ Displaystyle п = 1, точки, N}$ . В средний функции потерь тогда определяется как:

{ displaystyle { begin {align} J ( mathbf {w}) & = { frac {1} {N}} sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) = - { frac {1} {N}} sum _ {n = 1} ^ {N} { bigg [} y_ {n} log { hat {y}} _ {n} + (1-y_ {n}) log (1 - { hat {y}} _ {n}) { bigg]} ,, end {align}}}

куда ${ displaystyle { hat {y}} _ {n} Equiv g ( mathbf {w} cdot mathbf {x} _ {n}) = 1 / (1 + e ^ {- mathbf {w} cdot mathbf {x} _ {n}})}$ , с ${ displaystyle g (z)}$ логистическая функция по-прежнему.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).^[2]

Замечание: Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент квадрата потери ошибки для Линейная регрессия. То есть определить

${ displaystyle X ^ {T} = { begin {pmatrix} 1 & x_ {11} & dots & x_ {1p} 1 & x_ {21} & dots & x_ {2p} && dots 1 & x_ {n1} & точки & x_ {np} конец {pmatrix}} in mathbb {R} ^ {n times (p + 1)}}$

${ displaystyle { hat {y_ {i}}} = { hat {f}} (x_ {i1}, dots, x_ {ip}) = { frac {1} {1 + exp (- beta _ {0} - beta _ {1} x_ {i1} - dots - beta _ {p} x_ {ip})}}}$

${ displaystyle L ({ overrightarrow { beta}}) = - sum _ {i = 1} ^ {N} [y ^ {i} log { hat {y}} ^ {i} + (1 -y ^ {i}) log (1 - { hat {y}} ^ {i})]}$

Тогда у нас есть результат

${ displaystyle { frac { partial} { partial { overrightarrow { beta}}}} L ({ overrightarrow { beta}}) = X ({ hat {Y}} - Y)}$

Доказательство таково. Для любого ${ displaystyle { hat {y}} ^ {i}}$ , у нас есть

${ displaystyle { frac { partial} { partial beta _ {0}}} ln { frac {1} {1 + e ^ {- beta _ {0} + k_ {0}}}} = { frac {e ^ {- beta _ {0} + k_ {0}}} {1 + e ^ {- beta _ {0} + k_ {0}}}}}$

${ displaystyle { frac { partial} { partial beta _ {0}}} ln left (1 - { frac {1} {1 + e ^ {- beta _ {0} + k_ { 0}}}} right) = { frac {-1} {1 + e ^ {- beta _ {0} + k_ {0}}}}}$

${ Displaystyle { begin {align} { frac { partial} { partial beta _ {0}}} L ({ overrightarrow { beta}}) & = - sum _ {i = 1} ^ {N} left [{ frac {y ^ {i} cdot e ^ {- beta _ {0} + k_ {0}}} {1 + e ^ {- beta _ {0} + k_ { 0}}}} - (1-y ^ {i}) { frac {1} {1 + e ^ {- beta _ {0} + k_ {0}}}} right] & = - sum _ {i = 1} ^ {N} [y ^ {i} - { hat {y}} ^ {i}] = sum _ {i = 1} ^ {N} ({ hat {y }} ^ {я} -у ^ {я}) конец {выровнено}}}$

${ displaystyle { frac { partial} { partial beta _ {1}}} ln { frac {1} {1 + e ^ {- beta _ {1} x_ {i1} + k_ {1 }}}} = { frac {x_ {i1} e ^ {k_ {1}}} {e ^ { beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}$

${ Displaystyle { frac { partial} { partial beta _ {1}}} ln left [1 - { frac {1} {1 + e ^ {- beta _ {1} x_ {i1 } + k_ {1}}}} right] = { frac {-x_ {i1} e ^ { beta _ {1} x_ {i1}}} {e ^ { beta _ {1} x_ {i1 }} + e ^ {k_ {1}}}}}$

${ displaystyle { frac { partial} { partial beta _ {1}}} L ({ overrightarrow { beta}}) = - sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - { hat {y}} ^ {i}) = sum _ {i = 1} ^ {N} x_ {i1} ({ hat {y}} ^ {i} -y ^ {i})}$

Подобным образом в итоге получаем желаемый результат.

Смотрите также

внешняя ссылка

Перекрестная энтропия

[goodfellow2016-1] Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвиль (2016). Глубокое обучение. MIT Press. В сети

[2] Мерфи, Кевин (2012). Машинное обучение: вероятностная перспектива. Массачусетский технологический институт. ISBN 978-0262018029.

[1]

[2]