Расхождение Дженсена – Шеннона - Jensen–Shannon divergence - Wikipedia

В теория вероятности и статистика, то Дженсен –Шеннон расхождение это метод измерения сходства между двумя распределения вероятностей. Он также известен как информационный радиус (IRad)^[1] или же полное отклонение от среднего.^[2] Он основан на Дивергенция Кульбака – Лейблера, с некоторыми заметными (и полезными) отличиями, в том числе тем, что он симметричен и всегда имеет конечное значение. Квадратный корень из расхождения Дженсена – Шеннона равен метрика часто называют расстоянием Дженсена-Шеннона.^[3]^[4]^[5]

Определение

Рассмотрим множество ${ Displaystyle М _ {+} ^ {1} (А)}$ распределений вероятностей, где A - множество, снабженное некоторыми σ-алгебра измеримых подмножеств. В частности, мы можем взять A как конечное или счетное множество, все подмножества которого измеримы.

Расхождение Дженсена – Шеннона (JSD) ${ displaystyle M _ {+} ^ {1} (A) times M _ {+} ^ {1} (A) rightarrow [0, infty {})}$ симметричная и сглаженная версия Дивергенция Кульбака – Лейблера ${ Displaystyle D (P параллельно Q)}$ . Это определяется

{ displaystyle { rm {JSD}} (P parallel Q) = { frac {1} {2}} D (P parallel M) + { frac {1} {2}} D (Q parallel M)}

куда ${ Displaystyle M = { гидроразрыва {1} {2}} (P + Q)}$

Недавно было предложено обобщение дивергенции Дженсена – Шеннона с использованием абстрактных средств (таких как геометрические или гармонические средние) вместо среднего арифметического.^[6]Геометрическая дивергенция Дженсена – Шеннона (или расхождение G-Дженсена – Шеннона) дает формулу в замкнутой форме для расхождения между двумя гауссовскими распределениями, взяв среднее геометрическое.

Более общее определение, позволяющее сравнивать более двух распределений вероятностей:

{ displaystyle { rm {JSD}} _ { pi _ {1}, ldots, pi _ {n}} (P_ {1}, P_ {2}, ldots, P_ {n}) = H left ( sum _ {i = 1} ^ {n} pi _ {i} P_ {i} right) - sum _ {i = 1} ^ {n} pi _ {i} H (P_ {я})}

куда ${ displaystyle pi _ {1}, ldots, pi _ {n}}$ - веса, которые выбираются для распределений вероятностей ${ Displaystyle P_ {1}, P_ {2}, ldots, P_ {n}}$ и ${ Displaystyle H (P)}$ это Энтропия Шеннона для распространения ${ displaystyle P}$ . Для случая с двумя распределениями, описанного выше,

{ displaystyle P_ {1} = P, P_ {2} = Q, pi _ {1} = pi _ {2} = { frac {1} {2}}. }

Границы

Дивергенция Дженсена – Шеннона ограничена 1 для двух распределений вероятностей, при условии, что в одном используется логарифм с основанием 2.^[7]

{ Displaystyle 0 leq { rm {JSD}} (п параллельный Q) leq 1}

С этой нормализацией это нижняя граница для общее расстояние вариации между P и Q:

{ displaystyle { rm {JSD}} (P parallel Q) leq { frac {1} {2}} | PQ | _ {1} = { frac {1} {2}} sum _ { omega in Omega} | P ( omega) -Q ( omega) |.}

Для логарифма с основанием e или ln, который обычно используется в статистической термодинамике, верхняя граница равна ln (2):

{ Displaystyle 0 leq { rm {JSD}} (п параллель Q) leq ln (2)}

Более общая оценка, расходимость Дженсена – Шеннона ограничена ${ Displaystyle журнал _ {2} (п)}$ для более чем двух распределений вероятностей, при условии, что в одном используется логарифм по основанию 2.^[7]

{ displaystyle 0 leq { rm {JSD}} _ { pi _ {1}, ldots, pi _ {n}} (P_ {1}, P_ {2}, ldots, P_ {n} ) leq log _ {2} (n)}

Отношение к взаимной информации

Расхождение Дженсена – Шеннона - это взаимная информация между случайной величиной ${ displaystyle X}$ связано с распределение смеси между ${ displaystyle P}$ и ${ displaystyle Q}$ и бинарная индикаторная переменная ${ displaystyle Z}$ который используется для переключения между ${ displaystyle P}$ и ${ displaystyle Q}$ для производства смеси. Позволять ${ displaystyle X}$ быть некоторой абстрактной функцией на базовом наборе событий, которая хорошо различает события, и выбирает значение ${ displaystyle X}$ в соответствии с ${ displaystyle P}$ если ${ displaystyle Z = 0}$ и согласно ${ displaystyle Q}$ если ${ displaystyle Z = 1}$ , куда ${ displaystyle Z}$ равновероятно. То есть мы выбираем ${ displaystyle X}$ согласно вероятностной мере ${ Displaystyle M = (P + Q) / 2}$ , а его распределение - распределение смеси. Мы вычисляем

{ Displaystyle { begin {align} I (X; Z) & = H (X) -H (X | Z) & = - sum M log M + { frac {1} {2}} left [ sum P log P + sum Q log Q right] & = - sum { frac {P} {2}} log M- sum { frac {Q} {2}} log M + { frac {1} {2}} left [ sum P log P + sum Q log Q right] & = { frac {1} {2}} sum P left ( log P- log M right) + { frac {1} {2}} sum Q left ( log Q- log M right) & = { rm {JSD}} ( P parallel Q) end {выровненный}}}

Из приведенного выше результата следует, что расходимость Дженсена – Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена ${ Displaystyle H (Z) = 1}$ . JSD не всегда ограничен 0 и 1: верхний предел 1 возникает здесь, потому что мы рассматриваем конкретный случай, связанный с двоичной переменной ${ displaystyle Z}$ .

Тот же принцип можно применить к совместному распределению и произведению его двух предельных распределений (по аналогии с расхождением Кульбака – Лейблера и взаимной информацией) и измерить, насколько надежно можно решить, исходит ли данный ответ из совместного распределения или продукта. распределение - при условии, что это единственные две возможности.^[8]

Квантовая расходимость Дженсена – Шеннона.

Обобщение вероятностных распределений на матрицы плотности позволяет определить квантовую дивергенцию Дженсена – Шеннона (QJSD).^[9]^[10] Он определен для набора матрицы плотности ${ Displaystyle ( rho _ {1}, ldots, rho _ {n})}$ и распределение вероятностей ${ Displaystyle пи = ( пи _ {1}, ldots, пи _ {п})}$ в качестве

{ displaystyle { rm {QJSD}} ( rho _ {1}, ldots, rho _ {n}) = S left ( sum _ {i = 1} ^ {n} pi _ {i } rho _ {i} right) - sum _ {i = 1} ^ {n} pi _ {i} S ( rho _ {i})}

куда ${ Displaystyle S ( rho)}$ это энтропия фон Неймана из ${ displaystyle rho}$ . Это количество было введено в квантовая информация теории, где она называется информацией Холево: она дает верхнюю границу количества классической информации, закодированной квантовыми состояниями. ${ Displaystyle ( rho _ {1}, ldots, rho _ {n})}$ при предварительном распределении ${ displaystyle pi}$ (видеть Теорема Холево ).^[11] Квантовая расходимость Дженсена – Шеннона для ${ displaystyle pi = left ({ frac {1} {2}}, { frac {1} {2}} right)}$ а две матрицы плотности - симметричная функция, всюду определенная, ограниченная и равная нулю, только если две матрицы плотности одинаковые. Это квадрат метрики для чистые состояния,^[12] и недавно было показано, что это метрическое свойство сохраняется и для смешанных состояний.^[13]^[14] В Метрика Буреса тесно связано с квантовой расходимостью JS; это квантовый аналог Информационная метрика Fisher.

Обобщение

Нильсен ввел косую K-дивергенцию:^[15] ${ displaystyle K _ { alpha} (p || q) = mathrm {KL} (p || (1- alpha) p + alpha q) = int p (x) log { frac {p ( x)} {(1- alpha) p (x) + alpha q (x)}} mathrm {d} x.}$ Он следует однопараметрическому семейству расходимостей Дженсена – Шеннона, которое называется ${ displaystyle alpha}$ -Дивергенции Дженсена – Шеннона: ${ displaystyle mathrm {JS} _ { alpha} (p, q) = { frac {1} {2}} left (K _ { alpha} (p || q) + K _ { alpha} ( q || p) right) = mathrm {JS} _ { alpha} (q, p),}$ которое включает расхождение Дженсена – Шеннона (для ${ displaystyle alpha = { frac {1} {2}}}$ ) и половина дивергенции Джеффри (для ${ Displaystyle альфа = 1}$ ).

Приложения

Расхождение Дженсена – Шеннона применялось в биоинформатика и сравнение генома,^[16]^[17] при сравнении поверхности белка,^[18] в социальных науках,^[19] в количественном изучении истории,^[20], огненные эксперименты^[21] и в машинном обучении.^[22]

Примечания

^ Хинрих Шютце; Кристофер Д. Мэннинг (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press. п. 304. ISBN 978-0-262-13360-9.
^ Даган, Идо; Лилиан Ли; Фернандо Перейра (1997). «Основанные на сходстве методы устранения неоднозначности слов». Труды тридцать пятого ежегодного собрания ассоциации компьютерной лингвистики и восьмой конференции европейского отделения ассоциации компьютерной лингвистики: 56–63. arXiv:cmp-lg / 9708010. Bibcode:1997cmp.lg .... 8010D. Дои:10.3115/979617.979625. Получено 2008-03-09.
^ Эндрес, Д. М .; Дж. Э. Шинделин (2003). «Новая метрика для вероятностных распределений» (PDF). IEEE Trans. Инф. Теория. 49 (7): 1858–1860. Дои:10.1109 / TIT.2003.813506.
^ Ôsterreicher, F .; И. Вайда (2003). «Новый класс метрических расходимостей на вероятностных пространствах и его статистические приложения». Анна. Inst. Статист. Математика. 55 (3): 639–653. Дои:10.1007 / BF02517812.
^ Fuglede, B .; Топсе Ф. (2004). «Дивергенция Дженсена-Шеннона и вложение в гильбертово пространство» (PDF). Материалы Международного симпозиума по теории информации, 2004 г.. IEEE. п. 30. Дои:10.1109 / ISIT.2004.1365067. ISBN 978-0-7803-8280-0.
^ Нильсен, Франк (2019). «Об обобщении дивергенции Дженсена-Шеннона и JS-симметризации расстояний с использованием абстрактных средств». arXiv:1904.04017 [cs.IT ].
^ ^а ^б Лин, Дж. (1991). «Меры дивергенции на основе энтропии Шеннона» (PDF). IEEE Transactions по теории информации. 37 (1): 145–151. CiteSeerX 10.1.1.127.9167. Дои:10.1109/18.61115.
^ Шнайдман, Элад; Bialek, W; Берри, М.Дж. 2-й (2003). «Синергия, избыточность и независимость в кодах населения». Журнал неврологии. 23 (37): 11539–11553. Дои:10.1523 / JNEUROSCI.23-37-11539.2003. PMID 14684857.
^ Majtey, A .; Lamberti, P .; Прато, Д. (2005). «Расхождение Дженсена-Шеннона как мера различимости между смешанными квантовыми состояниями». Физический обзор A. 72 (5): 052310. arXiv:Quant-ph / 0508138. Bibcode:2005ПхРвА..72э2310М. Дои:10.1103 / PhysRevA.72.052310.
^ Бриет, Джоп; Харремоэс, Питер (2009). «Свойства классической и квантовой дивергенции Дженсена-Шеннона». Физический обзор A. 79 (5): 052311. arXiv:0806.4472. Bibcode:2009PhRvA..79e2311B. Дои:10.1103 / PhysRevA.79.052311.
^ Холево, А.С. (1973), «Границы количества информации, передаваемой по квантовому каналу связи», Проблемы передачи информации (на русском), 9: 3–11. Английский перевод: Пробл. Инф. Трансм., 9: 177–183 (1975) МИСТЕР456936
^ Браунштейн, Самуэль; Пещеры, Карлтон (1994). «Статистическое расстояние и геометрия квантовых состояний». Письма с физическими проверками. 72 (22): 3439–3443. Bibcode:1994ПхРвЛ..72.3439Б. Дои:10.1103 / PhysRevLett.72.3439. PMID 10056200.
^ Вироштек, Даниэль (2019). «Метрическое свойство квантовой расходимости Дженсена-Шеннона». arXiv:1910.10447.
^ Шри, Суврит (2019). «Метрики, вызванные квантовыми расхождениями Дженсена-Шеннона-Реньи и родственными расхождениями». arXiv:1911.02643.
^ Нильсен, Франк (2010). «Семейство статистических симметричных расхождений на основе неравенства Дженсена». arXiv:1009.4004 [cs.CV ].
^ Sims, GE; Jun, SR; Ву, Джорджия; Ким, SH (2009). «Сравнение генома без выравнивания с частотными профилями признаков (FFP) и оптимальным разрешением». Труды Национальной академии наук Соединенных Штатов Америки. 106 (8): 2677–82. Bibcode:2009ПНАС..106.2677С. Дои:10.1073 / pnas.0813249106. ЧВК 2634796. PMID 19188606.
^ Ицковиц, S; Hodis, E; Сегал, Э (2010). «Перекрывающиеся коды в последовательностях, кодирующих белок». Геномные исследования. 20 (11): 1582–9. Дои:10.1101 / гр.105072.110. ЧВК 2963821. PMID 20841429.
^ Офран, Y; Рост, Б (2003). «Анализ шести типов белок-белковых интерфейсов». Журнал молекулярной биологии. 325 (2): 377–87. CiteSeerX 10.1.1.6.9207. Дои:10.1016 / с0022-2836 (02) 01223-8. PMID 12488102.
^ ДеДео, Саймон; Хокинс, Роберт X. D .; Клингенштейн, Сара; Хичкок, Тим (2013). "Методы начальной загрузки для эмпирического исследования принятия решений и информационных потоков в социальных системах". Энтропия. 15 (6): 2246–2276. arXiv:1302.0907. Bibcode:2013Энтрп..15.2246Д. Дои:10.3390 / e15062246.
^ Клингенштейн, Сара; Хичкок, Тим; ДеДео, Саймон (2014). «Цивилизационный процесс в лондонском Олд-Бейли». Труды Национальной академии наук. 111 (26): 9419–9424. Bibcode:2014ПНАС..111.9419К. Дои:10.1073 / pnas.1405984111. ЧВК 4084475. PMID 24979792.
^ Флавия-Корина Митрой-Симеонидис; Ион Ангел; Никушор Минкулет (2020). «Параметрическая статистическая сложность Дженсена-Шеннона и ее приложения к натурным данным о пожаре в отсеке». Симметрия (12(1)): 22. Дои:10.3390 / sym12010022.
^ Гудфеллоу, Ян Дж .; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бинг; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенхио, Йошуа (2014). Генеративные состязательные сети. НИПС. arXiv:1406.2661. Bibcode:2014arXiv1406.2661G.

дальнейшее чтение

Фрэнк Нильсен (2010). «Семейство статистических симметричных расхождений на основе неравенства Дженсена». arXiv:1009.4004 [cs.CV ].

внешняя ссылка

[1] Хинрих Шютце; Кристофер Д. Мэннинг (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press. п. 304. ISBN 978-0-262-13360-9.

[2] Даган, Идо; Лилиан Ли; Фернандо Перейра (1997). «Основанные на сходстве методы устранения неоднозначности слов». Труды тридцать пятого ежегодного собрания ассоциации компьютерной лингвистики и восьмой конференции европейского отделения ассоциации компьютерной лингвистики: 56–63. arXiv:cmp-lg / 9708010. Bibcode:1997cmp.lg .... 8010D. Дои:10.3115/979617.979625. Получено 2008-03-09.

[3] Эндрес, Д. М .; Дж. Э. Шинделин (2003). «Новая метрика для вероятностных распределений» (PDF). IEEE Trans. Инф. Теория. 49 (7): 1858–1860. Дои:10.1109 / TIT.2003.813506.

[4] Ôsterreicher, F .; И. Вайда (2003). «Новый класс метрических расходимостей на вероятностных пространствах и его статистические приложения». Анна. Inst. Статист. Математика. 55 (3): 639–653. Дои:10.1007 / BF02517812.

[5] Fuglede, B .; Топсе Ф. (2004). «Дивергенция Дженсена-Шеннона и вложение в гильбертово пространство» (PDF). Материалы Международного симпозиума по теории информации, 2004 г.. IEEE. п. 30. Дои:10.1109 / ISIT.2004.1365067. ISBN 978-0-7803-8280-0.

[6] Нильсен, Франк (2019). «Об обобщении дивергенции Дженсена-Шеннона и JS-симметризации расстояний с использованием абстрактных средств». arXiv:1904.04017 [cs.IT ].

[Lin-7] а ^б Лин, Дж. (1991). «Меры дивергенции на основе энтропии Шеннона» (PDF). IEEE Transactions по теории информации. 37 (1): 145–151. CiteSeerX 10.1.1.127.9167. Дои:10.1109/18.61115.

[8] Шнайдман, Элад; Bialek, W; Берри, М.Дж. 2-й (2003). «Синергия, избыточность и независимость в кодах населения». Журнал неврологии. 23 (37): 11539–11553. Дои:10.1523 / JNEUROSCI.23-37-11539.2003. PMID 14684857.

[9] Majtey, A .; Lamberti, P .; Прато, Д. (2005). «Расхождение Дженсена-Шеннона как мера различимости между смешанными квантовыми состояниями». Физический обзор A. 72 (5): 052310. arXiv:Quant-ph / 0508138. Bibcode:2005ПхРвА..72э2310М. Дои:10.1103 / PhysRevA.72.052310.

[briet-10] Бриет, Джоп; Харремоэс, Питер (2009). «Свойства классической и квантовой дивергенции Дженсена-Шеннона». Физический обзор A. 79 (5): 052311. arXiv:0806.4472. Bibcode:2009PhRvA..79e2311B. Дои:10.1103 / PhysRevA.79.052311.

[11] Холево, А.С. (1973), «Границы количества информации, передаваемой по квантовому каналу связи», Проблемы передачи информации (на русском), 9: 3–11. Английский перевод: Пробл. Инф. Трансм., 9: 177–183 (1975) МИСТЕР456936

[12] Браунштейн, Самуэль; Пещеры, Карлтон (1994). «Статистическое расстояние и геометрия квантовых состояний». Письма с физическими проверками. 72 (22): 3439–3443. Bibcode:1994ПхРвЛ..72.3439Б. Дои:10.1103 / PhysRevLett.72.3439. PMID 10056200.

[13] Вироштек, Даниэль (2019). «Метрическое свойство квантовой расходимости Дженсена-Шеннона». arXiv:1910.10447.

[14] Шри, Суврит (2019). «Метрики, вызванные квантовыми расхождениями Дженсена-Шеннона-Реньи и родственными расхождениями». arXiv:1911.02643.

[nielsen-15] Нильсен, Франк (2010). «Семейство статистических симметричных расхождений на основе неравенства Дженсена». arXiv:1009.4004 [cs.CV ].

[Sims-16] Sims, GE; Jun, SR; Ву, Джорджия; Ким, SH (2009). «Сравнение генома без выравнивания с частотными профилями признаков (FFP) и оптимальным разрешением». Труды Национальной академии наук Соединенных Штатов Америки. 106 (8): 2677–82. Bibcode:2009ПНАС..106.2677С. Дои:10.1073 / pnas.0813249106. ЧВК 2634796. PMID 19188606.

[It-17] Ицковиц, S; Hodis, E; Сегал, Э (2010). «Перекрывающиеся коды в последовательностях, кодирующих белок». Геномные исследования. 20 (11): 1582–9. Дои:10.1101 / гр.105072.110. ЧВК 2963821. PMID 20841429.

[Ofran-18] Офран, Y; Рост, Б (2003). «Анализ шести типов белок-белковых интерфейсов». Журнал молекулярной биологии. 325 (2): 377–87. CiteSeerX 10.1.1.6.9207. Дои:10.1016 / с0022-2836 (02) 01223-8. PMID 12488102.

[DeDeo-19] ДеДео, Саймон; Хокинс, Роберт X. D .; Клингенштейн, Сара; Хичкок, Тим (2013). "Методы начальной загрузки для эмпирического исследования принятия решений и информационных потоков в социальных системах". Энтропия. 15 (6): 2246–2276. arXiv:1302.0907. Bibcode:2013Энтрп..15.2246Д. Дои:10.3390 / e15062246.

[Klingenstein-20] Клингенштейн, Сара; Хичкок, Тим; ДеДео, Саймон (2014). «Цивилизационный процесс в лондонском Олд-Бейли». Труды Национальной академии наук. 111 (26): 9419–9424. Bibcode:2014ПНАС..111.9419К. Дои:10.1073 / pnas.1405984111. ЧВК 4084475. PMID 24979792.

[21] Флавия-Корина Митрой-Симеонидис; Ион Ангел; Никушор Минкулет (2020). «Параметрическая статистическая сложность Дженсена-Шеннона и ее приложения к натурным данным о пожаре в отсеке». Симметрия (12(1)): 22. Дои:10.3390 / sym12010022.

[22] Гудфеллоу, Ян Дж .; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бинг; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенхио, Йошуа (2014). Генеративные состязательные сети. НИПС. arXiv:1406.2661. Bibcode:2014arXiv1406.2661G.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]