Метрика Вассерштейна - Wasserstein metric

В математика, то Расстояние Вассерштейна или же Метрика Канторовича – Рубинштейна это функция расстояния определяется между распределения вероятностей на данном метрическое пространство .

Интуитивно, если рассматривать каждое распределение как единицу количества земли (почвы), насыпанной на , метрика - это минимальная «стоимость» превращения одной сваи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее нужно переместить. По этой аналогии метрика известна в Информатика как расстояние землекопа.

Название «расстояние Вассерштайна» было придумано Р. Л. Добрушин в 1970 году, после русский математик Леонид Васерштейн кто представил концепцию в 1969 году. английский -языковые публикации используют Немецкий написание «Вассерштейн» (приписывается имени «Васерштейн» Немецкий источник).

Определение

Позволять быть метрическое пространство для которого каждая вероятностная мера на это Радоновая мера (так называемый Радоновое пространство ). За , позволять обозначают совокупность всех вероятностных мер на с конечным момент. Тогда существует некая в такой, что:

В Расстояние Вассерштейна между двумя вероятностными мерами и в определяется как

куда обозначает совокупность всех мер на с маргиналы и по первому и второму факторам соответственно. (Набор также называется набором всех муфты из и .)

Вышеуказанное расстояние обычно обозначают (обычно среди авторов, предпочитающих написание "Вассерштейн") или (обычно среди авторов, предпочитающих написание "Васерштейн"). В оставшейся части этой статьи будет использоваться обозначение.

Метрика Вассерштейна может быть эквивалентно определена следующим образом:

куда обозначает ожидаемое значение из случайная переменная и инфимум берется по всем совместным распределениям случайных величин и с маргиналами и соответственно.

Интуиция и подключение к оптимальному транспорту

Два одномерных распределения и , нанесенный на оси x и y, и одно возможное совместное распределение, которое определяет транспортный план между ними. Совместный план распределения / транспортировки не уникален

Один из способов понять мотивацию приведенного выше определения - рассмотреть оптимальная транспортная задача. То есть для распределения массы на пространстве , мы хотим перенести массу таким образом, чтобы она преобразовалась в распределение на той же площади; преобразование "груды земли" в кучу . Эта проблема имеет смысл только в том случае, если создаваемая свая имеет ту же массу, что и перемещаемая свая; поэтому без ограничения общности предположим, что и - распределения вероятностей, содержащие общую массу 1. Предположим также, что задана некоторая функция стоимости

что дает стоимость транспортировки единицы массы из точки к точке .План транспорта для переезда. в можно описать функцией что дает количество массы, от которой нужно двигаться к . Вы можете представить себе задачу как необходимость переместить кучу земли определенной формы. к дыре в земле формы так что в конце и груда земли, и яма в земле полностью исчезнут. Чтобы этот план был значимым, он должен удовлетворять следующим свойствам

То есть общая масса переместилась снаружи бесконечно малая область вокруг должно быть равно и общая масса переместилась в регион вокруг должно быть . Это эквивалентно требованию, чтобы быть совместное распределение вероятностей с маргиналами и . Таким образом, бесконечно малая масса, переносимая из к является , а стоимость переезда , следуя определению функции стоимости. Таким образом, общая стоимость транспортного плана является

План не уникален; Оптимальный транспортный план - это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование для того, чтобы план был действительным, заключается в том, что это совместное распределение с маржинальными и ; позволяя обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна

Если стоимость перемещения - это просто расстояние между двумя точками, тогда оптимальная стоимость идентична определению расстояние.

Примеры

Точечные массы (вырожденные распределения)

Позволять и быть двумя вырожденные распределения (т.е. Дельта-распределения Дирака ), расположенные в точках и в . Есть только одна возможная связь этих двух мер, а именно точечная масса расположен в . Таким образом, используя обычный абсолютная величина функция расстояния на , для любого , то -Вассерштейн расстояние между и является

По аналогичным соображениям, если и точечные массы, расположенные в точках и в , и мы используем обычный Евклидова норма на как функция расстояния, то

Нормальные распределения

Позволять и быть двумя невырожденными Гауссовские меры (т.е. нормальные распределения ) на , с соответствующими ожидаемые значения и и симметричный положительный полуопределенный ковариационные матрицы и . Потом,[1] относительно обычной евклидовой нормы на , расстояние 2-Вассерштейна между и является

Этот результат обобщает предыдущий пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, и в этом случае след Член исчезает, и остается только член, включающий евклидово расстояние между средними.

Приложения

Метрика Вассерштейна - это естественный способ сравнить распределения вероятностей двух переменных. Икс и Y, где одна переменная выводится из другой посредством небольших неоднородных возмущений (случайных или детерминированных).

В информатике, например, метрика W1 широко используется для сравнения дискретных распределений, например то цветные гистограммы из двух цифровые изображения; видеть расстояние землекопа Больше подробностей.

В своей статье «Вассерштейн ГАН» Арджовский и др.[2] использовать метрику Вассерштейна-1 как способ улучшить исходную структуру Генеративные состязательные сети (GAN), чтобы облегчить исчезающий градиент и проблемы с развалом режима.

Метрика Вассерштейна имеет формальную связь с Прокрустовый анализ, с применением к мерам хиральности [3], и для анализа формы [4].

Характеристики

Метрическая структура

Можно показать, что Wп удовлетворяет все аксиомы из метрика на пп(M). Кроме того, сходимость по Wп эквивалентно обычному слабая сходимость мер плюс схождение первых пые моменты.[5]

Двойное представление W1

—Следующее двойное представление W1 является частным случаем теоремы двойственности Канторович и Рубинштейн (1958): когда μ и ν имеют ограниченный поддерживать,

где Lip (ж) обозначает минимальную Постоянная Липшица за ж.

Сравните это с определением Радоновая метрика:

Если метрика d ограничено некоторой константой C, тогда

и поэтому сходимость в метрике Радона (идентичной полная сходимость вариаций когда M это Польское пространство ) влечет сходимость в метрике Вассерштейна, но не наоборот.

Эквивалентность W2 и соболевской нормы отрицательного порядка

При подходящих предположениях расстояние Вассерштейна второго порядка липшицево эквивалентно однородному отрицательному порядку. Соболева норма.[6] Точнее, если взять быть связаны Риманово многообразие оснащен положительной мерой , то мы можем определить для полунорма

и для подписанная мера на двойственная норма

Тогда любые две вероятностные меры и на удовлетворяют верхней границе

В обратном направлении, если и у каждого есть плотность относительно стандартная мера объема на которые оба ограничены над некоторыми , и имеет неотрицательный Кривизна Риччи, тогда

Разделимость и полнота

Для любого п ≥ 1 метрическое пространство (пп(M), Wп) является отделяемый, и является полный если (M, d) отделимо и полно.[7]

Смотрите также

Рекомендации

  1. ^ Олкин И. и Пукельсхайм Ф. (1982). «Расстояние между двумя случайными векторами с заданными дисперсионными матрицами». Приложение линейной алгебры. 48: 257–263. Дои:10.1016/0024-3795(82)90112-4. ISSN  0024-3795.CS1 maint: несколько имен: список авторов (связь)
  2. ^ Арджовски (2017). "Генеративные состязательные сети Вассерштейна". ICML.
  3. ^ Петижан, М. (2002). «Хиральные смеси» (PDF). Журнал математической физики. 43 (8): 4147–4157. Дои:10.1063/1.1484559.
  4. ^ Петижан, М. (2004). «От подобия форм к дополнительности форм: к теории стыковки». Журнал математической химии. 35 (3): 147–158. Дои:10.1023 / B: JOMC.0000033252.59423.6b. S2CID  121320315.
  5. ^ Климент, Филипп; Деш, Вольфганг (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества. 136 (1): 333–339. Дои:10.1090 / S0002-9939-07-09020-X.
  6. ^ Пейр, Реми (2018). "Сравнение между W2 расстояние и ЧАС−1 норма, и локализация расстояния Вассерштейна ». ESAIM Control Optim. Расчет. Вар. 24 (4): 1489–1501. Дои:10.1051 / cocv / 2017050. ISSN  1292-8119. (См. Теоремы 2.1 и 2.5.)
  7. ^ Богачев В.И.; Колесников, А. (2012). «Проблема Монжа – Канторовича: достижения, связи, перспективы». Русская математика. Обзоры. 67 (5): 785–890. Дои:10.1070 / RM2012v067n05ABEH004808.

внешняя ссылка