Неравенство Дженсенса - Jensens inequality - Wikipedia

Неравенство Дженсена обобщает утверждение о том, что секущая выпуклой функции лежит над графиком.
Визуализация выпуклости и неравенства Дженсена

В математика, Неравенство Дженсена, названный в честь датского математика Йохан Йенсен, связывает значение выпуклая функция из интеграл интегралу от выпуклой функции. Это было доказано Дженсеном в 1906 году.[1] Учитывая его общность, неравенство проявляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования; это простое следствие, что обратное верно для вогнутых преобразований.

Неравенство Дженсена обобщает утверждение, что секущая линия выпуклой функции лежит над график функции, который является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для т ∈ [0,1]),

в то время как график функции является выпуклой функцией взвешенных средних,

Таким образом, неравенство Дженсена

В контексте теория вероятности, обычно это формулируется в следующей форме: если Икс это случайная переменная и φ - выпуклая функция, то

Разница между двумя сторонами неравенства, , называется Дженсен Гэп.[2]

Заявления

Классическая форма неравенства Дженсена включает несколько чисел и весов. Неравенство может быть сформулировано в самом общем виде, используя любой язык теория меры или (что эквивалентно) вероятность. В вероятностной постановке неравенство можно обобщить на полную силу.

Конечная форма

Для настоящего выпуклая функция , числа в своей области, а положительные веса , Неравенство Дженсена можно сформулировать как:

и неравенство отменяется, если является вогнутый, который

Равенство имеет место тогда и только тогда, когда или же линейна в области, содержащей .

Как частный случай, если веса все равны, то (1) и (2) становятся

Например, функция бревно(Икс) является вогнутый, поэтому подставив в предыдущей формуле (4) устанавливает (логарифм) знакомого неравенство среднего арифметического / среднего геометрического:

Обычное приложение имеет как функция другой переменной (или набора переменных) , то есть, . Все это прямо переносится на общий непрерывный случай: веса ая заменяются неотрицательной интегрируемой функцией ж (Икс), например, распределение вероятностей, а суммы заменяются интегралами.

Теоретико-мерная и вероятностная форма

Позволять быть вероятностное пространство, так что . Если это настоящий -значная функция, которая -интегрируемый, и если это выпуклая функция на реальной линии, тогда:

В реальном анализе нам может потребоваться оценка

куда , и неотрицательный Лебег-интегрируемый функция. В этом случае мера Лебега не должно быть единства. Однако путем интегрирования с заменой интервал можно масштабировать так, чтобы он имел единицу измерения. Тогда неравенство Дженсена можно применить, чтобы получить[3]

Тот же результат может быть эквивалентно сформулирован в теория вероятности настройка, просто изменив обозначения. Позволять быть вероятностное пространство, Икс ан интегрируемый ценный случайная переменная и φ а выпуклая функция. Потом:

В этой настройке вероятности мера μ предназначен как вероятность , интеграл по μ как ожидаемое значение , а функция как случайная переменная Икс.

Отметим, что равенство выполняется тогда и только тогда, когда φ является линейной функцией на некотором множестве такой, что (что следует из приведенного ниже доказательства теории меры).

Общее неравенство в вероятностной постановке

В общем, пусть Т быть настоящим топологическое векторное пространство, и Икс а Т-ценный интегрируемый случайная переменная. В этой общей настройке интегрируемый означает, что существует элемент в Т, такое, что для любого элемента z в двойное пространство из Т: , и . Тогда для любой измеримой выпуклой функции φ и любые суб-σ-алгебра из :

Здесь стоит за ожидание обусловлено к σ-алгебре . Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство Т это реальная ось, и это тривиальный σ-алгебра {∅, Ω} (куда это пустой набор, и Ω это пространство образца ).[4]

Заостренная и обобщенная форма

Позволять Икс - одномерная случайная величина со средним и дисперсия . Позволять - дважды дифференцируемая функция, и определим функцию

потом[5]

В частности, когда выпукло, то , а стандартная форма неравенства Йенсена сразу следует для случая, когда дополнительно предполагается дважды дифференцируемой.

Доказательства

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая вдоль Икс ось - гипотетическое распределение Икс, а штриховая кривая вдоль Y ось - соответствующее распределение Y значения. Отметим, что выпуклое отображение Y(Икс) все больше «растягивает» распределение для увеличения значений Икс.
Это без слов доказательство неравенства Дженсена для п переменные. Без ограничения общности сумма положительных весов равна 1. Отсюда следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, лежащей над самой функцией по определению выпуклости. Напрашивается вывод.[6]

Неравенство Дженсена может быть доказано несколькими способами, и будут предложены три разных доказательства, соответствующих различным утверждениям выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда Икс является действительным числом (см. рисунок). Предполагая гипотетическое распределение Икс значения, можно сразу определить положение и его образ в графике. Замечая, что для выпуклых отображений Y = φ(Икс) соответствующее распределение Y values ​​все больше «растягивается» для увеличения значений Икс, легко видеть, что распределение Y шире в интервале, соответствующем Икс > Икс0 и уже в Икс < Икс0 для любого Икс0; в частности, это верно и для . Следовательно, на этой картинке ожидание Y всегда будет смещаться вверх относительно положения . Аналогичное рассуждение справедливо, если распределение Икс покрывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее части. Это «доказывает» неравенство, т.е.

с равенством, когда φ(Икс) не является строго выпуклым, например когда это прямая линия, или когда Икс следует за вырожденное распределение (т.е. является константой).

Приведенные ниже доказательства формализуют это интуитивное понятие.

Доказательство 1 (конечная форма)

Если λ1 и λ2 - два произвольных неотрицательных действительных числа такие, что λ1 + λ2 = 1 то выпуклость φ подразумевает

Это легко обобщить: если λ1, ..., λп неотрицательные действительные числа такие, что λ1 + ... + λп = 1, тогда

для любого Икс1, ..., Иксп. Этот конечная форма неравенства Йенсена можно доказать с помощью индукция: по предположению выпуклости утверждение верно для п = 2. Предположим, что это верно и для некоторых п, нужно доказать это для п + 1. По крайней мере, один из λя строго положительно, скажем λ1; поэтому по неравенству выпуклости:

С

можно применить предположения индукции к последнему члену в предыдущей формуле, чтобы получить результат, а именно конечную форму неравенства Йенсена.

Чтобы получить общее неравенство из этой конечной формы, необходимо использовать аргумент плотности. Конечная форма может быть переписана как:

куда μп мера, заданная произвольным выпуклое сочетание из Дельты Дирака:

Поскольку выпуклые функции непрерывный, а так как выпуклые комбинации дельт Дирака равны слабо плотный в наборе вероятностных мер (что легко проверить) общее утверждение получается простой процедурой ограничения.

Доказательство 2 (теоретико-мерная форма)

Позволять грамм - вещественнозначная μ-интегрируемая функция на вероятностном пространстве Ω, и пусть φ - выпуклая функция от действительных чисел. С φ выпукло, на каждое действительное число Икс у нас есть непустой набор субпроизводные, которые можно представить как линии, касающиеся графика φ в Икс, но которые находятся на графике или ниже графика φ во всех точках (опорные линии графика).

Теперь, если мы определим

из-за существования субпроизводных для выпуклых функций мы можем выбрать а и б такой, что

для всех реальных Икс и

Но тогда у нас есть это

для всех Икс. Поскольку у нас есть вероятностная мера, интеграл монотонен с μ(Ω) = 1 так что

по желанию.

Доказательство 3 (общее неравенство в вероятностной постановке)

Позволять Икс быть интегрируемой случайной величиной, которая принимает значения в реальном топологическом векторном пространстве Т. С выпукло, для любого , количество

убывает как θ приближается к 0+. В частности, субдифференциальный из оценивается в Икс в направлении у хорошо определяется

Легко видеть, что субдифференциал линейен по у[нужна цитата ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение того же члена для θ = 1, получается

В частности, для произвольной суб-σ-алгебра мы можем оценить последнее неравенство, когда чтобы получить

Теперь, если мы возьмем ожидание, обусловленное по обе стороны от предыдущего выражения, мы получаем результат, так как:

по линейности субдифференциала по у переменной, и следующее известное свойство условное ожидание:

Приложения и особые случаи

Форма с функцией плотности вероятности

Предполагать Ω является измеримым подмножеством действительной прямой и ж(Икс) - неотрицательная функция такая, что

На вероятностном языке ж это функция плотности вероятности.

Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:

Если грамм - любая измеримая вещественнозначная функция и выпукла в диапазоне грамм, тогда

Если грамм(Икс) = Икс, то эта форма неравенства сводится к обычно используемому частному случаю:

Это применяется в Вариационные байесовские методы.

Пример: даже моменты случайной величины

Если грамм(Икс) = Икс2n, и Икс случайная величина, то грамм выпукла как

и так

В частности, если какой-то четный момент 2n из Икс конечно, Икс имеет конечное среднее. Расширение этого аргумента показывает Икс имеет конечные моменты каждого порядка разделение п.

Альтернативная конечная форма

Позволять Ω = {Икс1, ... Иксп}, и возьми μ быть счетная мера на Ω, то общая форма сводится к утверждению о суммах:

при условии, что λя ≥ 0 и

Также существует бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:

где ожидаемые значения относятся к некоторым распределение вероятностей в случайная переменная Икс.

Доказательство в этом случае очень простое (см. Чандлер, раздел 5.5). Желаемое неравенство следует непосредственно, записывая

а затем применяя неравенство еИкс ≥ 1 + Икс до последней экспоненты.

Теория информации

Если п(Икс) истинная плотность вероятности для Икс, и q(Икс) - другая плотность, тогда применяя неравенство Дженсена для случайной величины Y(Икс) = q(Икс)/п(Икс) и выпуклая функция φ(у) = −log (у) дает

Следовательно:

результат называется Неравенство Гиббса.

Это показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей. п а не любой другой дистрибутив q. Неотрицательная величина называется Дивергенция Кульбака – Лейблера из q из п.

С −log (Икс) - строго выпуклая функция при Икс > 0, то равенство выполняется при п(Икс) равно q(Икс) почти всюду.

Теорема Рао – Блэквелла

Если L - выпуклая функция и суб-сигма-алгебра, то из условной версии неравенства Дженсена получаем

Итак, если δ (Икс) это некоторые оценщик ненаблюдаемого параметра θ с учетом вектора наблюдаемых Икс; и если Т(Икс) это достаточная статистика для θ; затем улучшенная оценка в смысле меньшего ожидаемого убытка L, можно получить, вычислив

ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений Икс совместим с таким же значением Т(Икс) как то заметил. Кроме того, поскольку T - достаточная статистика, не зависит от θ, следовательно, становится статистикой.

Этот результат известен как Теорема Рао – Блэквелла.

Смотрите также

Примечания

  1. ^ Дженсен, Дж. Л. В. В. (1906). "Sur les fonctions convxes et les inégalités entre les valeurs moyennes". Acta Mathematica. 30 (1): 175–193. Дои:10.1007 / BF02418571.
  2. ^ Гао, Сян; Ситхарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для средне-концентрированных распределений» (PDF). Австралийский журнал математического анализа и приложений. 16 (2). arXiv:1712.05267.
  3. ^ Никулеску, Константин П. «Интегральные неравенства», С. 12.
  4. ^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и / или топологическом векторном пространстве, см. Пример (1.3) на с. 53 дюйм Перлман, Майкл Д. (1974). «Неравенство Йенсена для выпуклой векторнозначной функции на бесконечномерном пространстве». Журнал многомерного анализа. 4 (1): 52–65. Дои:10.1016 / 0047-259X (74) 90005-0.
  5. ^ Liao, J .; Берг, А (2018). «Обострение неравенства Дженсена». Американский статистик. arXiv:1707.08644. Дои:10.1080/00031305.2017.1419145.
  6. ^ Брэдли, CJ (2006). Введение в неравенство. Лидс, Соединенное Королевство: Математический фонд Соединенного Королевства. п. 97. ISBN  978-1-906001-11-7.

Рекомендации

внешняя ссылка