Понятие сходимости случайных величин
Равномерная сходимость по вероятности это форма сходимость по вероятности в статистическая асимптотическая теория и теория вероятности. Это означает, что при определенных условиях эмпирические частоты всех событий в определенной семье событий сходятся к своим теоретические вероятности. Равномерная сходимость по вероятности имеет приложения к статистика а также машинное обучение как часть теория статистического обучения.
В закон больших чисел говорит, что для каждого Один событие, его эмпирическая частота в последовательности независимых испытаний сходится (с большой вероятностью) к его теоретической вероятности. Но в некоторых приложениях нас интересует не одно событие, а целое. семейство событий. Мы хотели бы знать, сходится ли эмпирическая частота каждого события в семье к его теоретической вероятности. одновременно.[нужна цитата ] Теорема о равномерной сходимости дает достаточное условие для этой сходимости. Грубо говоря, если семейство событий достаточно простое (его Размер ВК достаточно мало), то имеет место равномерная сходимость.
Определения
Для класса предикаты
определен на множестве
и набор образцов
, куда
, то эмпирическая частота из
на
является
![{displaystyle {widehat {Q}} _ {x} (h) = {frac {1} {m}} | {i: 1leq ileq m, h (x_ {i}) = 1} |.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/08b5965c9bb62a55082907f79df8dea72813664f)
В теоретическая вероятность из
определяется как ![{displaystyle Q_ {P} (h) = P {yin X: h (y) = 1}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2cede0a51c190e3df7f5defbda89726043ee63b6)
Теорема о равномерной сходимости грубо утверждает, что если
"просто" и мы сами (с заменой) берем образцы из
по любому распределению
, тогда с большой вероятностью, эмпирическая частота будет близка к своей ожидаемое значение, что является теоретической вероятностью.[нужна цитата ]
Здесь «простой» означает, что Размерность Вапника – Червоненкиса класса
мала по сравнению с размером выборки. Другими словами, достаточно простой набор функций ведет себя примерно так же на небольшой случайной выборке, как и на распределении в целом.
Теорема о равномерной сходимости была впервые доказана Вапником и Червоненкисом.[1] используя концепцию функция роста.
Теорема о равномерной сходимости
Утверждение теоремы о равномерной сходимости выглядит следующим образом:[2]
Если
это набор
-значные функции, определенные на множестве
и
это распределение вероятностей на
тогда для
и
положительное целое число, имеем:
![{displaystyle P ^ {m} {| Q_ {P} (h) - {widehat {Q_ {x}}} (h) | geq varepsilon {ext {for some}} hin H} leq 4Pi _ {H} (2m ) e ^ {- varepsilon ^ {2} m / 8}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7c147a53a85acf941380ec3f2ad339e662310caf)
- где для любого
, ![{displaystyle Q_ {P} (h) = P {(инь X: h (y) = 1},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ce073651d79dd000dde3c73e1e79b4cc8226bad5)
![{displaystyle {widehat {Q}} _ {x} (h) = {frac {1} {m}} | {i: 1leq ileq m, h (x_ {i}) = 1} |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6eb95c1ac3bab5016eec082d919794959c6807c5)
- и
.
указывает, что вероятность взята за
состоящий из
i.i.d. извлекает из раздачи
.
определяется как: Для любого
-значные функции
над
и
,![{displaystyle Pi _ {H} (D) = {hcap D: hin H}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/33fe8990722e7c659e9684879dcccc45ab84ae1f)
И для любого натурального числа
, то сокрушительное число
определяется как:
![{displaystyle Pi _ {H} (m) = max | {hcap D: | D | = m, hin H} |.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f650a55b42d9065a8e95efd70a57ec115bd6c54e)
С точки зрения теории обучения можно рассматривать
быть Концепция / Гипотеза класс, определенный в наборе экземпляров
. Прежде чем переходить к деталям доказательства теоремы, сформулируем лемму Зауэра, которая нам понадобится в нашем доказательстве.
Лемма Зауэра – Шелаха.
В Лемма Зауэра – Шелаха.[3] связывает сокрушительное число
в VC Dimension.
Лемма:
, куда
это VC Dimension концептуального класса
.
Следствие:
.
Доказательство теоремы о равномерной сходимости
[1] и [2] являются источниками доказательства ниже. Прежде чем мы перейдем к деталям доказательства Теорема о равномерной сходимости мы представим общий обзор доказательства.
- Симметризация: Преобразуем проблему анализа
в проблему анализа
, куда
и
i.i.d образцы размера
составлен согласно распределению
. Можно просмотреть
как исходный произвольно выбранный образец длины
, пока
можно рассматривать как образец для испытаний, который используется для оценки
. - Перестановка: С
и
выбираются одинаково и независимо, поэтому замена элементов между ними не изменит распределение вероятностей на
и
. Итак, попробуем ограничить вероятность
для некоторых
рассматривая эффект определенного набора перестановок объединенной выборки
. В частности, мы рассматриваем перестановки
которые обмениваются
и
в некотором подмножестве
. Символ
означает конкатенацию
и
.[нужна цитата ] - Приведение к конечному классу: Теперь мы можем ограничить класс функций
к фиксированному образцу соединения и, следовательно, если
имеет конечную размерность VC, проблема сводится к задаче, связанной с конечным функциональным классом.
Приведем технические детали доказательства.
Симметризация
Лемма: Позволять
и
![{displaystyle R = {(r, s) в X ^ {m} imes X ^ {m}: | {widehat {Q_ {r}}} (h) - {widehat {Q}} _ {s} (h) | geq varepsilon / 2 {ext {для некоторых}} hin H}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/363cf212718328501c01f5b4574dbf856d5ea44b)
Тогда для
,
.
Доказательство: по неравенству треугольника
если
и
тогда
.
Следовательно,
![{displaystyle {egin {выравнивается} & P ^ {2m} (R) [5pt] geq {} & P ^ {2m} {существует hin H, | Q_ {P} (h) - {widehat {Q}} _ {r } (h) | geq varepsilon {ext {and}} | Q_ {P} (h) - {widehat {Q}} _ {s} (h) | leq varepsilon / 2} [5pt] = {} & int _ {V} P ^ {m} {s: существует hin H, | Q_ {P} (h) - {widehat {Q}} _ {r} (h) | geq varepsilon {ext {and}} | Q_ {P } (h) - {widehat {Q}} _ {s} (h) | leq varepsilon / 2}, dP ^ {m} (r) [5pt] = {} & Aend {выровнено}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f8461f48d2fd7f0c2fe19203c871b9e67c8faf25)
поскольку
и
независимы.
Теперь для
исправить
такой, что
. За это
, мы покажем, что
![{displaystyle P ^ {m} left {| Q_ {P} (h) - {widehat {Q}} _ {s} (h) | leq {frac {varepsilon} {2}} ight} geq {frac {1} {2}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1e5c0d7d05eb6fedc5683d1579e03289b67b2869)
Таким образом, для любого
,
и поэтому
. И поэтому мы выполняем первый шаг нашей высокоуровневой идеи.
Уведомление,
биномиальная случайная величина с математическим ожиданием
и дисперсия
. К Неравенство Чебышева мы получили
![{displaystyle P ^ {m} left {| Q_ {P} (h) - {widehat {Q_ {s} (h)}} |> {frac {varepsilon} {2}} ight} leq {frac {mcdot Q_ { P} (h) (1-Q_ {P} (h))} {(varepsilon m / 2) ^ {2}}} leq {frac {1} {varepsilon ^ {2} m}} leq {frac {1 } {2}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/22620da748e373ba5ce198b8d4b309b69cb28485)
для упомянутой границы
. Здесь мы используем тот факт, что
за
.
Перестановки
Позволять
быть набором всех перестановок
это меняет местами
и
в некотором подмножестве
.
Лемма: Позволять
быть любым подмножеством
и
любое распределение вероятностей на
. Потом,
![{displaystyle P ^ {2m} (R) = E [Pr [sigma (x) in R]] leq max _ {xin X ^ {2m}} (Pr [sigma (x) in R]),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9c1d969a0460869584bfda8851b74b1346b7bf94)
где ожидание закончилось
выбран в соответствии с
, и вероятность больше
выбирается единообразно из
.
Доказательство: Для любого ![{displaystyle sigma in Gamma _ {m},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f7c386af7c862c51e92f50e46888b7c23d949377)
![{displaystyle P ^ {2m} (R) = P ^ {2m} {x: sigma (x) in R}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/673e271e37b7c638f818037dfe258d12751ad931)
(поскольку перестановки координат сохраняют распределение продукта
.)
![{displaystyle {egin {выравнивается} здесь P ^ {2m} (R) = {} & int _ {X ^ {2m}} 1_ {R} (x), dP ^ {2m} (x) [5pt] = { } & {frac {1} {| Gamma _ {m} |}} sum _ {sigma in Gamma _ {m}} int _ {X ^ {2m}} 1_ {R} (sigma (x)), dP ^ {2m} (x) [5pt] = {} & int _ {X ^ {2m}} {frac {1} {| Gamma _ {m} |}} sum _ {sigma in Gamma _ {m}} 1_ { R} (sigma (x)), dP ^ {2m} (x) [5pt] & {ext {(потому что}} | Gamma _ {m} | {ext {конечно)}} [5pt] = { } & int _ {X ^ {2m}} Pr [сигма (x) в R], dP ^ {2m} (x) quad {ext {(ожидание)}} [5pt] leq {} & max _ {xin X ^ {2m}} (Pr [сигма (x) в R]). Конец {выровнен}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9f46a36c4d92d17e15ec97d1e17ba97a92ab9600)
Максимум гарантированно существует, поскольку существует только конечный набор значений, которые может принимать вероятность при случайной перестановке.
Приведение к конечному классу
Лемма: На основании предыдущей леммы
.
Доказательство. Определим
и
что самое большее
. Это означает, что есть функции
такой, что для любого
между
и
с
за ![{displaystyle 1leq kleq 2m.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4f71748eb46070ead73c8d0c5b012970ac6e827f)
Мы видим, что
если и только для некоторых
в
удовлетворяет,
. Следовательно, если мы определим
если
и
иначе.
За
и
у нас есть это
если и только для некоторых
в
удовлетворяет
. По объединению мы получаем
![{displaystyle Pr [sigma (x) in R] leq tcdot max left (Pr [| {frac {1} {m}} left (sum _ {i} w_ {sigma _ {i}} ^ {j} -sum _) {i} w_ {sigma _ {m + i}} ^ {j} ight) | geq {frac {varepsilon} {2}}] ight)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cc40ac1815ef47101a8440815d7aeccd74307766)
![{displaystyle leq Pi _ {H} (2m) cdot max left (Pr left [left | {frac {1} {m}} left (сумма _ {i} w_ {sigma _ {i}} ^ {j} -sum _ {i} w_ {sigma _ {m + i}} ^ {j} ight) ight | geq {frac {varepsilon} {2}} ight] ight).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/076d1837b87ec317dca829e524a12af39a7ca5c4)
Поскольку распределение по перестановкам
единообразно для каждого
, так
равно
, с равной вероятностью.
Таким образом,
![{displaystyle Pr left [left | {frac {1} {m}} left (sum _ {i} left (w_ {sigma _ {i}} ^ {j} -w_ {sigma _ {m + i}} ^ { j} ight) ight) ight | geq {frac {varepsilon} {2}} ight] = Pr left [left | {frac {1} {m}} left (sum _ {i} | w_ {i} ^ {j } -w_ {m + i} ^ {j} | eta _ {i} ight) ight | geq {frac {varepsilon} {2}} ight],}](https://wikimedia.org/api/rest_v1/media/math/render/svg/48244ac88425a73a9af7fe7ed2924fdc9a3600a9)
где вероятность справа больше
и обе возможности одинаково вероятны. К Неравенство Хёффдинга, это самое большее
.
Наконец, объединяя все три части доказательства, мы получаем Теорема о равномерной сходимости.
Рекомендации