Биномиальное неравенство дисперсии суммы - Binomial sum variance inequality

В биномиальное неравенство дисперсии суммы утверждает, что дисперсия суммы биномиально распределенный случайные переменные всегда будет меньше или равна дисперсии биномиальной переменной с тем же п и п параметры. В теория вероятности и статистика, то сумма независимых биномиальных случайных величин сам по себе является биномиальной случайной величиной, если все составляющие переменные имеют одинаковые вероятность успеха. Если вероятности успеха различаются, распределение вероятностей суммы не является биномиальным.[1] Отсутствие единообразия вероятностей успеха в независимых испытаниях приводит к меньшей дисперсии.[2][3][4][5][6] и является частным случаем более общей теоремы о ожидаемое значение выпуклых функций.[7] В некоторых статистических приложениях может использоваться стандартная биномиальная оценка дисперсии, даже если вероятности компонентов различаются, хотя и с оценкой дисперсии, которая имеет восходящую предвзятость.

Заявление о неравенстве

Рассмотрим сумму, Z, двух независимых биномиальных случайных величин, Икс ~ B (м0, п0) и Y ~ B (м1, п1), куда Z = Икс + Y. Тогда дисперсия Z меньше или равно его дисперсии в предположении, что п0 = п1, то есть если Z имел биномиальное распределение.[8] Символично, .

[Доказательство]

Мы хотим доказать, что

Докажем это неравенство, найдя выражение для Var (Z) и подставив его в левую часть, показывая, что неравенство всегда выполняется.

Если Z имеет биномиальное распределение с параметрами п и п, то ожидаемое значение из Z дан кем-то E [Z] = нп и дисперсия Z дан кем-то Вар [Z] = нп(1 – п). Сдача п = м0 + м1 и подставив E [Z] за нп дает

Случайные величины Икс и Y независимы, поэтому дисперсия суммы равна сумме дисперсий, то есть

Поэтому для доказательства теоремы достаточно доказать, что


Подставляя E [Икс] + E [Y] для E [Z] дает

Умножение скобок и вычитание E [X] + E [Y] с обеих сторон дает

Умножение скобок дает

Вычитая E [X] и E [Y] с обеих сторон и обращая неравенство, получаем

Расширение правой части дает

Умножение на дает

Вычитая правую часть, получаем соотношение

или эквивалентно

Квадрат действительного числа всегда больше или равен нулю, поэтому это верно для всех независимых биномиальных распределений, которые могут принимать X и Y. Этого достаточно для доказательства теоремы.


Хотя это доказательство было разработано для суммы двух переменных, его легко обобщить для более чем двух. Кроме того, если известны индивидуальные вероятности успеха, тогда известно, что дисперсия принимает форму[6]

куда . Это выражение также означает, что дисперсия всегда меньше, чем дисперсия биномиального распределения с , потому что стандартное выражение для дисперсии уменьшается на нс2, положительное число.

Приложения

Неравенство может быть полезно в контексте множественное тестирование, где много статистические проверки гипотез проводятся в рамках конкретного исследования. Каждый тест можно рассматривать как Переменная Бернулли с вероятностью успеха п. Рассмотрим общее количество положительных тестов как случайную величину, обозначенную S. Эта величина важна для оценки коэффициент ложного обнаружения (FDR), которые количественно определяют неопределенность результатов испытаний. Если нулевая гипотеза верно для некоторых тестов и Альтернативная гипотеза верно для других тестов, то вероятности успеха, вероятно, будут различаться между этими двумя группами. Однако теорема о неравенстве дисперсии утверждает, что если тесты независимы, дисперсия S будет не больше, чем при биномиальном распределении.

Рекомендации

  1. ^ Батлер, К .; Стивенс, М. (1993). «Распределение суммы биномиальных случайных величин» (PDF). Технический отчет № 467. Департамент статистики Стэнфордского университета.
  2. ^ Недельман, Дж. И Валлениус, Т., 1986. Испытания Бернулли, испытания Пуассона, удивительные различия и неравенство Дженсена. Американский статистик, 40 (4): 286–289.
  3. ^ Феллер, В. 1968. Введение в теорию вероятностей и ее приложения (Том 1, 3-е изд.). Нью-Йорк: Джон Вили.
  4. ^ Джонсон, Н. Л. и Коц, С. 1969. Дискретные распределения. Нью-Йорк: Джон Вили
  5. ^ Кендалл М. и Стюарт А. 1977. Продвинутая теория статистики. Нью-Йорк: Макмиллан.
  6. ^ а б Дрезнер, Цви; Фарнум, Николас (1993). «Обобщенное биномиальное распределение». Коммуникации в статистике - теория и методы. 22 (11): 3051–3063. Дои:10.1080/03610929308831202. ISSN  0361-0926.
  7. ^ Hoeffding, W. 1956. О распределении числа успехов в независимых испытаниях. Анналы математической статистики (27): 713–721.
  8. ^ Millstein, J .; Вольфсон, Д. (2013). «Вычислительная эффективная оценка доверительного интервала на основе перестановок для FDR в хвостовой части». Границы генетики. 4 (179): 1–11. Дои:10.3389 / fgene.2013.00179. ЧВК  3775454. PMID  24062767.