Маржинальное распределение - Marginal distribution

В теория вероятности и статистика, то предельное распределение из подмножество из коллекция из случайные переменные это распределение вероятностей переменных, содержащихся в подмножестве. Он дает вероятности различных значений переменных в подмножестве без ссылки на значения других переменных. Это контрастирует с условное распределение, что дает вероятности, зависящие от значений других переменных.

Маргинальные переменные те переменные в подмножестве сохраняемых переменных. Эти понятия являются «маргинальными», потому что их можно найти, суммируя значения в таблице по строкам или столбцам и записывая сумму на полях таблицы.[1] Распределение маргинальных переменных (маргинальное распределение) получается следующим образом: маргинализация - то есть сосредоточение внимания на суммах маржи - по распределению отбрасываемых переменных, и считается, что отброшенные переменные маргинализованный.

Контекст здесь состоит в том, что проводимые теоретические исследования или анализ данных выполняется, включает более широкий набор случайных величин, но это внимание ограничивается меньшим количеством этих переменных. Во многих приложениях анализ может начинаться с заданного набора случайных величин, затем сначала расширять набор, определяя новые (например, сумму исходных случайных величин), и, наконец, уменьшать число, обращая внимание на предельное распределение случайных величин. подмножество (например, сумма). Можно провести несколько различных анализов, каждый из которых рассматривает разные подмножества переменных как маргинальные.

Определение

Функция предельной вероятности

Учитывая известный совместное распределение из двух дискретный случайные переменные, сказать, Икс и Y, предельное распределение любой переменной -Икс например - это распределение вероятностей из Икс когда значения Y не принимаются во внимание. Это можно рассчитать, суммируя совместная вероятность распределение по всем значениям Ю. Естественно, верно и обратное: маргинальное распределение может быть получено при Y путем суммирования по отдельным значениям Икс.

, и

Икс
Y
Икс1Икс2Икс3Икс4пY(у) ↓
у14/322/321/321/32  8/32
у23/326/323/323/3215/32
у39/32000  9/32
пИкс(Икс) →16/328/324/324/3232/32
Стол. 1 Совместное и маргинальное распределения пары дискретных случайных величин, Икс и Y, зависимая, поэтому имеющая ненулевое взаимная информация я(Икс; Y). Значения совместного распределения указаны в прямоугольнике 3 × 4; значения предельных распределений указаны по правому и нижнему краям.

А предельная вероятность всегда можно записать как ожидаемое значение:

Интуитивно предельная вероятность Икс вычисляется путем изучения условной вероятности Икс учитывая особое значение Y, а затем усреднение этой условной вероятности по распределению всех значений Y.

Это следует из определения ожидаемое значение (после применения закон бессознательного статистика )

Следовательно, маргинализация обеспечивает правило преобразования распределения вероятностей случайной величины. Y и другая случайная величина Икс = грамм(Y):

Функция предельной плотности вероятности

Учитывая два непрерывный случайные переменные Икс и Y чей совместное распределение известно, то маргинальный функция плотности вероятности можно получить, интегрируя совместная вероятность распределение, , над Y, наоборот. То есть

и

куда , и .

Функция предельного кумулятивного распределения

В поисках маргинального кумулятивная функция распределения из совместной кумулятивной функции распределения легко. Напомним, что

за дискретный случайные переменные,

за непрерывные случайные величины,

Если X и Y совместно принимают значения на [a, b] × [c, d], то

и

Если d равно ∞, то это становится пределом . Аналогично для .

Маржинальное распределение против условного распределения

Определение

В предельная вероятность вероятность возникновения одного события, независимо от других событий. А условная возможность, с другой стороны, это вероятность того, что событие произойдет, учитывая, что другое конкретное событие уже произошел. Это означает, что расчет одной переменной зависит от другой переменной.[2]

Условное распределение переменной для другой переменной - это совместное распределение обеих переменных, деленное на предельное распределение другой переменной.[3] То есть,

за дискретный случайные переменные,

за непрерывные случайные величины.

Пример

Предположим, есть данные из класса 200 студентов об объеме изученного времени (Икс) и процент правильных (Y).[4] При условии, что Икс и Y дискретные случайные величины, совместное распределение Икс и Y можно описать, перечислив все возможные значения р (хя, yj), как показано в Табл.3.

Икс
Y
Изученное время (минуты)
% правильныйИкс1 (0-20)Икс2 (21-40)Икс3 (41-60)Икс4(>60)пY(у)
у1 (0-20)2/200008/20010/200
у2 (21-40)10/2002/2008/200020/200
у3 (41-59)2/2004/20032/20032/20070/200
у4 (60-79)020/20030/20010/20060/200
у5 (80-100)04/20016/20020/20040/200
пИкс(Икс)14/20030/20086/20070/2001
Таблица 3 Двусторонний стол набора данных о взаимосвязи в классе из 200 студентов между количеством изученного времени и процентом правильных

В предельное распределение может использоваться для определения количества студентов, набравших 20 или ниже: , то есть 10 студентов или 5%.

В условное распределение может использоваться для определения вероятности того, что студент набрал 20 баллов или ниже, одновременно занимаясь 60 или более минут: Это означает, что вероятность набрать 20 баллов составляет около 11% после изучения не менее 60 минут.

Пример из реального мира

Предположим, что необходимо вычислить вероятность того, что пешеход будет сбит автомобилем, переходя дорогу по пешеходному переходу, не обращая внимания на светофор. Пусть H - дискретная случайная величина беря одно значение из {Hit, Not Hit}. Пусть L (для светофора) будет дискретной случайной величиной, принимающей одно значение из {красный, желтый, зеленый}.

Реально H будет зависеть от L. То есть P (H = Hit) будет принимать разные значения в зависимости от того, является ли L красным, желтым или зеленым (и аналогично для P (H = Not Hit)). Например, человек с гораздо большей вероятностью столкнется с автомобилем при попытке перейти дорогу, когда огни для перпендикулярного движения зеленые, чем если они красные. Другими словами, для любой данной возможной пары значений для H и L необходимо учитывать совместное распределение вероятностей H и L, чтобы найти вероятность того, что эта пара событий произойдет вместе, если пешеход игнорирует состояние света.

Однако при попытке вычислить предельная вероятность P (H = попадание), то, что ищется, - это вероятность того, что H = попадание в ситуации, в которой конкретное значение L неизвестно и в которой пешеход игнорирует состояние света. Как правило, пешеход может быть сбит, если огни красные, ИЛИ желтые, ИЛИ зеленые. Итак, ответ для предельной вероятности может быть найден путем суммирования P (H | L) для всех возможных значений L, причем каждое значение L взвешено по вероятности его появления.

Вот таблица, показывающая условные вероятности поражения в зависимости от состояния огней. (Обратите внимание, что столбцы в этой таблице должны составлять в сумме 1, потому что вероятность попасть или не попасть в него равна 1 независимо от состояния света.)

Условное распространение:
L
ЧАС
красныйЖелтыйЗеленый
Не попал0.990.90.2
Ударить0.010.10.8

Чтобы найти совместное распределение вероятностей, требуются дополнительные данные. Например, предположим, что P (L = красный) = 0,2, P (L = желтый) = 0,1 и P (L = зеленый) = 0,7. Умножение каждого столбца в условном распределении на вероятность появления этого столбца дает совместное распределение вероятностей H и L, заданное в центральном блоке записей 2 × 3. (Обратите внимание, что ячейки в этом блоке 2 × 3 в сумме дают 1).

Совместное распространение:
L
ЧАС
красныйЖелтыйЗеленыйПредельная вероятность P (ЧАС)
Не попал0.1980.090.140.428
Ударить0.0020.010.560.572
Общий0.20.10.71

Предельная вероятность P (H = попадание) - это сумма 0,572 по строке H = попадание в этой совместной таблице распределения, поскольку это вероятность попадания, когда огни красные ИЛИ желтые ИЛИ зеленые. Точно так же предельная вероятность того, что P (H = Not Hit) - это сумма по строке H = Not Hit.

Многомерные распределения

Многие выборки из двумерного нормального распределения. Маржинальные распределения показаны красным и синим цветом. Граничное распределение X также аппроксимируется путем создания гистограммы координат X без учета координат Y.

За многомерные распределения, формулы, аналогичные приведенным выше, применяются с символами Икс и / или Y интерпретируются как векторы. В частности, каждое суммирование или интегрирование будет производиться по всем переменным, кроме тех, которые содержатся в Икс.[5]

Это означает, что если Икс1,ИКС2, ..., Xn являются дискретный случайные переменные, то маргинальный функция массы вероятности должно быть

;

если Икс1,ИКС2, ... Xn являются непрерывные случайные величины, то маргинальный функция плотности вероятности должно быть

.

Смотрите также

Рекомендации

  1. ^ Трамплер, Роберт Дж. И Гарольд Ф. Уивер (1962). Статистическая астрономия. Dover Publications. С. 32–33.
  2. ^ «Распределение предельной и условной вероятностей: определение и примеры». Study.com. Получено 2019-11-16.
  3. ^ "Экзамен P [математика из бывшего СССР]". www.math.fsu.edu. Получено 2019-11-16.
  4. ^ Маржинальные и условные распределения, получено 2019-11-16
  5. ^ Современное введение в вероятность и статистику: понимание, почему и как. Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005 г. ISBN  9781852338961. OCLC  262680588.CS1 maint: другие (связь)

Библиография