Ковариация - Covariance

Знак ковариации двух случайных величин Икс и Y

В теория вероятности и статистика, ковариация мера совместной изменчивости двух случайные переменные.[1] Если большие значения одной переменной в основном соответствуют большим значениям другой переменной, и то же самое верно для меньших значений (то есть переменные имеют тенденцию показывать аналогичное поведение), ковариация положительная.[2] В противоположном случае, когда большие значения одной переменной в основном соответствуют меньшим значениям другой (то есть переменные имеют тенденцию показывать противоположное поведение), ковариация отрицательная. Следовательно, знак ковариации показывает тенденцию линейная связь между переменными. Величину ковариации непросто интерпретировать, поскольку она не нормирована и, следовательно, зависит от величин переменных. В нормализованная версия ковариации, то коэффициент корреляции тем не менее, своей величиной показывает силу линейной зависимости.

Следует различать (1) ковариацию двух случайных величин, которая является Население параметр что можно рассматривать как свойство совместное распределение вероятностей, и (2) образец ковариация, которая помимо того, что служит дескриптором выборки, также служит по оценкам значение параметра численности.

Определение

Для двух совместно распределяемый настоящий -значен случайные переменные и с конечным вторые моменты ковариация определяется как ожидаемое значение (или среднее значение) произведения их отклонений от их индивидуальных ожидаемых значений:[3][4]:п. 119

 

 

 

 

(Уравнение 1)

где это ожидаемое значение из , также известный как среднее значение . Ковариацию также иногда обозначают или , по аналогии с отклонение. Используя свойство линейности ожиданий, это можно упростить до ожидаемой стоимости их продукта за вычетом произведения их ожидаемых значений:

но это уравнение восприимчиво к катастрофическая отмена (см. раздел о числовое вычисление ниже).

В меры измерения ковариации те из раз те из . Напротив, коэффициенты корреляции, зависящие от ковариации, являются безразмерный мера линейной зависимости. (Фактически, коэффициенты корреляции можно просто понимать как нормализованную версию ковариации.)

Определение сложных случайных величин

Ковариация между двумя комплексными случайными величинами определяется как[4]:п. 119

Обратите внимание на комплексное сопряжение второго множителя в определении.

Дискретные случайные величины

Если пара случайных величин может принимать значения для , с равными вероятностями , то ковариацию можно эквивалентно записать в терминах средних и так как

Это также может быть эквивалентно выражено, не обращаясь напрямую к средствам, как[5]

В более общем смысле, если есть возможные реализации , а именно но с возможно неравными вероятностями для , то ковариация равна

пример

Геометрическая интерпретация примера ковариации. Каждый кубоид является ограничивающим прямоугольником своей точки (Икс, у, ж (Икс, у)) и Икс и Y означает (пурпурная точка). Ковариация - это сумма объемов красных кубоидов минус синие кубоиды.

Предположим, что и иметь следующие совместная функция массы вероятности,[6] в котором шесть центральных ячеек дают дискретные совместные вероятности из шести гипотетических реализаций :

Икс
567
у800.40.10.5
90.300.20.5
0.30.40.31

может принимать три значения (5, 6 и 7), а может взять на себя два (8 и 9). Их средства и . Потом,

Свойства

Ковариантность сама с собой

В отклонение является частным случаем ковариации, при которой две переменные идентичны (то есть, когда одна переменная всегда принимает то же значение, что и другая):[4]:п. 121

Ковариация линейных комбинаций

Если , , , и являются вещественными случайными величинами и являются вещественными константами, то следующие факты являются следствием определения ковариантности:

Для последовательности случайных величин в действительном значении и константы , у нас есть

Ковариационная идентичность Хёффдинга

Полезная идентичность для вычисления ковариации между двумя случайными величинами ковариационная идентичность Хёффдинга:[7]

где - совместная кумулятивная функция распределения случайного вектора и являются маргиналы.

Некоррелированность и независимость

Случайные переменные, ковариация которых равна нулю, называются некоррелированный.[4]:п. 121 Точно так же компоненты случайных векторов, ковариационная матрица которых равна нулю в каждой записи за пределами главной диагонали, также называются некоррелированными.

Если и находятся независимые случайные величины, то их ковариация равна нулю.[4]:п. 123[8] Это следует потому, что при независимости

Обратное, однако, в целом неверно. Например, пусть быть равномерно распределенным в и разреши . Ясно, и не независимы, но

В этом случае связь между и нелинейна, а корреляция и ковариация - это меры линейной зависимости между двумя случайными величинами. Этот пример показывает, что если две случайные величины не коррелированы, это, как правило, не означает, что они независимы. Однако, если две переменные совместно нормально распределенные (но не если они просто индивидуально нормально распределенный ), некоррелированность делает подразумевают независимость.

Отношение к внутренним продуктам

Многие свойства ковариации можно элегантно выделить, заметив, что она удовлетворяет свойствам, аналогичным свойствам ковариации. внутренний продукт:

  1. билинейный: для констант и и случайные величины ,
  2. симметричный:
  3. положительный полуопределенный: для всех случайных величин , и подразумевает, что постоянно почти наверняка.

Фактически эти свойства означают, что ковариация определяет внутренний продукт над фактор-векторное пространство полученный путем взятия подпространства случайных величин с конечным вторым моментом и определения любых двух, которые отличаются на константу. (Это отождествление превращает положительную полуопределенность, приведенную выше, в положительную определенность.) Это фактор-векторное пространство изоморфно подпространству случайных величин с конечным вторым моментом и средним нулем; на этом подпространстве ковариация - это в точности L2 внутренний продукт действительных функций в пространстве выборки.

В результате для случайных величин с конечной дисперсией выполняется неравенство

проводится через Неравенство Коши – Шварца.

Доказательство: если , то это выполняется тривиально. В противном случае пусть случайная величина

Тогда у нас есть

Вычисление выборочной ковариации

Выборочные ковариации среди переменные на основе наблюдения каждого из них, взятые из ненаблюдаемой популяции, даются матрица с записями

что является оценкой ковариации между переменной и переменная .

Выборочное среднее и выборочная ковариационная матрица равны объективные оценки из значить и ковариационная матрица из случайный вектор , вектор, jй элемент - одна из случайных величин. Причина, по которой выборочная матрица ковариаций имеет в знаменателе, а не по сути, то, что население означает неизвестно и заменяется выборочным средним . Если среднее значение населения известно, аналогичная несмещенная оценка дается

.

Обобщения

Матрица автоковариации реальных случайных векторов

Для вектора из совместно распределенные случайные величины с конечными вторыми моментами, ее матрица автоковариации (также известный как матрица дисперсии-ковариации или просто ковариационная матрица) (также обозначается ) определяется как[9]:стр.335

Позволять быть случайный вектор с ковариационной матрицей Σ, и разреши А быть матрицей, которая может действовать на слева. Ковариационная матрица произведения матрица-вектор А X является:

Это прямой результат линейности ожидание и полезен при применении линейное преобразование, например отбеливающее преобразование, в вектор.

Матрица кросс-ковариации вещественных случайных векторов

Серьезно случайные векторы и , то матрица кросс-ковариации равно[9]:стр.336

 

 

 

 

(Уравнение 2)

где это транспонировать вектора (или матрицы) .

В -й элемент этой матрицы равен ковариации между я-я скалярная составляющая и j-я скалярная составляющая . Особенно, это транспонировать из .

Численный расчет

Когда , уравнение склонен к катастрофическая отмена при вычислении с плавающая точка арифметики и, следовательно, ее следует избегать в компьютерных программах, когда данные ранее не центрировались.[10] Численно стабильные алгоритмы в этом случае следует отдавать предпочтение.[11]

Комментарии

Ковариацию иногда называют мерой «линейной зависимости» между двумя случайными величинами. Это не значит то же самое, что и в контексте линейная алгебра (увидеть линейная зависимость ). Когда ковариация нормализована, мы получаем Коэффициент корреляции Пирсона, что дает степень согласия для наилучшей линейной функции, описывающей связь между переменными. В этом смысле ковариация - это линейная мера зависимости.

Приложения

В генетике и молекулярной биологии

Ковариация - важная мера в биология. Определенные последовательности ДНК сохраняются больше, чем другие среди видов, и, таким образом, для изучения вторичных и третичных структур белки, или из РНК структуры, последовательности сравниваются у близкородственных видов. Если изменения последовательности обнаружены или не обнаружены вообще никаких изменений в некодирующая РНК (такие как микроРНК ), последовательности оказываются необходимыми для общих структурных мотивов, таких как петля РНК. В генетике ковариация служит основой для вычисления матрицы генетических родств (GRM) (также известной как матрица родства), позволяя делать выводы о структуре популяции из выборки без известных близких родственников, а также делать выводы об оценке наследуемости сложных признаков.

В теории эволюция и естественный отбор, то Ценовое уравнение описывает, как генетическая черта частота меняется со временем. В уравнении используется ковариация между чертой и фитнес, чтобы дать математическое описание эволюции и естественного отбора. Это дает возможность понять влияние передачи генов и естественного отбора на долю генов в каждом новом поколении популяции.[12][13] Уравнение цены было получено Джордж Р. Прайс, чтобы заново получить W.D. Гамильтон работает над родственный отбор. Примеры уравнения цены были построены для различных эволюционных случаев.

В финансовой экономике

Ковариации играют ключевую роль в финансовая экономика, особенно в современная теория портфолио и в модель ценообразования основных средств. Ковариации доходности различных активов используются для определения, при определенных допущениях, относительных сумм различных активов, которые должны инвестировать (в нормативный анализ ) или прогнозируются (в положительный анализ ) выберите удержание в контексте диверсификация.

При усвоении метеорологических и океанографических данных

Ковариационная матрица важна для оценки начальных условий, необходимых для работы моделей прогноза погоды, процедуры, известной как ассимиляция данных. «Ковариационная матрица ошибок прогноза» обычно строится между возмущениями вокруг среднего состояния (климатологического или ансамблевого). «Ковариационная матрица ошибок наблюдения» построена для представления величины объединенных ошибок наблюдений (по диагонали) и коррелированных ошибок между измерениями (по диагонали). Это пример его широкого применения в Фильтрация Калмана и более общие оценка состояния для систем с изменяющимся временем.

В микрометеорологии

В ковариация вихря Методика представляет собой ключевой метод измерения атмосферы, при котором ковариация между мгновенным отклонением вертикальной скорости ветра от среднего значения и мгновенным отклонением концентрации газа является основой для расчета вертикальных турбулентных потоков.

В обработке сигналов

Ковариационная матрица используется для регистрации спектральной изменчивости сигнала.[14]

В статистике и обработке изображений

Ковариационная матрица используется в Анализ главных компонентов для уменьшения размерности функций при предварительной обработке данных.

Смотрите также

использованная литература

  1. ^ Райс, Джон (2007). Математическая статистика и анализ данных. Белмонт, Калифорния: Обучение Брукс / Коула Сенсэджа. п. 138. ISBN  978-0534-39942-9.
  2. ^ Вайсштейн, Эрик В. "Ковариация". MathWorld.
  3. ^ Оксфордский статистический словарь, Oxford University Press, 2002, стр. 104.
  4. ^ а б c d е Парк, Кун Иль (2018). Основы вероятностных и случайных процессов с приложениями к коммуникациям. Springer. ISBN  978-3-319-68074-3.
  5. ^ Юли Чжан, Хуайю Ву, Лэй Чэн (июнь 2012 г.). Некоторые новые формулы деформации о дисперсии и ковариации. Труды 4-й Международной конференции по моделированию, идентификации и контролю (ICMIC2012). С. 987–992.CS1 maint: использует параметр авторов (ссылка на сайт)
  6. ^ «Ковариация X и Y | STAT 414/415». Государственный университет Пенсильвании. Архивировано из оригинал 17 августа 2017 г.. Получено 4 августа, 2019.
  7. ^ Папулис (1991). Вероятность, случайные величины и случайные процессы. Макгроу-Хилл.
  8. ^ Зигрист, Кайл. «Ковариация и корреляция». Университет Алабамы в Хантсвилле. Получено 4 августа, 2019.
  9. ^ а б Губнер, Джон А. (2006). Вероятность и случайные процессы для инженеров-электриков и компьютерщиков. Издательство Кембриджского университета. ISBN  978-0-521-86470-1.
  10. ^ Дональд Э. Кнут (1998). Искусство программирования, том 2: Получисловые алгоритмы, 3-е изд., С. 232. Бостон: Аддисон-Уэсли.
  11. ^ Шуберт, Эрих; Герц, Майкл (2018). «Численно устойчивое параллельное вычисление (ко) дисперсии». Материалы 30-й Международной конференции по управлению научными и статистическими базами данных - SSDBM '18. Божен-Больцано, Италия: ACM Press: 1–12. Дои:10.1145/3221269.3223036. ISBN  9781450365055. S2CID  49665540.
  12. ^ Прайс, Джордж (1970). «Отбор и ковариация». Природа. 227 (5257): 520–521. Дои:10.1038 / 227520a0. PMID  5428476. S2CID  4264723.
  13. ^ Харман, Орен (2020). «Когда наука отражает жизнь: об истоках уравнения цены». Фил. Пер. R. Soc. B. 375 (1797): 1–7. Дои:10.1098 / rstb.2019.0352. ЧВК  7133509. PMID  32146891. Получено 2020-05-15.
  14. ^ Sahidullah, Md .; Киннунен, Томи (март 2016 г.). «Особенности локальной спектральной изменчивости для проверки говорящего». Цифровая обработка сигналов. 50: 1–11. Дои:10.1016 / j.dsp.2015.10.011.