Таблица сопряженности - Contingency table

В статистика, а Таблица сопряженности (также известный как Кросстабуляция или же перекрестная таблица) является разновидностью стол в матрица формат, отображающий (многомерный) Распределение частоты переменных. Они широко используются в опросных исследованиях, бизнес-аналитике, инженерных и научных исследованиях. Они дают общую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Период, термин Таблица сопряженности впервые был использован Карл Пирсон в «Теории непредвиденных обстоятельств и ее связи с ассоциацией и нормальной корреляцией»,[1] часть Компания Drapers ' Биометрические исследования мемуаров, серия I опубликовано в 1904 году.

Важнейшая проблема многомерная статистика находит структуру (прямой) зависимости, лежащую в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если некоторые из условная независимость раскрываются, то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать теория информации концепции, которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств через относительные частоты.

А сводная таблица это способ создания таблиц непредвиденных обстоятельств с помощью программного обеспечения для работы с электронными таблицами.

Пример

Предположим, есть две переменные: пол (мужской или женский) и руки (правша или левша). Далее предположим, что 100 человек были случайным образом выбраны из очень большой популяции в рамках исследования половых различий в руке. Таблица непредвиденных обстоятельств может быть создана для отображения количества людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств представлена ​​ниже.

Вручено
несса
Секс
ПравшаЛевшаОбщий
Мужской43952
женский44448
Общий8713100

Числа самцов, самок, правшей и левшей называются предельные итоги. Общий итог (общее количество людей, представленных в таблице непредвиденных обстоятельств) - это число в правом нижнем углу.

Таблица позволяет пользователям сразу увидеть, что доля правшей мужчин примерно такая же, как и доля правшей женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношение шансов, а отношение шансов популяции оценивается отношение шансов выборки. В значимость различия между двумя пропорциями можно оценить с помощью различных статистических тестов, включая Критерий хи-квадрат Пирсона, то грамм-тест, Точный тест Фишера, Тест Босхлоо, и Тест Барнарда, при условии, что записи в таблице представляют людей, случайно выбранных из совокупности, о которых следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что существует случайность между двумя переменными. Другими словами, две переменные нет независимый. Если нет непредвиденных обстоятельств, говорят, что две переменные независимый.

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковые переменные, или между порядковыми и категориальными переменными, также могут быть представлены в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Подробнее об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамма Гудмана и Крускала.

Стандартное содержание таблицы непредвиденных обстоятельств

  • Несколько столбцов (исторически они были предназначены для использования всего белого пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называются баннерные точки или же порезы (и строки иногда называют заглушки).
  • Тесты значимости. Обычно либо сравнения столбцов, которые проверяют различия между столбцами и отображают эти результаты с помощью букв, или, сравнение ячеек, которые используют цвет или стрелки, чтобы идентифицировать ячейку в таблице, которая каким-либо образом выделяется.
  • Сети или же сети которые являются промежуточными итогами.
  • Одно или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
  • Невзвешенные размеры выборки (количество).

Меры ассоциации

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Для более полного обсуждения их использования см. Основные статьи, ссылки на которые есть под заголовком каждого подраздела.

Соотношение шансов

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов. Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B или, что эквивалентно (из-за симметрии), отношения шансов из B при наличии A и шансов B при отсутствии A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

отношение шансов:

Коэффициент Phi

Простая мера, применимая только в случае таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент фи (φ) определяется как

где χ2 вычисляется как в Критерий хи-квадрат Пирсона, и N это общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или -1 (полная ассоциация или полная обратная ассоциация) при условии, что он основан на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главная диагональ элементы таблицы за вычетом произведения недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 если и только если каждая предельная пропорция равна 0,5 (а две диагональные клетки пусты).[2]

Крамера V и коэффициент непредвиденных обстоятельств C

Две альтернативы: коэффициент непредвиденных обстоятельств C, и Крамера V.

Формулы для C и V коэффициенты:

и

k количество строк или количество столбцов, в зависимости от того, что меньше.

C имеет недостаток, заключающийся в том, что он не достигает максимального значения 1,0, в частности, максимальное значение, которого он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0 в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий.[3]

C можно настроить так, чтобы он достигал максимального значения 1.0, когда есть полная ассоциация в таблице любого количества строк и столбцов путем разделения C к куда k это количество строк или столбцов, когда таблица квадратная[нужна цитата ], или куда р это количество строк и c количество столбцов.[4]

Коэффициент тетрахорической корреляции

Другой выбор - это коэффициент тетрахорической корреляции но это применимо только к столам 2 × 2. Полихорическая корреляция является расширением тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждого дихотомический мера распределена нормально.[5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения сведены к двум категориям».[6]

Коэффициент тетрахорической корреляции не следует путать с Коэффициент корреляции Пирсона вычисляется путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда коэффициент

В лямбда-коэффициент является мерой силы связи перекрестных таблиц, когда переменные измеряются в номинальный уровень. Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.

Коэффициент неопределенности

В коэффициент неопределенности или U Тейла - еще одна мера для переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или полное совпадение). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которая может быть выражена как

.

Это свойство асимметричности может привести к пониманию, которое не так очевидно при симметричных показателях ассоциации.[7]

Другие

  • Гамма-тест: Нет регулировки ни под размер стола, ни под завязки.
  • Тау Кендалла: Регулировка под завязки.
    • Тау-б: Используется для квадратных столов.
    • Тау-с: Используется для прямоугольных столов.

Смотрите также

  • Матрица путаницы
  • Сводная таблица в программном обеспечении для работы с электронными таблицами сводит данные выборки в перекрестные таблицы со счетами (таблица сопряженности) и / или суммами.
  • Таблицы ОСАГО это инструмент для создания и печати кросс-таблиц.
  • В итеративная пропорциональная подгонка процедура по существу манипулирует таблицами непредвиденных обстоятельств, чтобы соответствовать измененным совместным распределениям или предельным суммам.
  • В многомерная статистика в специальных многомерных дискретных распределениях вероятностей. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
  • Куб OLAP, современная многомерная вычислительная форма таблиц непредвиденных обстоятельств
  • Данные панели, многомерные данные с течением времени

Рекомендации

  1. ^ Карл Пирсон, F.R.S. (1904). Математический вклад в теорию эволюции. Дулау и Ко.
  2. ^ Фергюсон, Г. А. (1966). Статистический анализ в психологии и образовании. Нью-Йорк: Макгроу – Хилл.
  3. ^ Смит, С.С., и Альбаум, Г.С. (2004) Основы маркетинговых исследований. Sage: Thousand Oaks, CA. п. 631
  4. ^ Блейки, Н. (2003) Анализ количественных данных. Sage: Thousand Oaks, CA. п. 100
  5. ^ Фергюсон.[требуется полная цитата ]
  6. ^ Фергюсон, 1966, стр. 244
  7. ^ https://towardsdatascience.com/the-search-for-categorical-correlation-a1cf7f1888c9

дальнейшее чтение

внешняя ссылка