Анализ множественных соответствий - Multiple correspondence analysis

В статистика, анализ множественной корреспонденции (MCA) это анализ данных метод номинальных категориальных данных, используемый для обнаружения и представления базовых структур в наборе данных. Это достигается путем представления данных в виде точек в низкоразмерном Евклидово пространство. Таким образом, процедура является аналогом Анализ главных компонентов для категориальных данных.[1][2] MCA можно рассматривать как расширение простого анализ корреспонденции (CA) в том смысле, что он применим к большому набору категориальных переменных.

Как расширение анализа соответствий

MCA выполняется путем применения алгоритма CA к любой индикаторной матрице (также называемой полная дизъюнктивная таблица - CDT) или Стол Берта формируется из этих переменных.[3] Индикаторная матрица - это матрица индивидов × переменные, где строки представляют индивидов, а столбцы - фиктивные переменные, представляющие категории переменных.[4] Анализ индикаторной матрицы позволяет напрямую представлять людей как точки в геометрическом пространстве. Таблица Берта представляет собой симметричную матрицу всех двусторонних перекрестных таблиц между категориальными переменными и имеет аналогию с таблицей. ковариационная матрица непрерывных переменных. Анализ таблицы Берта - более естественное обобщение простых анализ корреспонденции, а отдельные лица или средства групп лиц могут быть добавлены в качестве дополнительных точек к графическому отображению.

В подходе с индикаторной матрицей связи между переменными выявляются путем расчета расстояния хи-квадрат между различными категориями переменных и между людьми (или респондентами). Эти связи затем представляются графически в виде «карт», что упрощает интерпретацию структур данных. Затем противоположности между строками и столбцами максимизируются, чтобы выявить базовые измерения, которые лучше всего подходят для описания центральных противоположностей в данных. Как в факторный анализ или же Анализ главных компонентов, первая ось является наиболее важным измерением, вторая ось - вторым по важности и т. д. с точки зрения величины учтенной дисперсии. Количество осей, которые необходимо сохранить для анализа, определяется путем расчета модифицированного собственные значения.

Подробности

Поскольку MCA адаптирован для получения статистических выводов из категориальных переменных (таких как вопросы с несколькими вариантами ответов), первое, что нужно сделать, это преобразовать количественные данные (такие как возраст, размер, вес, время суток и т. Д.) В категории (используя например статистические квантили).

Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полностью дизъюнктивную таблицу. Обозначим эту таблицу . Если человек ответили на опрос вопросы с несколькими вариантами ответов с 4 ответами на каждый, буду иметь ряды и столбцы.

Более теоретически [5], предполагать это полностью дизъюнктивная таблица наблюдения за категориальные переменные. Предположим также, что -я переменная имеет разные уровни (категории) и набор . Стол тогда матрица со всеми коэффициентами или же . Установите сумму всех записей быть и представить . В MCA также есть два специальных вектора: первый , содержащую суммы по строкам , и , который содержит суммы по столбцам . Примечание и , диагональные матрицы, содержащие и соответственно по диагонали. В этих обозначениях вычисление MCA по существу состоит в разложении матрицы по сингулярным числам:

Разложение дает тебе , и такой, что с P, Q двумя унитарными матрицами и - обобщенная диагональная матрица сингулярных чисел (той же формы, что и ). Положительные коэффициенты являются собственными значениями .

Интерес к MCA связан с тем, как наблюдения (строки) и переменные (столбцы) в можно разложить. Это разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются формулами

В -й ряды представляют -е наблюдение в факторном пространстве. Точно так же координаты переменных (в том же факторном пространстве, что и наблюдения!) Задаются

Последние работы и расширения

В последние годы несколько студентов Жан-Поль Бензекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как анализ геометрических данных. Это предполагает развитие прямых связей между простыми анализ корреспонденции, Анализ главных компонентов и MCA с формой кластерный анализ известна как евклидова классификация.[6]

Два расширения имеют большое практическое применение.

  • В качестве активных элементов в MCA можно включить несколько количественных переменных. Это расширение называется факторный анализ смешанных данных (Смотри ниже).
  • Очень часто в анкетах вопросы структурированы в несколько выпусков. При статистическом анализе необходимо учитывать эту структуру. Это цель многофакторного анализа, который уравновешивает различные проблемы (т.е. разные группы переменных) в рамках глобального анализа и обеспечивает, помимо классических результатов факторного анализа (в основном графики отдельных лиц и категорий), несколько результатов (индикаторы и графика), характерные для структуры группы.

Области применения

В социальных науках MCA, пожалуй, наиболее известна своим применением Пьер Бурдье,[7] особенно в его книгах La Distinction, Homo Academicus и Государственное дворянство. Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и относительного, охватываемого понятием поле, и геометрические свойства MCA.[8] Социологи, следящие за работой Бурдье, чаще всего выбирают анализ индикаторной матрицы, а не таблицы Берта, во многом из-за того, что центральное значение придается анализу «облака индивидов».[9]

Анализ множественных соответствий и анализ главных компонент

MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. обозначают общий член CDT. равно 1, если индивидуальный обладает категорией и 0, если нет. Обозначим , доля лиц, обладающих категорией Преобразованный CDT (TCDT) имеет общий термин:

Нестандартизированный PCA применяется к TCDT, столбец имея вес , приводит к результатам MCA.

Эта эквивалентность полностью объясняется в книге Жерома Пажеса.[10] Он играет важную теоретическую роль, потому что открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: многофакторный анализ.

Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку это не частный случай CA. Это означает лишь то, что эти методы тесно связаны друг с другом, поскольку принадлежат к одному семейству: факторным методам.[нужна цитата ]

Программного обеспечения

Существует множество программ анализа данных, включающих MCA, например STATA и SPSS. Пакет R FactoMineR также имеет MCA. Это программное обеспечение связано с книгой, описывающей основные методы выполнения MCA.[11]

Рекомендации

  1. ^ Ле Ру; Б. и Х. Руане (2004). Анализ геометрических данных, от анализа соответствий до анализа структурированных данных. Дордрехт. Kluwer: с.180.
  2. ^ Гринакр, Майкл и Блазиус, Йорг (редакторы) (2006). Анализ множественных соответствий и связанные методы. Лондон: Chapman & Hall / CRC.CS1 maint: несколько имен: список авторов (связь) CS1 maint: дополнительный текст: список авторов (связь)
  3. ^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, издание второе. Лондон: Chapman & Hall / CRC.
  4. ^ Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных, Дордрехт. Kluwer: стр.179
  5. ^ Эрве Абди; Доминик Валентин (2007). «Анализ множественных соответствий» (PDF).
  6. ^ Ле Ру; Б. и Х. Руане (2004). Анализ геометрических данных, от анализа соответствий до анализа структурированных данных. Дордрехт. Kluwer.
  7. ^ Скотт, Джон и Гордон Маршалл (2009): Оксфордский словарь социологии, стр. 135. Оксфорд: Издательство Оксфордского университета.
  8. ^ Руане, Анри (2000) "Геометрический анализ анкет. Урок Бурдье La Distinction", в Bulletin de Méthodologie Sociologique 65, стр. 4–18
  9. ^ Лебарон, Фредерик (2009) «Как Бурдье« количественно оценил »Бурдье: геометрическое моделирование данных», в Робсон и Сандерс (ред.) Теория количественной оценки: Пьер Бурдье. Springer, стр. 11-30.
  10. ^ Паж Жером (2014). Многофакторный анализ на примере с использованием R. Chapman & Hall / CRC The R Series London 272 p.
  11. ^ Хассон Ф., Ле С. и Паж Дж. (2009). Исследовательский многомерный анализ на примере с использованием R. Chapman & Hall / CRC The R Series, Лондон. ISBN  978-2-7535-0938-2

внешняя ссылка

  • Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных в Google Книги: [1]
  • Гринакр, Майкл (2008), La Práctica del Análisis de Correspondencias, Фонд BBVA, Мадрид, доступен для бесплатной загрузки на веб-сайте фонда. [2]
  • FactoMineR Программное обеспечение R, предназначенное для исследовательского анализа данных.