Факторный анализ смешанных данных - Factor analysis of mixed data - Wikipedia

В статистика, факторный анализ смешанных данных (FAMD), или же факторный анализ смешанных данных, это факторный метод, посвященный таблицам данных, в которых группа лиц описывается как количественными, так и качественными переменными. Он принадлежит к исследовательским методам, разработанным французской школой под названием Analyze des données основал Жан-Поль Бенцекри.

Период, термин смешанный относится к одновременному присутствию в качестве активных элементов количественных и качественных переменных. Грубо говоря, можно сказать, что FAMD работает как анализ основных компонентов (PCA) для количественных переменных и как анализ множественной корреспонденции (MCA) для качественных переменных.

Объем

Если данные включают оба типа переменных, но активные переменные однородны, можно использовать PCA или MCA.

В самом деле, легко включить дополнительные количественные переменные в MCA с помощью коэффициентов корреляции между переменными и факторами индивидов (фактор индивидов - это вектор, собирающий координаты индивидов на факторной оси); полученное представление представляет собой круг корреляции (как в PCA).

Точно так же в PCA легко включить дополнительные категориальные переменные.[1] Для этого каждая категория представлена ​​центром тяжести лиц, у которых она есть (как MCA).

Когда активные переменные смешаны, обычной практикой является выполнение дискретизации количественных переменных (например, обычно в обследованиях возраст преобразуется в возрастные классы). Полученные таким образом данные могут обрабатываться MCA.

Эта практика достигает своих пределов:

  • Когда людей мало (меньше сотни, чтобы исправить идеи), и в этом случае MCA нестабильна;
  • Когда есть несколько качественных переменных по отношению к количественным переменным (можно не захотеть дискретизировать двадцать количественных переменных, чтобы учесть одну качественную переменную).

Критерий

Данные включают количественные переменные и качественные переменные .

- количественная переменная. Мы заметили:

  • коэффициент корреляции между переменными и  ;
  • квадрат коэффициент корреляции между переменными и .

В СПС , ищем функцию на (функция на присваивает значение каждому индивиду, это случай для исходных переменных и главных компонентов) наиболее коррелированных со всеми переменные в следующем смысле:

максимум.

В MCA Q, ищем функцию на больше относится ко всем переменные в следующем смысле:

максимум.

В FAMD , ищем функцию на тем более относится ко всем переменные в следующем смысле:

максимум.

В этом критерии оба типа переменных играют одинаковую роль. Вклад каждой переменной в этот критерий ограничен 1.

Сюжеты

Представление лиц производится непосредственно из факторов .

Представление количественных переменных построено как в PCA (круг корреляции).

Категории качественных переменных представлены так же, как в MCA: категория находится в центре тяжести людей, которые ею обладают. Обратите внимание, что мы берем точный центроид, а не, как это принято в MCA, центроид с точностью до коэффициента, зависящего от оси (в MCA этот коэффициент равен обратной величине квадратного корня из собственного значения; в FAMD этого было бы недостаточно. ).

Представление переменных называется квадрат отношений. Координата качественной переменной вдоль оси равно квадрату коэффициента корреляции между переменной и фактор ранга (обозначено ). Координаты количественной переменной вдоль оси равна квадрату коэффициента корреляции между переменной и фактор ранга (обозначено ).

Помощь в интерпретации

Индикаторы взаимосвязи между исходными переменными объединяются в так называемую матрицу взаимосвязей, которая содержит на пересечении строки и столбец :

  • Если переменные и количественные, квадрат коэффициента корреляции между переменными и  ;
  • Если переменная качественный и переменный является количественным, квадрат отношения корреляции между и ;
  • Если переменные и качественные, индикатор между переменными и .

Пример

Очень небольшой набор данных (Таблица 1) иллюстрирует работу и результаты работы FAMD. Шесть человек описываются тремя количественными переменными и тремя качественными переменными. Данные были проанализированы с использованием функции пакета R FAMD FactoMineR.

Таблица 1. Данные (тестовый пример).
24.54-B-C
54.54-C-B-C
312-B-B-B
412-B-B-B
111
612-C
Таблица 2. Пример теста. Матрица отношений.
10.000.050.910.000.00
0.0010.900.250.251.00
0.050.9010.130.400.93
0.910.250.1320.251.00
0.000.250.400.2511.00
0.001.000.931.001.002

В матрице отношений коэффициенты равны (количественные переменные), (качественные переменные) или (по одной переменной каждого типа).

Матрица показывает взаимосвязь между двумя типами переменных.

Представление людей (рисунок 1) ясно показывает три группы людей. Первая ось противопоставляет индивидов 1 и 2 всем остальным. Вторая ось противопоставляет индивидов 3 и 4 лицам 5 и 6.

Рисунок 1. FAMD. Пример теста. Представительство физических лиц.
Фигура 2. FAMD. Пример теста. Квадрат отношений.
Рисунок 3. FAMD. Пример теста. Круг корреляции.
Рисунок 4. FAMD. Пример теста. Представление категорий качественных переменных.

Представление переменных (квадрат отношения, рисунок 2) показывает, что первая ось () тесно связан с переменными , и . Кружок корреляции (рисунок 3) указывает знак корреляции между , и ; представление категорий (рис. 4) проясняет характер взаимосвязи между и . Наконец, индивиды 1 и 2, индивидуализированные по первой оси, характеризуются высокими значениями и и по категориям из также.

Этот пример показывает, как FAMD одновременно анализирует количественные и качественные переменные. Таким образом, в этом примере показано первое измерение, основанное на двух типах переменных.

История

Оригинальная работа FAMD принадлежит Бриджит Эскофье.[2] и Гилберт Сапорта.[3] Эта работа была возобновлена ​​в 2002 году Жеромом Пажесом.[4] Наиболее полное изложение FAMD на английском языке включено в книгу Жерома Пажеса.[5]

Программного обеспечения

Метод реализован в пакете R FactoMineR

Рекомендации

  1. ^ Escofier Brigitte & Pagès Jérôme (2008). Анализирует простые и кратные факторы. Данод. Париж. 318 с. п. 27 и след.
  2. ^ Эскофье Бриджит (1979). Обработка одновременных переменных количественных и качественных показателей при анализе факторов. Les cahiers de l’analyse des données, 4, 2, 137–146. http://archive.numdam.org/ARCHIVE/CAD/CAD_1979__4_2/CAD_1979__4_2_137_0/CAD_1979__4_2_137_0.pdf
  3. ^ Сапорта Гилберт (1990). Одновременный анализ качественных и количественных данных. Atti della XXXV riunione Scientifica; società italiana di Statistica, 63–72 . http://cedric.cnam.fr/~saporta/SAQQD.pdf
  4. ^ Паж Жером (2002). Проанализируйте смесь factorielle de données. Аппликация Revue de Statistique, 52, 4, 93–111 http://archive.numdam.org/ARCHIVE/RSA/RSA_2004__52_4/RSA_2004__52_4_93_0/RSA_2004__52_4_93_0.pdf
  5. ^ Паж Жером (2014). Многофакторный анализ на примере с использованием R. Chapman & Hall / CRC The R Series London 272 p.