Факторный анализ - Factor analysis

Факторный анализ это статистический метод, используемый для описания изменчивость среди наблюдаемых, коррелированных переменные с точки зрения потенциально меньшего количества ненаблюдаемых переменных, называемых факторы. Например, возможно, что вариации шести наблюдаемых переменных в основном отражают вариации двух ненаблюдаемых (лежащих в основе) переменных. Факторный анализ ищет такие совместные вариации в ответ на ненаблюдаемые скрытые переменные. Наблюдаемые переменные моделируются как линейные комбинации потенциальных факторов плюс "ошибка «термины. Факторный анализ направлен на поиск независимых скрытых переменных.

Проще говоря, факторная нагрузка переменной количественно определяет степень, в которой переменная связана с данным фактором.[1]

Теория, лежащая в основе методов факторного анализа, заключается в том, что информация, полученная о взаимозависимостях между наблюдаемыми переменными, может быть использована позже для сокращения набора переменных в наборе данных. Факторный анализ широко используется в биологии, психометрия, личность теории маркетинг, Управление продуктом, исследование операций, и финансы. Это может помочь иметь дело с наборами данных, в которых имеется большое количество наблюдаемых переменных, которые, как считается, отражают меньшее количество основных / скрытых переменных. Это один из наиболее часто используемых методов взаимозависимости, который используется, когда соответствующий набор переменных показывает систематическую взаимозависимость, а цель состоит в том, чтобы выявить скрытые факторы, которые создают общность.

Факторный анализ связан с Анализ главных компонентов (PCA), но они не идентичны.[2] В этой области были значительные разногласия по поводу различий между двумя методами (см. поисковый факторный анализ в сравнении с анализом главных компонентов ниже). PCA можно рассматривать как более базовую версию исследовательский факторный анализ (EFA), который был разработан в первые дни до появления высокоскоростных компьютеров. И PCA, и факторный анализ нацелены на уменьшение размерности набора данных, но подходы, используемые для этого, различны для этих двух методов. Факторный анализ четко разработан с целью выявления определенных ненаблюдаемых факторов из наблюдаемых переменных, тогда как PCA напрямую не решает эту задачу; в лучшем случае PCA дает приближение к требуемым факторам.[3] С точки зрения разведочного анализа собственные значения PCA - это завышенные нагрузки компонентов, т. е. загрязненные дисперсией ошибок.[4][5][6][7][8][9]

Статистическая модель

Определение

Предположим, у нас есть набор наблюдаемые случайные величины, со средствами .

Предположим, что для некоторых неизвестных констант и ненаблюдаемые случайные величины (называется "общие факторы, "потому что они влияют на все наблюдаемые случайные величины), где и куда , у нас есть, что члены каждой случайной величины (в отличие от среднего значения этой переменной) должны быть записаны как линейная комбинация из общие факторы :

Здесь находятся ненаблюдаемые условия стохастической ошибки с нулевым средним и конечной дисперсией, которые могут быть разными для всех .

В терминах матрицы мы имеем

Если у нас есть наблюдения, тогда у нас будут размеры , , и . Каждый столбец и обозначает значения для одного конкретного наблюдения, а матрица не меняется в зависимости от наблюдений.

Также наложим следующие предположения на :

  1. и независимы.
  2. (E есть Ожидание )
  3. (Cov - это матрица кросс-ковариации, чтобы убедиться, что факторы не коррелированы).

Любое решение вышеуказанной системы уравнений при соблюдении ограничений для определяется как факторы, и как матрица загрузки.

Предполагать . потом

а значит, из условий, наложенных на над,

или, установив ,

Обратите внимание, что для любого ортогональная матрица , если установить и , критерии нахождения факторов и факторных нагрузок остаются в силе. Следовательно, набор факторов и факторных нагрузок уникален только до ортогональное преобразование.

Пример

Предположим, психолог выдвинул гипотезу о том, что существует два типа интеллект, «вербальный интеллект» и «математический интеллект», ни то, ни другое прямо не наблюдается. Свидетельство гипотеза ищется в результатах экзаменов по каждой из 10 различных академических областей 1000 студентов. Если каждый ученик выбирается случайным образом из большого численность населения, то 10 баллов каждого ученика являются случайными величинами. Гипотеза психолога может сказать, что для каждой из 10 академических областей средний балл по группе всех студентов, которые разделяют некоторую общую пару ценностей вербального и математического «интеллекта», является некоторым. постоянный умноженное на их уровень вербального интеллекта плюс еще одно постоянное умноженное на их уровень математического интеллекта, то есть это линейная комбинация этих двух «факторов». Числа для конкретного предмета, на которые умножаются два вида интеллекта для получения ожидаемой оценки, постулируются гипотезой как одинаковые для всех пар уровней интеллекта и называются "факторная нагрузка" по этой теме.[требуется разъяснение ] Например, гипотеза может утверждать, что прогнозируемые средние способности студента в области астрономия является

{10 × вербальный интеллект учащегося} + {6 × математический интеллект учащегося}.

Числа 10 и 6 - факторные нагрузки, связанные с астрономией. Другие учебные предметы могут иметь другие факторные нагрузки.

Предполагается, что два студента с одинаковыми степенями вербального и математического интеллекта могут иметь разные измеренные способности в астрономии, потому что индивидуальные способности отличаются от средних способностей (предсказанных выше) и из-за самой ошибки измерения. Такие различия составляют то, что в совокупности называется "ошибкой" - статистическим термином, обозначающим величину, на которую индивидуум при измерении отличается от среднего или прогнозируемого уровня его или ее интеллекта (см. ошибки и остатки в статистике ).

Наблюдаемые данные, которые войдут в факторный анализ, будут включать 10 баллов каждого из 1000 студентов, всего 10 000 чисел. Факторные нагрузки и уровни двух видов интеллекта каждого студента должны быть выведены из данных.

Математическая модель того же примера

В дальнейшем матрицы будут обозначаться индексированными переменными. Индексы «Тематика» будут обозначены буквами. , и , со значениями, начинающимися с к что равно в приведенном выше примере. «Факторные» показатели будут обозначаться буквами. , и , со значениями, начинающимися с к что равно в приведенном выше примере. Индексы "экземпляра" или "образца" будут обозначены буквами. , и , со значениями, начинающимися с к . В приведенном выше примере, если образец студенты участвовали в экзамены, оценка-го студента за -й экзамен дает . Цель факторного анализа - охарактеризовать корреляции между переменными. из которых являются частным случаем или набором наблюдений. Для того чтобы переменные были в равных условиях, они нормализованный в стандартные баллы :

где выборочное среднее:

а дисперсия выборки определяется как:

Таким образом, модель факторного анализа для этой конкретной выборки:

или, точнее:

куда

  • это «вербальный интеллект» студента,
  • это ый студенческий "математический интеллект",
  • факторные нагрузки для й предмет, для .

В матрица обозначение, мы имеем

Обратите внимание на это, удвоив шкалу, на которой «вербальный интеллект» - первый компонент в каждом столбце - измеряется, и одновременное уменьшение вдвое факторных нагрузок для вербального интеллекта не имеет никакого значения для модели. Таким образом, не теряется общность, если предположить, что стандартное отклонение факторов вербального интеллекта равно . То же самое и с математическим интеллектом. Более того, по аналогичным причинам не теряется общность, если предположить, что эти два фактора некоррелированный друг с другом. Другими словами:

куда это Дельта Кронекера ( когда и когда Предполагается, что ошибки не зависят от факторов:

Обратите внимание: поскольку любое вращение решения также является решением, это затрудняет интерпретацию факторов. См. Недостатки ниже. В этом конкретном примере, если мы не знаем заранее, что два типа интеллекта не коррелируют, мы не можем интерпретировать эти два фактора как два разных типа интеллекта. Даже если они не коррелируют, мы не можем сказать, какой фактор соответствует вербальному интеллекту, а какой соответствует математическому интеллекту без сторонних аргументов.

Значения нагрузок , средние , а отклонения из "ошибок" необходимо оценить с учетом наблюдаемых данных и (предположение об уровнях факторов фиксируется для данного ). «Основная теорема» может быть получена из приведенных выше условий:

Термин слева - это -член корреляционной матрицы (a матрица, полученная как произведение матрица стандартизированных наблюдений с ее транспонированием) наблюдаемых данных, и ее диагональные элементы будут с. Второй член справа будет диагональной матрицей с членами меньше единицы. Первый член справа - это «сокращенная корреляционная матрица» и будет равен корреляционной матрице, за исключением ее диагональных значений, которые будут меньше единицы. Эти диагональные элементы сокращенной корреляционной матрицы называются «общностями» (которые представляют собой долю дисперсии наблюдаемой переменной, которая учитывается факторами):

Образцы данных не будет, конечно, точно подчиняться фундаментальному уравнению, данному выше, из-за ошибок выборки, неадекватности модели и т. д. Цель любого анализа указанной выше модели - найти факторы и загрузки что в некотором смысле дает "наилучшее соответствие" данным. В факторном анализе наилучшее соответствие определяется как минимум среднеквадратичной ошибки недиагональных остатков корреляционной матрицы:[10]

Это эквивалентно минимизации недиагональных компонентов ковариации ошибок, которые в уравнениях модели имеют нулевые ожидаемые значения. Это должно контрастировать с анализом главных компонент, который стремится минимизировать среднеквадратичную ошибку всех остатков.[10] До появления высокоскоростных компьютеров значительные усилия направлялись на поиск приближенных решений проблемы, особенно при оценке общностей другими способами, что затем значительно упрощает задачу, давая известную сокращенную матрицу корреляции. Затем это было использовано для оценки факторов и нагрузок. С появлением высокоскоростных компьютеров проблема минимизации может быть решена итеративно с достаточной скоростью, а общности вычисляются в процессе, а не требуются заранее. В МинРес Алгоритм особенно подходит для этой проблемы, но вряд ли является единственным итеративным средством поиска решения.

Если коэффициенты решения могут быть скоррелированы (как, например, в случае вращения «облимин»), то соответствующая математическая модель использует перекос координат а не ортогональные координаты.

Геометрическая интерпретация

Геометрическая интерпретация параметров факторного анализа для 3 респондентов на вопрос «а». «Ответ» представлен единичным вектором , который проецируется на плоскость, определяемую двумя ортонормированными векторами и . Вектор проекции и ошибка перпендикулярно плоскости, так что . Вектор проекции можно представить в терминах фактор-векторов как . Квадрат длины вектора проекции - это общность: . Если другой вектор данных были нанесены косинус угла между и было бы : the -запись в корреляционной матрице. (Адаптировано из Хармана, рис. 4.3)[10]

Параметрам и переменным факторного анализа можно дать геометрическую интерпретацию. Данные (), факторы () и ошибки () можно рассматривать как векторы в -мерное евклидово пространство (пространство выборки), представленное как , и соответственно. Поскольку данные стандартизированы, векторы данных имеют единичную длину (). Фактор-векторы определяют -мерное линейное подпространство (т.е. гиперплоскость) в этом пространстве, на которое векторы данных проецируются ортогонально. Это следует из модельного уравнения

и независимость факторов и ошибок: . В приведенном выше примере гиперплоскость - это просто 2-мерная плоскость, определяемая двумя факторами-векторами. Проекция векторов данных на гиперплоскость определяется выражением

а ошибки - это векторы от этой проецируемой точки до точки данных и перпендикулярны гиперплоскости. Цель факторного анализа - найти гиперплоскость, которая в некотором смысле «лучше всего подходит» к данным, поэтому не имеет значения, как выбираются факторные векторы, которые определяют эту гиперплоскость, если они независимы и лежат в гиперплоскость. Мы можем указать их как ортогональные, так и нормальные () без потери общности. После того, как подходящий набор факторов найден, они также могут быть произвольно повернуты в пределах гиперплоскости, так что любое вращение векторов факторов будет определять ту же самую гиперплоскость, а также быть решением. В результате, в приведенном выше примере, в котором соответствующая гиперплоскость является двумерной, если мы не знаем заранее, что два типа интеллекта не коррелированы, то мы не можем интерпретировать два фактора как два разных типа интеллекта. Даже если они не коррелируют, мы не можем сказать, какой фактор соответствует вербальному интеллекту, а какой соответствует математическому интеллекту, или являются ли факторы линейными комбинациями обоих без сторонних аргументов.

Векторы данных иметь единицу длины. Элементы корреляционной матрицы для данных задаются . Матрицу корреляции можно геометрически интерпретировать как косинус угла между двумя векторами данных. и . Диагональные элементы явно будут s, а недиагональные элементы будут иметь абсолютные значения, меньшие или равные единице. «Уменьшенная корреляционная матрица» определяется как

.

Цель факторного анализа - выбрать аппроксимирующую гиперплоскость так, чтобы уменьшенная корреляционная матрица воспроизводила корреляционную матрицу как можно ближе, за исключением диагональных элементов корреляционной матрицы, которые, как известно, имеют единичное значение. Другими словами, цель состоит в том, чтобы как можно точнее воспроизвести взаимные корреляции в данных. В частности, для аппроксимирующей гиперплоскости среднеквадратичная ошибка недиагональных компонентов

должен быть минимизирован, и это достигается путем минимизации его относительно набора ортонормированных векторов факторов. Видно, что

Член справа - это просто ковариация ошибок. В модели ковариация ошибок указывается как диагональная матрица, и поэтому вышеупомянутая задача минимизации фактически даст "наилучшее соответствие" модели: она даст выборочную оценку ковариации ошибки, которая имеет свои недиагональные компоненты. минимизированы в среднеквадратическом смысле. Видно, что поскольку являются ортогональными проекциями векторов данных, их длина будет меньше или равна длине проецируемого вектора данных, равной единице. Квадрат этих длин - это просто диагональные элементы сокращенной корреляционной матрицы. Эти диагональные элементы сокращенной корреляционной матрицы известны как «общности»:

Большие значения общностей будут указывать на то, что аппроксимирующая гиперплоскость довольно точно воспроизводит корреляционную матрицу. Средние значения факторов также должны быть ограничены равными нулю, из чего следует, что средние значения ошибок также будут равны нулю.

Практическая реализация

Виды факторного анализа

Исследовательский факторный анализ

Исследовательский факторный анализ (EFA) используется для выявления сложных взаимосвязей между элементами и элементами группы, которые являются частью единых концепций.[11] Исследователь не делает априори предположения о взаимосвязях между факторами.[11]

Подтверждающий факторный анализ

Подтверждающий факторный анализ (CFA) - более сложный подход, который проверяет гипотезу о том, что элементы связаны с конкретными факторами.[11] CFA использует структурное моделирование уравнение протестировать модель измерения, в которой нагрузка на факторы позволяет оценить взаимосвязь между наблюдаемыми и ненаблюдаемыми переменными.[11] Подходы к моделированию структурным уравнением могут учитывать погрешность измерения и являются менее строгими, чем оценка методом наименьших квадратов.[11] Предполагаемые модели проверяются на фактических данных, и анализ продемонстрирует нагрузки наблюдаемых переменных на скрытые переменные (факторы), а также корреляцию между скрытыми переменными.[11]

Типы экстракции факторов

Анализ главных компонентов (PCA) - широко используемый метод экстракции факторов, который является первым этапом EFA.[11] Веса факторов вычисляются для извлечения максимально возможной дисперсии, при этом последующее разложение на множители продолжается до тех пор, пока не останется значимой дисперсии.[11] Затем факторную модель необходимо повернуть для анализа.[11]

Канонический факторный анализ, также называемый каноническим факторингом Рао, - это другой метод вычисления той же модели, что и PCA, который использует метод главной оси. Канонический факторный анализ ищет факторы, которые имеют самую высокую каноническую корреляцию с наблюдаемыми переменными. На канонический факторный анализ не влияет произвольное масштабирование данных.

Общий факторный анализ, также называемый анализом главных факторов (PFA) или факторингом по главной оси (PAF), ищет наименьшее количество факторов, которые могут объяснить общую дисперсию (корреляцию) набора переменных.

Факторинг изображений основан на корреляционная матрица прогнозируемых переменных, а не фактических переменных, где каждая переменная прогнозируется на основе других с использованием множественная регрессия.

Альфа-факторинг основан на максимальной надежности факторов при условии, что переменные выбираются случайным образом из множества переменных. Все другие методы предполагают выборку случаев и фиксированные переменные.

Факторная регрессионная модель - это комбинаторная модель факторной модели и регрессионной модели; или, альтернативно, ее можно рассматривать как гибридную факторную модель,[12] факторы которых частично известны.

Терминология

Факторные нагрузки: Общность - это квадрат стандартизированной внешней нагрузки элемента. Аналогично Пирсона r -в квадрате, возведенная в квадрат факторная нагрузка - это процент отклонения в этой индикаторной переменной, объясненной этим фактором. Чтобы получить процент дисперсии всех переменных, учитываемых каждым фактором, сложите сумму возведенных в квадрат факторных нагрузок для этого фактора (столбец) и разделите на количество переменных. (Обратите внимание, что количество переменных равно сумме их дисперсий, поскольку дисперсия стандартизованной переменной равна 1.) Это то же самое, что и деление фактора собственное значение по количеству переменных.

Интерпретация факторных нагрузок: согласно практическому правилу подтверждающего факторного анализа, нагрузки должны быть 0,7 или выше, чтобы подтвердить, что независимые переменные, определенные априори, представлены конкретным фактором, исходя из того, что уровень 0,7 соответствует примерно половине отклонение показателя объясняется фактором. Однако стандарт 0,7 является высоким, и реальные данные могут не соответствовать этому критерию, поэтому некоторые исследователи, особенно в исследовательских целях, будут использовать более низкий уровень, такой как 0,4 для центрального фактора и 0,25 для другие факторы. В любом случае факторные нагрузки следует интерпретировать в свете теории, а не с помощью произвольных уровней отсечения.

В косой вращения, можно исследовать как матрицу шаблонов, так и матрицу структуры. Структурная матрица - это просто матрица факторных нагрузок, как при ортогональном вращении, представляющая дисперсию измеряемой переменной, объясняемую фактором как на основе уникальных, так и общих вкладов. Матрица паттернов, напротив, содержит коэффициенты которые просто представляют собой уникальный вклад. Чем больше факторов, тем ниже коэффициенты структуры, как правило, поскольку будет объяснено больше общих вкладов в дисперсию. Для наклонного вращения исследователь смотрит как на коэффициенты структуры, так и на коэффициенты структуры, приписывая метку фактору. Принципы наклонного вращения можно вывести как из перекрестной энтропии, так и из ее двойной энтропии.[13]

Общность: сумма квадратов факторных нагрузок для всех факторов для данной переменной (строки) является дисперсией этой переменной, учитываемой всеми факторами. Общность измеряет процент дисперсии данной переменной, объясняемой всеми факторами совместно, и может интерпретироваться как надежность индикатора в контексте предполагаемых факторов.

Ложные решения: если общность превышает 1,0, существует ложное решение, которое может отражать слишком маленькую выборку или выбор извлекать слишком много или слишком мало факторов.

Уникальность переменной: изменчивость переменной за вычетом ее общности.

Собственные значения / характеристические корни: собственные значения измеряют количество вариаций в общей выборке, учитываемых каждым фактором. Отношение собственных значений - это отношение объясняющей важности факторов по отношению к переменным. Если фактор имеет низкое собственное значение, то он мало способствует объяснению дисперсии переменных и может быть проигнорирован как менее важный, чем факторы с более высокими собственными значениями.

Суммы извлечения квадратов нагрузок: Начальные собственные значения и собственные значения после извлечения (перечисленные SPSS как «Суммы извлечения квадратов загрузок») такие же для извлечения PCA, но для других методов извлечения собственные значения после извлечения будут ниже, чем их исходные аналоги. SPSS также печатает «Суммы вращения квадратов нагрузок», и даже для PCA эти собственные значения будут отличаться от исходных и извлеченных собственных значений, хотя их сумма будет такой же.

Оценки факторов (также называемые оценками компонентов в PCA): это оценки каждого случая (строки) по каждому фактору (столбцу). Чтобы вычислить факторную оценку для данного случая для данного фактора, нужно взять стандартизированную оценку случая по каждой переменной, умножить на соответствующие нагрузки переменной для данного фактора и суммировать эти продукты. Вычисление оценок факторов позволяет искать выбросы факторов. Кроме того, факторные оценки могут использоваться в качестве переменных в последующем моделировании. (Объясняется с точки зрения PCA, а не с точки зрения факторного анализа).

Критерии определения количества факторов

Исследователи хотят избежать таких субъективных или произвольных критериев удержания фактора, как «это имело смысл для меня». Для решения этой проблемы был разработан ряд объективных методов, позволяющих пользователям определить подходящий набор решений для исследования.[14] Методы могут не совпадать. Например, параллельный анализ может предложить 5 факторов, в то время как MAP Велисера предлагает 6, поэтому исследователь может запросить 5- и 6-факторные решения и обсудить каждое с точки зрения их отношения к внешним данным и теории.

Современные критерии

Параллельный анализ Хорна (PA):[15] Метод моделирования на основе Монте-Карло, который сравнивает наблюдаемые собственные значения с значениями, полученными из некоррелированных нормальных переменных. Фактор или компонент сохраняется, если соответствующее собственное значение больше 95-го процентиля распределения собственных значений, полученных из случайных данных. PA является одним из наиболее часто рекомендуемых правил для определения количества компонентов, которые необходимо сохранить,[14][16] но многие программы не включают эту опцию (заметным исключением является р ).[17] Тем не мение, Formann предоставили как теоретические, так и эмпирические доказательства того, что его применение может быть неприемлемым во многих случаях, поскольку на его эффективность значительно влияют размер образца, различение предметов, и тип коэффициент корреляции.[18]

Тест Velicer's (1976) MAP[19] как описано Кортни (2013)[20] «Включает в себя полный анализ основных компонентов с последующим исследованием серии матриц частичных корреляций» (стр. 397 (хотя обратите внимание, что эта цитата не встречается в Velicer (1976), и номер указанной страницы находится за пределами страниц цитирования) Квадрат корреляции для шага «0» (см. Рисунок 4) является средним квадратом недиагональной корреляции для неотчлененной корреляционной матрицы. На шаге 1 первый главный компонент и связанные с ним элементы разделяются. После этого средний квадрат Затем для шага 1 вычисляется недиагональная корреляция для последующей матрицы корреляции. На шаге 2 первые две главные компоненты разделяются, и снова вычисляется результирующий средний квадрат недиагональной корреляции. Вычисления выполняются для k минус один шаг (k представляет собой общее количество переменных в матрице). После этого выстраиваются все средние квадраты корреляций для каждого шага, и номер шага в анализах, которые привели к i n частичная корреляция с наименьшим средним квадратом определяет количество компонентов или факторов, которые необходимо сохранить.[19] С помощью этого метода компоненты сохраняются до тех пор, пока дисперсия в корреляционной матрице представляет систематическую дисперсию, в отличие от дисперсии остатка или ошибки. Хотя методологически метод MAP близок к анализу основных компонентов, он показал себя достаточно хорошо при определении количества факторов, которые необходимо сохранить в нескольких исследованиях моделирования.[14][21][22][23] Эта процедура доступна через пользовательский интерфейс SPSS,[20] так же хорошо как психопат пакет для Язык программирования R.[24][25]

Старые методы

Критерий Кайзера: правило Кайзера состоит в том, чтобы отбросить все компоненты с собственными значениями ниже 1.0 - это собственное значение, равное информации, приходящейся на средний отдельный элемент. Критерий Кайзера используется по умолчанию в SPSS и большинство статистическое программное обеспечение но не рекомендуется при использовании в качестве единственного критерия отсечения для оценки количества факторов, поскольку он имеет тенденцию к чрезмерному извлечению факторов.[26] Создан вариант этого метода, в котором исследователь вычисляет доверительные интервалы для каждого собственного значения и сохраняет только те факторы, у которых весь доверительный интервал больше 1.0.[21][27]

Осыпь сюжет:[28]Тест на осыпи Кеттелла отображает компоненты в виде оси X и соответствующих собственные значения как Ось Y. При движении вправо к более поздним компонентам собственные значения уменьшаются. Когда падение прекращается и кривая изгибается в сторону менее крутого спуска, тест осыпи Кеттелла требует опускать все остальные компоненты после того, который начинается в локте. Это правило иногда критикуют за то, что оно поддается контролю исследователей "обман «. То есть, поскольку выбор« локтя »может быть субъективным, поскольку кривая имеет несколько изгибов или является плавной кривой, у исследователя может возникнуть соблазн установить пороговое значение для числа факторов, требуемых его программой исследования.[нужна цитата ]

Критерии объяснения дисперсии: некоторые исследователи просто используют правило сохранения достаточного количества факторов, чтобы составлять 90% (иногда 80%) вариации. Где цель исследователя подчеркивает скупость (объясняя дисперсию с помощью минимального количества факторов), критерий может составлять всего 50%.

Байесовский метод

Байесовский подход, основанный на Индийский буфет возвращает распределение вероятностей над вероятным количеством скрытых факторов.[29]

Методы вращения

Неповорачиваемый результат максимизирует дисперсию, обусловленную первым и последующими факторами, и заставляет факторы быть ортогональный. Это сжатие данных происходит за счет того, что большая часть элементов загружается на ранние факторы, и, как правило, из-за того, что многие элементы существенно загружаются более чем одним фактором. Вращение служит для того, чтобы сделать вывод более понятным, ища так называемую «простую структуру»: схему нагрузок, при которой каждый элемент сильно нагружается только по одному из факторов и намного слабее по другим факторам. Вращения могут быть ортогональными или наклонными (позволяющими соотносить факторы).

Вращение Varimax представляет собой ортогональное вращение факторных осей, чтобы максимизировать дисперсию возведенных в квадрат нагрузок фактора (столбца) по всем переменным (строкам) в факторной матрице, что имеет эффект дифференцирования исходных переменных по извлеченным факторам. Каждый фактор будет иметь либо большие, либо малые нагрузки любой конкретной переменной. Решение Varimax дает результаты, которые максимально упрощают идентификацию каждой переменной с помощью одного фактора. Это наиболее распространенный вариант вращения. Однако ортогональность (то есть независимость) факторов часто является нереалистичным предположением. Наклонные вращения включают ортогональные вращения, и по этой причине наклонные вращения являются предпочтительным методом. Учет факторов, которые коррелируют друг с другом, особенно применимо в психометрических исследованиях, поскольку отношения, мнения и интеллектуальные способности, как правило, коррелируют, и поскольку во многих ситуациях было бы нереалистично предположить иное.[30]

Вращение Quartimax - это ортогональная альтернатива, которая сводит к минимуму количество факторов, необходимых для объяснения каждой переменной. Этот тип вращения часто создает общий фактор, на который в высокой или средней степени загружается большинство переменных. Такая факторная структура обычно не помогает целям исследования.

Ротация Equimax - это компромисс между критериями варимакс и квартимакс.

Прямое вращение облимина является стандартным методом, когда нужно получить неортогональное (наклонное) решение, то есть такое, в котором факторы могут быть коррелированы. Это приведет к более высоким собственным значениям, но уменьшению интерпретируемость факторов. Смотри ниже.[требуется разъяснение ]

Вращение Promax - это альтернативный метод неортогонального (наклонного) вращения, который в вычислительном отношении быстрее, чем метод прямого наклона, и поэтому иногда используется для очень больших наборы данных.

Факторный анализ высшего порядка

Факторный анализ высшего порядка статистический метод, состоящий из повторяющихся шагов факторного анализа - наклонное вращение - факторный анализ повернутых факторов. Его заслуга в том, чтобы дать возможность исследователю увидеть иерархическую структуру изучаемых явлений. Для интерпретации результатов следует либо постмножение Главная матрица факторных моделей матрицами факторных образов более высокого порядка (Gorsuch, 1983) и, возможно, применяя Вращение Varimax результату (Thompson, 1990) или с помощью решения Шмида-Леймана (SLS, Schmid & Leiman, 1957, также известного как преобразование Шмида-Леймана), которое приписывает вариация от основных факторов до факторов второго порядка.

В психометрии

История

Чарльз Спирман был первым психологом, который обсудил общий факторный анализ[31] и сделал это в своей статье 1904 года.[32] Он предоставил немного подробностей о его методах и был посвящен однофакторным моделям.[33] Он обнаружил, что оценки школьников по широкому кругу, казалось бы, не связанных между собой предметов имеют положительную корреляцию, что привело его к постулату, что одна общая умственная способность или грамм, лежит в основе и формирует когнитивные способности человека.

Первоначальное развитие общего факторного анализа с множеством факторов было дано Луи Терстон в двух статьях начала 1930-х гг.[34][35] резюмировал в своей книге 1935 года, Вектор разума.[36] Терстон представил несколько важных концепций факторного анализа, включая общность, уникальность и ротацию.[37] Он выступал за «простую структуру» и разработал методы вращения, которые можно было бы использовать как способ достижения такой структуры.[31]

В Q методология, Стивенсон, ученик Спирмена, различают р факторный анализ, ориентированный на изучение межиндивидуальных различий, и Q факторный анализ, ориентированный на субъективные внутрииндивидуальные различия.[38][39]

Раймонд Кеттелл был ярым сторонником факторного анализа и психометрия и использовал многофакторную теорию Терстона для объяснения интеллекта. Кеттелл также разработал «осыпной» тест и коэффициенты сходства.

Приложения в психологии

Факторный анализ используется для выявления «факторов», объясняющих различные результаты различных тестов. Например, исследование интеллекта показало, что люди, получившие высокий балл в тесте на вербальные способности, также хороши в других тестах, требующих вербальных способностей. Исследователи объяснили это использованием факторного анализа для выделения одного фактора, часто называемого вербальным интеллектом, который представляет степень, в которой кто-то может решать проблемы, связанные с вербальными навыками.

Факторный анализ в психологии чаще всего связан с исследованиями интеллекта. Однако он также использовался для поиска факторов в широком диапазоне областей, таких как личность, отношения, убеждения и т. Д. Он связан с психометрия, поскольку он может оценить достоверность инструмента, выяснив, действительно ли инструмент измеряет постулируемые факторы.

Факторный анализ - часто используемый метод в кросс-культурных исследованиях. Он служит для извлечения культурные аспекты. Наиболее известны модели культурных измерений, разработанные Герт Хофстеде, Рональд Инглхарт, Кристиан Вельцель, Шалом Шварц и Михаил Минков.

Преимущества

  • Уменьшение количества переменных за счет объединения двух или более переменных в один фактор. Например, результаты в беге, метании мяча, отбивании, прыжках и поднятии тяжестей можно объединить в один фактор, такой как общие спортивные способности. Обычно в матрице элементов по людям факторы выбираются путем группировки связанных элементов. В методе анализа Q-фактора матрица транспонируется, и факторы создаются путем группирования связанных людей. Например, либералы, либертарианцы, консерваторы и социалисты могут объединяться в отдельные группы.
  • Идентификация групп взаимосвязанных переменных, чтобы увидеть, как они связаны друг с другом. Например, Кэрролл использовал факторный анализ, чтобы построить свою Теория трех слоев. Он обнаружил, что фактор, называемый «широкое визуальное восприятие», относится к тому, насколько хорошо человек справляется с визуальными задачами. Он также обнаружил фактор «широкого слухового восприятия», относящийся к способности слуховой задачи. Кроме того, он обнаружил глобальный фактор, называемый «g» или общий интеллект, который относится как к «широкому зрительному восприятию», так и «широкому слуховому восприятию». Это означает, что кто-то с высоким «g», вероятно, будет обладать как высокой способностью «зрительного восприятия», так и высокой способностью «слухового восприятия», и что «g», следовательно, объясняет хорошую часть того, почему кто-то хорош или плох в обоих из эти домены.

Недостатки

  • «... каждая ориентация одинаково приемлема с математической точки зрения. Но оказалось, что разные факторные теории различаются как в отношении ориентации факторных осей для данного решения, так и в отношении чего-либо еще, так что подгонка модели не оказалась полезной в различая теории ". (Штернберг, 1977[40]). Это означает, что все ротации представляют различные базовые процессы, но все ротации в равной степени являются допустимыми результатами стандартной оптимизации факторного анализа. Таким образом, невозможно выбрать правильное вращение, используя только факторный анализ.
  • Факторный анализ может быть настолько хорош, насколько позволяют данные. В психологии, где исследователям часто приходится полагаться на менее достоверные и надежные меры, такие как самоотчеты, это может быть проблематичным.
  • Интерпретация факторного анализа основана на использовании «эвристики», которая представляет собой решение, которое «удобно, даже если не совсем верно».[41] Можно сделать более одной интерпретации одних и тех же данных с одинаковым факторизацией, и факторный анализ не может выявить причинно-следственную связь.

Исследовательский факторный анализ (EFA) в сравнении с анализом главных компонентов (PCA)

Пока ОДВ и PCA рассматриваются как синонимичные методы в некоторых областях статистики, это подвергалось критике.[42][43] Факторный анализ »занимается предположение о лежащей в основе причинной структуре: [it] предполагает, что ковариация в наблюдаемых переменных обусловлена ​​наличием одной или нескольких скрытых переменных (факторов), которые оказывают причинное влияние на эти наблюдаемые переменные ».[44] Напротив, PCA не предполагает и не зависит от такой основной причинно-следственной связи. Исследователи утверждали, что различия между этими двумя методами могут означать, что есть объективные преимущества от предпочтения одного перед другим на основе аналитической цели. Если факторная модель сформулирована неправильно или предположения не выполняются, то факторный анализ даст ошибочные результаты. Факторный анализ успешно применялся там, где адекватное понимание системы позволяет правильно сформулировать исходную модель. PCA использует математическое преобразование исходных данных без каких-либо предположений о форме ковариационной матрицы. Задача PCA - определить линейные комбинации исходных переменных и выбрать несколько, которые можно использовать для обобщения набора данных без потери большого количества информации.[45]

Аргументы, противопоставляющие PCA и EFA

Fabrigar et al. (1999)[42] рассмотреть ряд причин, по которым PCA не эквивалентен факторному анализу:

  1. Иногда предполагается, что PCA является более быстрым в вычислительном отношении и требует меньше ресурсов, чем факторный анализ. Fabrigar et al. предполагают, что легкодоступные компьютерные ресурсы сделали эту практическую проблему неуместной.
  2. PCA и факторный анализ могут дать аналогичные результаты. К этому вопросу также обращаются Fabrigar et al .; в некоторых случаях, когда общности низкие (например, 0,4), эти два метода дают разные результаты. Фактически, Fabrigar et al. утверждают, что в случаях, когда данные соответствуют предположениям общей факторной модели, результаты PCA являются неточными результатами.
  3. Есть определенные случаи, когда факторный анализ приводит к «случаям Хейвуда». К ним относятся ситуации, когда 100% или более отклонение в измеряемой переменной оценивается как учитываемая в модели. Fabrigar et al. предполагают, что эти случаи действительно информативны для исследователя, указывая на неверно заданную модель или нарушение модели общего фактора. Отсутствие случаев Хейвуда в подходе PCA может означать, что такие проблемы останутся незамеченными.
  4. Исследователи получают дополнительную информацию от подхода PCA, такую ​​как индивидуальный балл по определенному компоненту; такая информация не получается из факторного анализа. Однако, как отмечает Fabrigar et al. утверждают, что типичная цель факторного анализа - определение факторов, определяющих структуру корреляции между измеряемыми переменными - не требует знания факторных оценок и, таким образом, это преимущество сводится на нет. Также возможно вычислить факторные оценки на основе факторного анализа.

Дисперсия против ковариации

Факторный анализ учитывает случайная ошибка это присуще измерению, тогда как PCA этого не делает. Этот момент проиллюстрирован Брауном (2009),[46] который указал, что в отношении корреляционных матриц, участвующих в расчетах:

"В PCA 1,00 ставятся по диагонали, что означает, что должна быть учтена вся дисперсия в матрице (включая дисперсию, уникальную для каждой переменной, дисперсию, общую для переменных, и дисперсию ошибок). Следовательно, это будет по определению , включают в себя все отклонения в переменных. Напротив, в EFA общности помещаются по диагонали, что означает, что учитывается только дисперсия, общая с другими переменными (исключая дисперсию, уникальную для каждой переменной, и дисперсию ошибок). поэтому, по определению, будет включать только дисперсию, которая является общей для переменных ».

— Браун (2009), Анализ основных компонентов и исследовательский факторный анализ - Определения, различия и выбор

По этой причине Браун (2009) рекомендует использовать факторный анализ, когда существуют теоретические идеи о взаимосвязях между переменными, тогда как PCA следует использовать, если целью исследователя является изучение закономерностей в их данных.

Различия в процедуре и результатах

Различия между PCA и факторным анализом (FA) дополнительно проиллюстрированы Suhr (2009):[43]

  • PCA приводит к основным компонентам, которые объясняют максимальную дисперсию наблюдаемых переменных; FA составляет общий расхождение в данных.
  • PCA вставляет единицы на диагоналях корреляционной матрицы; FA корректирует диагонали корреляционной матрицы с помощью уникальных факторов.
  • PCA минимизирует сумму квадратов перпендикулярных расстояний к оси компонента; FA оценивает факторы, которые влияют на реакцию на наблюдаемые переменные.
  • Баллы компонентов в PCA представляют собой линейную комбинацию наблюдаемых переменных, взвешенных по собственные векторы; наблюдаемые переменные в FA представляют собой линейные комбинации основных и уникальных факторов.
  • В PCA полученные компоненты не поддаются интерпретации, т.е. они не представляют собой лежащие в основе «конструкции»; в FA лежащие в основе конструкции могут быть помечены и легко интерпретированы при наличии точной спецификации модели.


В маркетинге

Основные шаги:

Сбор информации

Стадия сбора данных обычно выполняется профессионалами в области маркетинговых исследований. Вопросы опроса просят респондента оценить образец продукта или описания концепций продукта по ряду атрибутов. Выбирается от пяти до двадцати атрибутов. Они могут включать в себя такие вещи, как простота использования, вес, точность, долговечность, цветность, цена или размер. Выбранные атрибуты будут различаться в зависимости от изучаемого продукта. Тот же вопрос задается обо всех продуктах в исследовании. Данные для нескольких продуктов кодируются и вводятся в статистическую программу, такую ​​как р, SPSS, SAS, Stata, СТАТИСТИКА, JMP и SYSTAT.

Анализ

Анализ позволит выделить основные факторы, объясняющие данные, с помощью матрицы ассоциаций.[47] Факторный анализ - это метод взаимозависимости. Рассматривается полный набор взаимозависимых отношений. Нет спецификации зависимых переменных, независимых переменных или причинно-следственной связи.Факторный анализ предполагает, что все рейтинговые данные по различным атрибутам могут быть сокращены до нескольких важных измерений. Это сокращение возможно, потому что некоторые атрибуты могут быть связаны друг с другом. Рейтинг, присвоенный одному атрибуту, частично является результатом влияния других атрибутов. Статистический алгоритм деконструирует рейтинг (называемый необработанным баллом) на его различные компоненты и реконструирует частичные баллы в баллы основных факторов. Степень корреляции между исходной необработанной оценкой и окончательной оценкой фактора называется оценкой факторная нагрузка.

Преимущества

  • Могут использоваться как объективные, так и субъективные атрибуты при условии, что субъективные атрибуты могут быть преобразованы в оценки.
  • Факторный анализ может выявить скрытые измерения или конструкции, которые прямой анализ не может.
  • Это просто и недорого.

Недостатки

  • Полезность зависит от способности исследователей собрать достаточный набор атрибутов продукта. Если важные атрибуты исключены или игнорируются, ценность процедуры уменьшается.
  • Если наборы наблюдаемых переменных очень похожи друг на друга и отличаются от других элементов, факторный анализ присвоит им один фактор. Это может скрыть факторы, которые представляют более интересные отношения.[требуется разъяснение ]
  • Факторы именования могут потребовать знания теории, поскольку кажущиеся несходными атрибутами могут сильно коррелировать по неизвестным причинам.

По физическим и биологическим наукам

Факторный анализ также широко используется в физических науках, таких как геохимия, гидрохимия,[48] астрофизика и космология, а также биологические науки, такие как экология, молекулярная биология, нейробиология и биохимия.

При управлении качеством подземных вод важно соотнести пространственное распределение различных химических параметров с различными возможными источниками, которые имеют разные химические характеристики. Например, сульфидный рудник может быть связан с высоким уровнем кислотности, растворенными сульфатами и переходными металлами. Эти сигнатуры могут быть идентифицированы как факторы посредством факторного анализа в R-режиме, а расположение возможных источников может быть предложено путем контурирования оценок факторов.[49]

В геохимия, разные факторы могут соответствовать разным минеральным ассоциациям и, следовательно, минерализации.[50]

В анализе микрочипов

Факторный анализ может использоваться для подведения итогов высокой плотности олигонуклеотид ДНК-микрочипы данные на уровне зонда для Affymetrix GeneChips. В этом случае скрытой переменной соответствует РНК концентрация в образце.[51]

Выполнение

С 1980-х годов факторный анализ был реализован в нескольких программах статистического анализа:

Смотрите также

Рекомендации

  1. ^ Бандалос, Дебора Л. (2017). Теория измерений и приложения в социальных науках. Гилфорд Пресс.
  2. ^ Bartholomew, D.J .; Стил, Ф .; Galbraith, J .; Мустаки, И. (2008). Анализ многомерных данных социальных наук. Статистика в серии социальных и поведенческих наук (2-е изд.). Тейлор и Фрэнсис. ISBN  978-1584889601.
  3. ^ Jolliffe I.T. Анализ главных компонентов, Серия: Springer Series in Statistics, 2-е изд., Springer, NY, 2002, XXIX, 487 p. 28 илл. ISBN  978-0-387-95442-4
  4. ^ Кеттелл, Р. Б. (1952). Факторный анализ. Нью-Йорк: Харпер.
  5. ^ Фрухтер, Б. (1954). Введение в факторный анализ. Ван Ностранд.
  6. ^ Кеттелл, Р. Б. (1978). Использование факторного анализа в поведенческих науках и науках о жизни. Нью-Йорк: Пленум.
  7. ^ Чайлд, Д. (2006). Основы факторного анализа, 3-е издание. Bloomsbury Academic Press.
  8. ^ Горсуч, Р. Л. (1983). Факторный анализ, 2-е издание. Хиллсдейл, Нью-Джерси: Эрлбаум.
  9. ^ Макдональд, Р. П. (1985). Факторный анализ и связанные с ним методы. Хиллсдейл, Нью-Джерси: Эрлбаум.
  10. ^ а б c Харман, Гарри Х. (1976). Современный факторный анализ. Издательство Чикагского университета. С. 175, 176. ISBN  978-0-226-31652-9.
  11. ^ а б c d е ж грамм час я Полит Д. Ф. Бек CT (2012). Медсестринское исследование: создание и оценка доказательств для сестринской практики, 9-е изд.. Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins.
  12. ^ Мэн, Дж. (2011). «Раскрытие регуляции кооперативных генов с помощью микроРНК и факторов транскрипции в глиобластоме с использованием модели неотрицательного гибридного фактора». Международная конференция по акустике, обработке речи и сигналов. Архивировано из оригинал 23 ноября 2011 г.
  13. ^ Liou, C.-Y .; Musicus, Б. (2008). «Кросс-энтропийная аппроксимация структурированных гауссовских ковариационных матриц». Транзакции IEEE при обработке сигналов. 56 (7): 3362–3367. Bibcode:2008ITSP ... 56.3362L. Дои:10.1109 / TSP.2008.917878. S2CID  15255630.
  14. ^ а б c Цвик, Уильям Р .; Велисер, Уэйн Ф. (1986). «Сравнение пяти правил определения количества компонентов, которые необходимо сохранить». Психологический бюллетень. 99 (3): 432–442. Дои:10.1037//0033-2909.99.3.432.
  15. ^ Хорн, Джон Л. (июнь 1965 г.). «Обоснование и тест на количество факторов в факторном анализе». Психометрика. 30 (2): 179–185. Дои:10.1007 / BF02289447. PMID  14306381. S2CID  19663974.
  16. ^ Добрибан, Эдгар (2017-10-02). «Перестановочные методы для факторного анализа и PCA». arXiv:1710.00479v2 [math.ST ].
  17. ^ * Ledesma, R.D .; Валеро-Мора, П. (2007). «Определение количества факторов, которые необходимо сохранить в EFA: простая в использовании компьютерная программа для проведения параллельного анализа». Практические оценочные исследования и оценка. 12 (2): 1–11.
  18. ^ Тран, США, и Форманн, А.К. (2009). Выполнение параллельного анализа при получении одномерности при наличии двоичных данных. Образовательные и психологические измерения, 69, 50-61.
  19. ^ а б Велисер, В.Ф. (1976). «Определение количества компонентов из матрицы частных корреляций». Психометрика. 41 (3): 321–327. Дои:10.1007 / bf02293557. S2CID  122907389.
  20. ^ а б Кортни, М. Г. Р. (2013). Определение количества факторов, которые необходимо сохранить в EFA: использование SPSS R-Menu v2.0 для более разумных оценок. Практическая оценка, исследования и оценка, 18 (8). Доступно онлайн:http://pareonline.net/getvn.asp?v=18&n=8
  21. ^ а б Warne, R.T .; Ларсен, Р. (2014). «Оценка предложенной модификации правила Гуттмана для определения количества факторов в исследовательском факторном анализе». Психологический тест и моделирование оценки. 56: 104–123.
  22. ^ Рушио, Джон; Рош, Б. (2012). «Определение количества факторов, которые необходимо сохранить в исследовательском факторном анализе с использованием данных сравнения известной факторной структуры». Психологическая оценка. 24 (2): 282–292. Дои:10.1037 / a0025697. PMID  21966933.
  23. ^ Гарридо, Л. Э., и Абад, Ф. Дж., И Понсода, В. (2012). Новый взгляд на параллельный анализ Хорна с порядковыми переменными. Психологические методы. Предварительная онлайн-публикация. Дои:10.1037 / a0030005
  24. ^ Ревелль, Уильям (2007). «Определение количества факторов: на примере NEO-PI-R» (PDF). Цитировать журнал требует | журнал = (помощь)
  25. ^ Ревелль, Уильям (8 января 2020 г.). «Психология: процедуры психологического, психометрического и личностного исследования».
  26. ^ Bandalos, D.L .; Бём-Кауфман, М.Р. (2008). «Четыре распространенных заблуждения в исследовательском факторном анализе». В Лансе, Чарльз Э .; Ванденберг, Роберт Дж. (Ред.). Статистические и методологические мифы и городские легенды: доктрина, истина и вымысел в организационных и социальных науках. Тейлор и Фрэнсис. С. 61–87. ISBN  978-0-8058-6237-9.
  27. ^ Larsen, R .; Варн, Р. Т. (2010). «Оценка доверительных интервалов для собственных значений в исследовательском факторном анализе». Методы исследования поведения. 42 (3): 871–876. Дои:10.3758 / BRM.42.3.871. PMID  20805609.
  28. ^ Кеттелл, Раймонд (1966). «Осыпной тест на количество факторов». Многомерное поведенческое исследование. 1 (2): 245–76. Дои:10.1207 / с15327906mbr0102_10. PMID  26828106.
  29. ^ Алпайдин (2020). Введение в машинное обучение (5-е изд.). С. 528–9.
  30. ^ Рассел, Д.В. (Декабрь 2002 г.). «В поисках основных параметров: использование (и злоупотребление) факторного анализа в бюллетене личности и социальной психологии». Бюллетень личности и социальной психологии. 28 (12): 1629–46. Дои:10.1177/014616702237645. S2CID  143687603.
  31. ^ а б Мулайк, Стэнли А (2010). Основы факторного анализа. Второе издание. Бока-Ратон, Флорида: CRC Press. п. 6. ISBN  978-1-4200-9961-4.
  32. ^ Спирмен, Чарльз (1904). «Общий интеллект объективно определен и измерен». Американский журнал психологии. 15 (2): 201–293. Дои:10.2307/1412107. JSTOR  1412107.
  33. ^ Варфоломей, Д. Дж. (1995). «Спирмен и происхождение и развитие факторного анализа». Британский журнал математической и статистической психологии. 48 (2): 211–220. Дои:10.1111 / j.2044-8317.1995.tb01060.x.
  34. ^ Терстон, Луи (1931). «Многофакторный анализ». Психологический обзор. 38 (5): 406–427. Дои:10,1037 / ч0069792.
  35. ^ Терстон, Луи (1934). «Векторы разума». Психологический обзор. 41: 1–32. Дои:10,1037 / ч0075959.
  36. ^ Терстон, Л. Л. (1935). Векторы разума. Многофакторный анализ для выделения первичных признаков. Чикаго, Иллинойс: Издательство Чикагского университета.
  37. ^ Бок, Роберт (2007). «Переосмысление Терстона». В Кадеке, Роберт; МакКаллум, Роберт С. (ред.). Факторный анализ на 100. Махва, Нью-Джерси: Lawrence Erlbaum Associates. п. 37. ISBN  978-0-8058-6212-6.
  38. ^ Маккаун, Брюс (21.06.2013). Q Методология. ISBN  9781452242194. OCLC  841672556.
  39. ^ Стивенсон, В. (август 1935 г.). «Методика факторного анализа». Природа. 136 (3434): 297. Bibcode:1935Натура.136..297С. Дои:10.1038 / 136297b0. ISSN  0028-0836. S2CID  26952603.
  40. ^ Штернберг, Р. Дж. (1977). Метафоры разума: представления о природе интеллекта. Нью-Йорк: Издательство Кембриджского университета. С. 85–111.[требуется проверка ]
  41. ^ "Факторный анализ". Архивировано из оригинал 18 августа 2004 г.. Получено 22 июля, 2004.
  42. ^ а б Фабригар; и другие. (1999). «Оценка использования исследовательского факторного анализа в психологических исследованиях» (PDF). Психологические методы.
  43. ^ а б Зур, Дайан (2009). «Анализ главных компонентов против исследовательского факторного анализа» (PDF). SUGI 30 Труды. Получено 5 апреля 2012.
  44. ^ Статистика SAS. «Анализ основных компонентов» (PDF). Учебник по поддержке SAS.
  45. ^ Меглен, Р.Р. (1991). «Изучение больших баз данных: хемометрический подход с использованием анализа главных компонентов». Журнал хемометрики. 5 (3): 163–179. Дои:10.1002 / cem.1180050305. S2CID  120886184.
  46. ^ Браун, Дж. Д. (январь 2009 г.). «Анализ основных компонентов и исследовательский факторный анализ - определения, различия и выбор» (PDF). Shiken: Информационный бюллетень SIG по тестированию и оценке JALT. Получено 16 апреля 2012.
  47. ^ Риттер, Н. (2012). Сравнение методов без распространения и без распространения в факторном анализе. Документ, представленный на конференции Юго-Западной ассоциации исследований в области образования (SERA) 2012, Новый Орлеан, Лос-Анджелес (ED529153).
  48. ^ Subbarao, C .; Subbarao, N.V .; Чанду, С. (Декабрь 1996 г.). «Характеристика загрязнения подземных вод с помощью факторного анализа». Экологическая геология. 28 (4): 175–180. Bibcode:1996EnGeo..28..175S. Дои:10.1007 / s002540050091. S2CID  129655232.
  49. ^ Любовь, Д .; Hallbauer, D.K .; Amos, A .; Гранова, Р. (2004). «Факторный анализ как инструмент управления качеством подземных вод: два тематических исследования в Южной Африке». Физика и химия Земли. 29 (15–18): 1135–43. Bibcode:2004PCE .... 29.1135L. Дои:10.1016 / j.pce.2004.09.027.
  50. ^ Barton, E.S .; Хальбауэр, Д. (1996). «Микроэлементные и изотопные составы U-Pb типов пирита в протерозойском черном рифе, трансваальская толща, Южная Африка: влияние на генезис и возраст». Химическая геология. 133 (1–4): 173–199. Дои:10.1016 / S0009-2541 (96) 00075-7.
  51. ^ Хохрайтер, Зепп; Клеверт, Джорк-Арне; Обермайер, Клаус (2006). «Новый метод суммирования данных уровня зонда affymetrix». Биоинформатика. 22 (8): 943–9. Дои:10.1093 / биоинформатика / btl033. PMID  16473874.
  52. ^ "sklearn.decomposition.FactorAnalysis - документация scikit-learn 0.23.2". scikit-learn.org.
  53. ^ МакКаллум, Роберт (июнь 1983 г.). «Сравнение программ факторного анализа в SPSS, BMDP и SAS». Психометрика. 48 (2): 223–231. Дои:10.1007 / BF02294017. S2CID  120770421.

дальнейшее чтение

внешняя ссылка