Многомерное масштабирование - Multidimensional scaling

Пример классического многомерного масштабирования применительно к схемам голосования в Палата представителей США. Каждая красная точка представляет одного члена палаты представителей от республиканцев, а каждая синяя точка - одного демократа.

Многомерное масштабирование (MDS) - средство визуализации уровня сходство отдельных случаев набора данных. MDS используется для преобразования «информации о попарных« расстояниях »между набором из n объектов или людей» в конфигурацию из n точек, отображаемых в абстрактную Декартово пространство.[1]

С технической точки зрения MDS относится к набору связанных рукоположение методы, используемые в визуализация информации, в частности, для отображения информации, содержащейся в матрица расстояний. Это форма уменьшение нелинейной размерности.

Учитывая матрицу расстояний с расстояниями между каждой парой объектов в наборе и выбранное количество измерений, N, MDS алгоритм помещает каждый объект в N-размерный пространство таким образом, чтобы расстояния между объектами сохранялись как можно лучше. Для N = 1, 2, и 3, полученные точки можно визуализировать на диаграмма рассеяния.[2]

Основной теоретический вклад в MDS был сделан Джеймс О. Рамзи из Университет Макгилла, который также считается отцом функциональный анализ данных.[нужна цитата ]

Типы

Алгоритмы MDS попадают в таксономия, в зависимости от значения входной матрицы:

Классическое многомерное масштабирование

Он также известен как Анализ главных координат (PCoA), шкала Торгерсона или шкала Торгерсона – Гауэра. Он принимает входную матрицу, дающую различия между парами элементов, и выводит координатную матрицу, конфигурация которой минимизирует функция потерь называется напряжение.[2] Например, учитывая воздушные расстояния между многими городами в матрице , где расстояние между координатами и город, данный , вы хотите найти координаты городов. Эта проблема решается в классической МДС.

Общие формы функций потерь, называемые напряжением на расстоянии MDS и деформацией в классической MDS. Напряжение определяется: , где являются членами матрицы определяется на шаге 2 следующего алгоритма.

Шаги классического алгоритма MDS:
Классическая MDS использует тот факт, что координатная матрица может быть получен разложение на собственные значения от . И матрица можно вычислить из матрицы близости с помощью двойного центрирования.[3]
  1. Настройте квадратную матрицу близости
  2. Применяем двойное центрирование: с использованием центрирующая матрица , где количество объектов.
  3. Определить самый большой собственные значения и соответствующие собственные векторы из (где - количество размеров, необходимых для вывода).
  4. Сейчас же, , где матрица собственные векторы и это диагональная матрица из собственные значения .
Классический МДС предполагает Евклидово расстояния. Таким образом, это неприменимо для оценок прямого несходства. [ Должен указать, как минимизировать деформацию - расстояние Фробениуса? ]

Метрическое многомерное масштабирование (mMDS)

Это надмножество классической MDS, которое обобщает процедуру оптимизации на множество функций потерь и входных матриц известных расстояний с весами и т. Д. Полезная функция потерь в этом контексте называется стресс, который часто минимизируется с помощью процедуры, называемой мажоризация стресса. Метрика MDS минимизирует функцию затрат, называемую «стресс», которая представляет собой остаточную сумму квадратов:

: или,

При масштабировании показателей используется преобразование степени с показателем степени, управляемым пользователем. : и для расстояния. В классическом масштабировании . Неметрическое масштабирование определяется использованием изотонической регрессии для непараметрической оценки преобразования различий. [ Непонятные обозначения: ранее был определен в терминах и , согласно которому числитель выше был бы 0. Требует пояснения. ]

Неметрическое многомерное масштабирование (nMDS)

В отличие от метрического MDS, неметрический MDS находит как непараметрический монотонный взаимосвязь между различиями в матрице элемент-элемент и евклидовыми расстояниями между элементами, а также расположением каждого элемента в низкоразмерном пространстве. Отношения обычно находятся с помощью изотоническая регрессия: позволять обозначим вектор близости, монотонное преобразование , и точечные расстояния; затем необходимо найти координаты, которые минимизируют так называемое напряжение,

Существует несколько вариантов этой функции затрат. Программы MDS автоматически минимизируют стресс, чтобы получить решение MDS.
Ядром неметрического алгоритма MDS является процесс двойной оптимизации. Прежде всего необходимо найти оптимальное монотонное преобразование близости. Во-вторых, точки конфигурации должны быть расположены оптимальным образом, чтобы их расстояния как можно точнее соответствовали масштабированной близости. Основные шаги в неметрическом алгоритме MDS:
  1. Найдите случайную конфигурацию точек, например. г. путем выборки из нормального распределения.
  2. Вычислите расстояния d между точками.
  3. Найдите оптимальное монотонное преобразование близости, чтобы получить оптимально масштабированные данные .
  4. Сведите к минимуму напряжение между оптимально масштабированными данными и расстояниями, найдя новую конфигурацию точек.
  5. Сравните напряжение с некоторым критерием. Если напряжение достаточно мало, выйдите из алгоритма, иначе вернитесь к 2.

Луи Гутман Анализ наименьшего пространства (SSA) является примером неметрической процедуры MDS.

Обобщенное многомерное масштабирование (GMD)

Расширение метрического многомерного масштабирования, в котором целевым пространством является произвольное гладкое неевклидово пространство. В случаях, когда различия - это расстояния на поверхности, а целевое пространство - другая поверхность, GMDS позволяет найти вложение одной поверхности в другую с минимальным искажением.[4]

подробности

Анализируемые данные представляют собой набор объекты (цвета, лица, приклады, ...), на которых функция расстояния определено,

дистанция между -й и -ые объекты.

Эти расстояния являются записями матрица несходства

Целью MDS является: , найти векторов такой, что

для всех ,

где это векторная норма. В классической МДС этой нормой является Евклидово расстояние, но в более широком смысле это может быть метрика или произвольная функция расстояния.[5]

Другими словами, MDS пытается найти отображение из объекты в так что расстояния сохраняются. Если размер выбрано 2 или 3, мы можем построить векторы чтобы получить визуализацию сходства между объекты. Обратите внимание, что векторы не уникальны: с евклидовым расстоянием они могут произвольно перемещаться, вращаться и отражаться, поскольку эти преобразования не изменяют попарные расстояния .

(Примечание: символ указывает набор действительные числа, а обозначение относится к декартовому произведению копии , что является -мерное векторное пространство над полем действительных чисел.)

Существуют различные подходы к определению векторов . Обычно МДС формулируется как проблема оптимизации, где находится как минимизатор некоторой функции стоимости, например,

Затем решение может быть найдено с помощью методов численной оптимизации. Для некоторых специально выбранных функций стоимости минимизаторы могут быть сформулированы аналитически в терминах матрицы собственные разложения.[нужна цитата ]

Процедура

Проведение исследования МДС состоит из нескольких этапов:

  1. Формулировка проблемы - Какие переменные вы хотите сравнить? Сколько переменных вы хотите сравнить? С какой целью будет использоваться исследование?
  2. Получение исходных данных - Например: - Респондентам задается ряд вопросов. Для каждой пары продуктов их просят оценить сходство (обычно по 7-балльной шкале). Шкала Лайкерта от очень похожего до очень непохожего). Первый вопрос может быть, например, для Coke / Pepsi, следующий для rootbeer Coke / Hires, следующий для Rootbeer / Dr Pepper, следующий для rootbeer Dr Pepper / Hires и т. Д. Количество вопросов зависит от количества бренды и могут быть рассчитаны как где Q количество вопросов и N количество брендов. Этот подход называется «Восприятие данных: прямой подход». Есть два других подхода. Существует «Данные восприятия: производный подход», при котором продукты разбиваются на атрибуты, которые оцениваются по семантический дифференциал масштаб. Другой - это «подход на основе данных о предпочтениях», при котором респондентов спрашивают о предпочтениях, а не о сходстве.
  3. Запуск статистической программы MDS - Программное обеспечение для выполнения процедуры доступно во многих пакетах статистических программ. Часто есть выбор между Metric MDS (который имеет дело с данными на уровне интервалов или отношений) и Nonmetric MDS.[6] (который имеет дело с порядковыми данными).
  4. Определитесь с количеством измерений - Исследователь должен решить, какое количество измерений он хочет, чтобы компьютер создавал. Интерпретируемость решения MDS часто важна, а решения с более низкой размерностью, как правило, легче интерпретировать и визуализировать. Тем не менее, выбор размеров также является проблемой баланса недостаточной и избыточной установки. Решения с более низкой размерностью могут не подходить, если не учитывать важные аспекты данных несходства. Решения более высокой размерности могут чрезмерно соответствовать шуму при измерениях несходства. Таким образом, инструменты выбора модели, такие как AIC / BIC, байесовские коэффициенты или перекрестная проверка, могут быть полезны для выбора размерности, которая уравновешивает недостаточное и избыточное соответствие.
  5. Отображение результатов и определение размеров - Статистическая программа (или связанный с ней модуль) отобразит результаты. На карте будет нанесен каждый продукт (обычно в двухмерном пространстве). Близость продуктов друг к другу показывает, насколько они похожи или насколько они предпочтительны, в зависимости от того, какой подход был использован. Однако не всегда очевидно, как размеры встраивания на самом деле соответствуют измерениям поведения системы. Здесь можно сделать субъективное суждение о соответствии (см. перцепционное отображение ).
  6. Проверить результаты на надежность и достоверность - вычислить R-квадрат чтобы определить, какая часть дисперсии масштабированных данных может быть учтена процедурой MDS. Минимально допустимым уровнем считается R-квадрат 0,6.[нужна цитата ] R-квадрат 0,8 считается хорошим для метрического масштабирования, а 0,9 считается хорошим для неметрического масштабирования. Другими возможными тестами являются стресс-тест Крускала, тесты с раздельными данными, тесты стабильности данных (т. Е. Устранение одной марки) и тест-повторное тестирование надежности.
  7. Сообщите результаты всесторонне - Наряду с отображением, по крайней мере, измерение расстояния (например, Индекс Соренсона, Индекс Жаккара ) и надежность (например, значение напряжения). Также очень желательно указать алгоритм (например, Kruskal, Mather), который часто определяется используемой программой (иногда заменяет отчет об алгоритме), если вы указали начальную конфигурацию или имели случайный выбор, количество прогонов , оценка размерности, Метод Монте-Карло результаты, количество итераций, оценка стабильности и пропорциональная дисперсия каждой оси (r-квадрат).

Реализации

  • ELKI включает две реализации MDS.
  • MATLAB включает две реализации MDS (для классических (cmdscale) и неклассические (mdscale) МДС соответственно).
  • В Язык программирования R предлагает несколько реализаций MDS.
  • Sklearn содержит функцию sklearn.manifold.MDS.

Смотрите также

использованная литература

  1. ^ Мид, А (1992). «Обзор развития методов многомерного масштабирования». Журнал Королевского статистического общества. Серия D (Статистик). 41 (1): 27–39. JSTOR  234863. Абстрактные. Методы многомерного масштабирования сейчас являются обычным статистическим инструментом в психофизике и сенсорном анализе. Развитие этих методов показано на основе оригинальных исследований Торгерсона (метрическое масштабирование), Шепарда и Краскала (неметрическое масштабирование) через масштабирование индивидуальных различий и методы максимального правдоподобия, предложенные Рамзи.
  2. ^ а б Borg, I .; Гроенен, П. (2005). Современное многомерное масштабирование: теория и приложения (2-е изд.). Нью-Йорк: Springer-Verlag. С. 207–212. ISBN  978-0-387-94845-4.
  3. ^ Викельмайер, Флориан. «Введение в MDS». Отдел исследования качества звука, Ольборгский университет, Дания (2003): 46
  4. ^ Бронштейн А.М., Бронштейн М.М., Киммел Р. (январь 2006 г.). «Обобщенное многомерное масштабирование: основа для частичного согласования поверхностей с инвариантной изометрией». Proc. Natl. Акад. Sci. СОЕДИНЕННЫЕ ШТАТЫ АМЕРИКИ. 103 (5): 1168–72. Bibcode:2006ПНАС..103.1168Б. Дои:10.1073 / pnas.0508601103. ЧВК  1360551. PMID  16432211.
  5. ^ Крускал, Дж. Б., и Уиш, М. (1978), Многомерное масштабирование, Серия работ Университета Сейдж о количественном применении в социальных науках, 07-011. Беверли-Хиллз и Лондон: Sage Publications.
  6. ^ Крускал, Дж. Б. (1964). «Многомерное масштабирование путем оптимизации согласия неметрической гипотезы». Психометрика. 29 (1): 1–27. Дои:10.1007 / BF02289565.

Список используемой литературы

  • Cox, T.F .; Кокс, М.А.А. (2001). Многомерное масштабирование. Чепмен и Холл.
  • Коксон, Энтони П.М. (1982). Руководство пользователя по многомерному масштабированию. С особой ссылкой на библиотеку компьютерных программ MDS (X). Лондон: Образовательные книги Heinemann.
  • Грин, П. (январь 1975 г.). «Маркетинговые приложения MDS: оценка и перспективы». Журнал маркетинга. 39 (1): 24–31. Дои:10.2307/1250799. JSTOR  1250799.
  • МакКьюн, Б. и Грейс, Дж. Б. (2002). Анализ экологических сообществ. Орегон, Гленден-Бич: Разработка программного обеспечения MjM. ISBN  978-0-9721290-0-8.
  • Янг, Форрест В. (1987). Многомерное масштабирование: история, теория и приложения. Лоуренс Эрлбаум Ассошиэйтс. ISBN  978-0898596632.
  • Торгерсон, Уоррен С. (1958). Теория и методы масштабирования. Нью-Йорк: Вили. ISBN  978-0-89874-722-5.