Матрица расстояний - Distance matrix

В математика, Информатика и особенно теория графов, а матрица расстояний это квадратная матрица (двумерный массив), содержащий расстояния, взятые попарно, между элементами множества.[1] В зависимости от используемого приложения расстояние используется для определения этой матрицы, может быть или не быть метрика. Если есть N элементов, эта матрица будет иметь размер N×N. В теоретико-графических приложениях элементы чаще называют точками, узлами или вершинами.

Неметрические матрицы расстояний

В общем случае матрица расстояний представляет собой взвешенную матрица смежности некоторого графа. В сеть, а ориентированный граф с весами, присвоенными дугам, расстояние между двумя узлами сети можно определить как минимум сумм весов на кратчайших путях, соединяющих два узла.[2] Эта функция расстояния, хотя и хорошо определена, не является метрикой. Не требуется никаких ограничений на веса, кроме необходимости иметь возможность комбинировать и сравнивать их, поэтому в некоторых приложениях используются отрицательные веса. Поскольку пути являются направленными, симметрия не может быть гарантирована, и если существуют циклы, матрица расстояний не может быть пустой.

Алгебраическая формулировка вышеизложенного может быть получена с помощью мин-плюс алгебра. Умножение матриц в этой системе определяется следующим образом: Даны два матрицы и , их произведение расстояния определяется как матрица такая, что . Обратите внимание, что недиагональные элементы, которые не связаны напрямую, необходимо установить на бесконечность или подходящее большое значение для правильной работы операций min-plus. Ноль в этих местах будет неправильно интерпретирован как граница без расстояния, стоимости и т. Д.

Если является матрица, содержащая веса ребер график, тогда (используя это произведение расстояний) дает расстояния между вершинами, используя пути длиной не более края и - матрица расстояний графа.

Произвольный граф грамм на п вершины можно моделировать как взвешенный полный граф на п вершин, присвоив вес один каждому ребру полного графа, который соответствует ребру грамм и ноль ко всем остальным краям. W для этого полного графа матрица смежности из грамм. Матрица расстояний грамм можно вычислить из W как указано выше, однако, Wп рассчитывается обычным матричное умножение кодирует только количество путей между любыми двумя вершинами длиной не более п.

Матрицы метрических расстояний

Ценность формализма матрицы расстояний во многих приложениях заключается в том, как матрица расстояний может явно кодировать метрические аксиомы и как она поддается использованию методов линейной алгебры. То есть, если M = (Иксij) с 1 ≤ я, jN матрица расстояний для метрического расстояния, тогда

  1. все элементы на главной диагонали равны нулю (то есть матрица является полая матрица ), т.е. Иксii = 0 для всех 1 ≤ яN,
  2. все недиагональные элементы положительны (Иксij > 0 если яj), (это неотрицательная матрица ),
  3. матрица - это симметричная матрица (Иксij = Иксджи), и
  4. для любого я и j, ИксijИксik + ИкскДж для всех k (неравенство треугольника). Это можно выразить в терминах умножение тропических матриц

Когда матрица расстояний удовлетворяет первым трем аксиомам (что делает ее полуметрической), ее иногда называют матрицей предварительных расстояний. Матрица предварительных расстояний, которую можно вложить в евклидово пространство, называется Матрица евклидовых расстояний.

Другой распространенный пример метрической матрицы расстояний возникает в теория кодирования когда в код блока элементы представляют собой строки фиксированной длины по алфавиту, а расстояние между ними задается Расстояние Хэмминга метрика. Наименьший ненулевой элемент в матрице расстояний измеряет способность кода исправлять и обнаруживать ошибки.

Приложения

Иерархическая кластеризация

Матрица расстояний необходима для иерархическая кластеризация.

Филогенетический анализ

Матрицы расстояний используются в филогенетический анализ.

Другое использование

В биоинформатика, матрицы расстояний используются для представления белок структуры независимо от координат, а также попарные расстояния между двумя последовательностями в пространстве последовательностей. Они используются в структурный и последовательный выравнивания, а также для определения белковых структур из ЯМР или же Рентгеновская кристаллография.

Иногда удобнее выражать данные как матрица сходства.

Он используется для определения корреляция расстояний.

Примеры

Например, предположим, что эти данные должны быть проанализированы, где пиксель Евклидово расстояние это метрика расстояния.

Необработанные данные

Матрица расстояний будет следующей:

абcdеж
а0184222177216231
б184045123128200
c222450129121203
d17712312904683
е21612812146083
ж23120020383830

Затем эти данные можно просмотреть в графической форме как Тепловая карта. На этом изображении черный цвет обозначает расстояние 0, а белый - максимальное расстояние.

Графический вид

Смотрите также

Рекомендации

  1. ^ Вейенберг, Г., и Йошида, Р. (2015). Реконструкция филогении: вычислительные методы. В «Алгебраические и дискретные математические методы для современной биологии» (стр. 293-319). Академическая пресса.
  2. ^ Фрэнк Харари, Роберт З. Норман и Дорвин Картрайт (1965) Структурные модели: введение в теорию ориентированных графов, страницы 134–8, Джон Уайли и сыновья МИСТЕР0184874