Ближайшая строка - Closest string

В теоретическая информатика, то ближайшая строка является NP-жесткий вычислительная проблема,[1] который пытается найти геометрический центр набора входных строк.

Чтобы понять слово «центр», необходимо определить расстояние между двумя струнами. Обычно эту проблему исследуют с помощью Расстояние Хэмминга в уме.

Формальное определение

Более формально, учитывая п длина-м струны s1, s2, ..., sп, ближайшая проблема строки ищет новую длину -м нить s такой, что d(s,sя) ≤ k для всех я, куда d обозначает Расстояние Хэмминга, и где k как можно меньше.[2] А проблема решения версия ближайшей строковой задачи, которая НП-полный, вместо этого берет k как еще один ввод и вопросы, есть ли строка в пределах расстояния Хэмминга k всех входных строк.[1]

Ближайшую строковую проблему можно рассматривать как частный случай универсального 1-центровая проблема в котором расстояния между элементами измеряются с использованием расстояния Хэмминга.

Мотивация

В биоинформатика проблема ближайшей струны - это интенсивно исследуемая грань проблемы поиска сигналов в ДНК.

Упрощения и сокращение данных

Экземпляры ближайшей строки могут содержать информацию, которая не является существенной для проблемы. В некотором смысле обычный ввод ближайшей строки содержит информацию, не усложняющую задачу. Например, если некоторые строки содержат символ а, но ни один из них не содержит символа z, заменив все аs с zs даст по существу эквивалентный экземпляр, то есть: из решения модифицированного экземпляра исходное решение может быть восстановлено, и наоборот.

Нормализация ввода

Когда все входные строки одинаковой длины записываются друг на друга, они образуют матрицу. Некоторые типы строк по существу имеют одинаковые последствия для решения. Например, замена столбца записями (а, а, б) с другим столбцом (Икс, Икс, у) может привести к другой строке решения, но не может повлиять на разрешимость, поскольку оба столбца выражают одну и ту же структуру, а именно. первые две записи равны, но отличаются от третьей.

Экземпляр ввода может быть нормализованный путем замены в каждом столбце наиболее часто встречающегося символа на а, символ, который встречается вторым по частоте с б, и так далее. Учитывая решение нормализованного экземпляра, исходный экземпляр можно найти, переназначив символы решения его исходной версии в каждом столбце.

Порядок расположения столбцов не усугубляет проблему. Это означает, что если мы переставим все входные строки в соответствии с определенной перестановкой π и получим строку решения s к этому измененному экземпляру, то π−1(s) будет решением оригинального экземпляра.

Пример

Найдите место для нормализованной проблемы. Центральная строка аааа и аааб приводит к расстояниям Хэмминга 1,2,1 и 2,1,1 соответственно.

Учитывая экземпляр с тремя входными строками uvwx, xuwv, и xvwu. Это можно было бы записать в виде такой матрицы:

тыvшИкс
Икстышv
Иксvшты

Первый столбец содержит значения (ты, Икс, Икс). В качестве Икс является наиболее часто встречающимся символом, мы заменяем его на а, и мы заменяем ты, второй по частоте персонаж, по б, получив новый первый столбец (б, а, а). Второй столбец содержит значения (v, ты, v). Что касается первого столбца, v заменяется на а и ты заменяется на б, получив новый второй столбец (а, б, а). То же самое со всеми столбцами дает нормализованный экземпляр

бааа
абаб
аааc

Сокращение данных, полученных при нормализации

Нормализация ввода уменьшает размер алфавита до максимального количества входных строк. Это может быть полезно для алгоритмов, время работы которых зависит от размера алфавита.

Аппроксимируемость

Ли и др. развил схема полиномиальной аппроксимации[3] который практически непригоден для использования из-за больших скрытых констант.

Управляемость с фиксированными параметрами

Ближайшая строка может быть решена в , куда k количество входных строк, L - длина всех строк и d - желаемое максимальное расстояние от строки решения до любой входной строки.[4]

Отношение к другим проблемам

Ближайшая строка - это частный случай более общего ближайшая подстрока проблема, которая строго сложнее. В то время как ближайшая строка оказывается управляемый с фиксированными параметрами во многих отношениях ближайшая подстрока W [1] -жесткий что касается этих параметров.

Рекомендации

  1. ^ а б Ланкто, Дж. Кевин; Ли, Мин; Ма, Бин; Ван, Шаоцзю; Чжан, Луксинь (2003), «Выявление проблем с выбором строки», Информация и вычисления, 185 (1): 41–55, Дои:10.1016 / S0890-5401 (03) 00057-9, Г-Н  1994748
  2. ^ Бин Ма и Сямин Сунь (2008), «Более эффективные алгоритмы для ближайших проблем со строками и подстроками» (PDF), Исследования в области вычислительной молекулярной биологии, LNCS, 4955, Springer, стр. 396–409, Дои:10.1007/978-3-540-78839-3_33, ISBN  978-3-540-78838-6CS1 maint: использует параметр авторов (ссылка на сайт)
  3. ^ М. Ли, Б. Ма и Л. Ван. (2002), «О ближайших проблемах со строками и подстроками». (PDF), Журнал ACM, 49 (2): 157–171, arXiv:cs / 0002012, Дои:10.1145/506147.506150CS1 maint: использует параметр авторов (ссылка на сайт)
  4. ^ Йенс Грамм, Рольф Нидермайер и Питер Россмани (2003), «Алгоритмы с фиксированными параметрами для ближайшей строки и связанных проблем», Алгоритмика, 37: 25–42, CiteSeerX  10.1.1.61.736, Дои:10.1007 / s00453-003-1028-3CS1 maint: использует параметр авторов (ссылка на сайт)