Сжатая структура данных - Compressed data structure

Период, термин сжатая структура данных возникает в Информатика подполя алгоритмы, структуры данных, и теоретическая информатика. Это относится к структуре данных, операции которой примерно такие же быстрые, как и у стандартной структуры данных для проблемы, но размер которой может быть значительно меньше. Размер сжатой структуры данных обычно сильно зависит от энтропии представляемых данных.

Важные примеры сжатых структур данных включают сжатый массив суффиксов[1][2] и FM-индекс,[3] оба из которых могут представлять произвольный текст символов Т для сопоставление с образцом. Учитывая любой шаблон ввода п, они поддерживают операцию поиска, если и где п появляется в Т. Время поиска пропорционально сумме длины шаблона п, очень медленно растущая функция длины текста Т, и количество зарегистрированных совпадений. Место, которое они занимают, примерно равно размеру текста. Т в сжатой энтропией форме, такой как полученная Прогноз на основе частичного совпадения или gzip. Более того, обе структуры данных являются самоиндексируемыми, в том смысле, что они могут восстанавливать текст. Т с произвольным доступом, и, следовательно, основной текст Т можно выбросить. Другими словами, они одновременно обеспечивают сжатое и доступное для быстрого поиска представление текста. Т. Они представляют собой значительное улучшение пространства по сравнению с обычными суффиксное дерево и массив суффиксов, которые занимают во много раз больше места, чем размер Т. Они также поддерживают поиск произвольных шаблонов, в отличие от инвертированный индекс, который поддерживает только поиск по словам. Кроме того, инвертированные индексы не имеют функции самоиндексации.

Важное родственное понятие - понятие лаконичная структура данных, который использует пространство, примерно равное теоретико-информационному минимуму, что является наихудшим понятием пространства, необходимого для представления данных. Напротив, размер сжатой структуры данных зависит от конкретных представляемых данных. Когда данные являются сжимаемыми, как это часто бывает на практике для текста на естественном языке, сжатая структура данных может занимать пространство, очень близкое к теоретико-информационному минимуму, и значительно меньше места, чем большинство схем сжатия.[пример необходим ][нужна цитата ].

использованная литература

  1. ^ Р. Гросси и Дж. С. Виттер, Сжатые массивы суффиксов и деревья суффиксов с приложениями для индексирования текста и сопоставления строк], Материалы 32-го симпозиума ACM по теории вычислений, May 2000, 397-406. Версия журнала в SIAM Журнал по вычислениям, 35(2), 2005, 378-407.
  2. ^ Р. Гросси, А. Гупта, Дж. С. Виттер, Энтропийно сжатые текстовые индексы высокого порядка, Материалы 14-го ежегодного симпозиума SIAM / ACM по дискретным алгоритмам, Январь 2003 г., 841-850.
  3. ^ П. Феррагина и Г. Манзини, Оппортунистические структуры данных с приложениями, Материалы 41-го симпозиума IEEE по основам компьютерных наук, Ноябрь 2000 г., 390-398. Версия журнала в индексировании сжатого текста, Журнал ACM, 52(4), 2005, 552-581.