Конверсия данных - Data conversion - Wikipedia

Конверсия данных это преобразование компьютерные данные от одного формат другому. В компьютерной среде данные кодируются различными способами. Например, компьютерное железо построен на основе определенных стандартов, что требует, чтобы данные содержали, например, бит четности чеки. Точно так же Операционная система основан на определенных стандартах обработки данных и файлов. Более того, каждая компьютерная программа обрабатывает данные по-разному. Всякий раз, когда любая из этих переменных изменяется, данные должны быть каким-то образом преобразованы, прежде чем они могут быть использованы другим компьютером, операционной системой или программой. Даже разные версии этих элементов обычно включают разные структуры данных. Например, изменение биты переход от одного формата к другому, обычно с целью обеспечения взаимодействия приложений или возможности использования новых функций, представляет собой просто преобразование данных. Преобразование данных может быть таким же простым, как преобразование текстовый файл от одного кодировка символов система к другому; или более сложные, такие как преобразование форматов офисных файлов или преобразование форматов изображений и форматы аудиофайлов.

Есть много способов преобразования данных в компьютерной среде. Это может быть легко, как в случае обновления до более новой версии компьютерной программы. В качестве альтернативы преобразование может потребовать обработки с использованием специальной программы преобразования, или оно может включать в себя сложный процесс прохождения промежуточных этапов или сложных процедур «экспорта» и «импорта», которые могут включать преобразование в вкладку и из вкладки. -delimited или разделенный запятыми текстовый файл. В некоторых случаях программа может распознавать несколько форматов файлов данных на этапе ввода данных, а затем также может сохранять выходные данные в нескольких различных форматах. Такую программу можно использовать для преобразования формата файла. Если исходный или целевой формат не распознается, то иногда может быть доступна третья программа, которая позволяет преобразовать в промежуточный формат, который затем можно переформатировать с использованием первой программы. Есть много возможных сценариев.

Основы информации

Перед выполнением любого преобразования данных пользователь или прикладной программист должен владеть некоторыми основами вычислений и теория информации в уме. К ним относятся:

  • Компьютер может легко отбросить информацию, но добавление информации требует усилий.
  • Компьютер может добавлять информацию только на основе правил.[нужна цитата ]
  • Передискретизация данных или преобразование в более многофункциональный формат не добавляет информации; он просто освобождает место для этого дополнения, что обычно должен делать человек.
  • Данные, хранящиеся в электронном формате, можно быстро изменять и анализировать.

Например, истинный цвет изображение можно легко преобразовать в оттенки серого, тогда как обратное преобразование - кропотливый процесс. Преобразование Unix текстовый файл в Microsoft (DOS / Windows) текстовый файл включает добавление символов, но это не увеличивает энтропия поскольку он основан на правилах; в то время как добавление информации о цвете к изображению в градациях серого не может быть выполнено программно, поскольку только человек[нужна цитата ] знает, какие цвета необходимы для каждого участка изображения - нет правил, которые можно использовать для автоматизации этого процесса. Преобразование 24-битного PNG к 48-битному не добавляет к нему информации, а только дополняет существующие RGB значения пикселей с нулями[нужна цитата ], так что пиксель со значением FF C3 56, например, становится FF00 C300 5600. Преобразование позволяет изменить пиксель, чтобы он имел значение, например, FF80 C340 56A0, но само преобразование не выполняет что, только дальнейшие манипуляции с изображением. Преобразование изображения или аудиофайла в с потерями формат (как JPEG или же Vorbis ) к без потерь (подобно PNG или же FLAC ) или без сжатия (например, BMP или же WAV ) формат только тратит впустую пространство, поскольку то же изображение с потерей исходной информации (артефакты сжатия с потерями) становится целью. Изображение JPEG никогда не может быть восстановлено до качества исходного изображения, из которого оно было создано, независимо от того, как много пользователь пытается использовать "Артефакт JPEG "Удаление" его или ее программы обработки изображений.

Автоматическое восстановление информации, утерянной из-за сжатие с потерями процесс, вероятно, потребует важных достижений в искусственный интеллект.

Из-за этих реалий теории вычислений и информации преобразование данных часто является сложным и подверженным ошибкам процессом, требующим помощи экспертов.

Основная конверсия

Преобразование данных может происходить непосредственно из одного формата в другой, но многие приложения, которые выполняют преобразование между несколькими форматами, используют промежуточное представление посредством которого любой исходный формат преобразуется в целевой.[1] Например, можно конвертировать Кириллица текст от КОИ8-Р к Окна-1251 используя таблицу поиска между двумя кодировками, но современный подход заключается в преобразовании файла KOI8-R в Unicode сначала и потом до Windows-1251. Это более управляемый подход; вместо того, чтобы нуждаться в таблицах поиска для всех возможных пар кодировок символов, приложению нужна только одна таблица поиска для каждого набора символов, которую оно использует для преобразования в Unicode и обратно, тем самым уменьшая количество таблиц с сотен до нескольких десятков.[нужна цитата ]

Сводное преобразование аналогичным образом используется в других областях. Приложения Office, когда они используются для преобразования между форматами офисных файлов, используют свой внутренний формат файла по умолчанию в качестве основы. Например, текстовый редактор может преобразовать RTF файл в WordPerfect файл путем преобразования RTF в OpenDocument а затем в формате WordPerfect. Программа преобразования изображений не преобразует PCX изображение для PNG напрямую; вместо этого при загрузке изображения PCX он декодирует его в простой растровый формат для внутреннего использования в памяти, а при получении команды на преобразование в PNG это изображение памяти преобразуется в целевой формат. Аудиоконвертер, конвертирующий из FLAC к AAC декодирует исходный файл в необработанный PCM данные сначала в памяти, а затем выполняет сжатие AAC с потерями для этого образа памяти для создания целевого файла.

Преобразование потерянных и неточных данных

Цель преобразования данных - сохранить все данные и как можно больше встроенной информации. Это можно сделать, только если целевой формат поддерживает те же функции и структуры данных, что и в исходном файле. Преобразование текстового редактора в простой текстовый файл обязательно влечет за собой потерю информации о форматировании, поскольку простой текстовый формат не поддерживает конструкции текстового редактора, такие как выделение слова жирным шрифтом. По этой причине преобразование из одного формата в другой, который не поддерживает функцию, которая важна для пользователя, выполняется редко, хотя это может быть необходимо для взаимодействия, например преобразование файла из одной версии Microsoft Word к более ранней версии, чтобы разрешить передачу и использование другими пользователями, у которых на компьютере не установлена ​​такая же более поздняя версия Word.

Потеря информации может быть уменьшена путем приближения в целевом формате. Невозможно преобразовать такой символ, как ä к ASCII, поскольку в стандарте ASCII он отсутствует, но информация может быть сохранена путем аппроксимации символа как ае. Конечно, это не оптимальное решение и может повлиять на такие операции, как поиск и копирование; и если в языке проводится различие между ä и ае, то это приближение действительно связано с потерей информации.

Преобразование данных также может страдать от неточности в результате преобразования между форматами, которые концептуально отличаются. В WYSIWYG парадигма, существующая в текстовых процессорах и настольная издательская система приложений, по сравнению со структурно-описательной парадигмой, найденной в SGML, XML и многие приложения на его основе, например HTML и MathML, является одним из примеров. Использование редактора WYSIWYG HTML объединяет две парадигмы, и в результате получаются файлы HTML с субоптимальным, если не нестандартным, кодом. В парадигме WYSIWYG двойной разрыв строки означает новый абзац, поскольку это визуальная подсказка для такой конструкции, но редактор WYSIWYG HTML обычно преобразует такую ​​последовательность в

, что по своей структуре вообще не является новым абзацем. . Другой пример: преобразование из PDF в редактируемый формат текстового процессора - сложная задача, потому что PDF записывает текстовую информацию, такую ​​как гравировка на камне, с фиксированной позицией каждого символа и жестко запрограммированными переносами строк, тогда как форматы текстовых процессоров допускают перекомпоновку текста. PDF не знает символа пробела - интервал между двумя буквами и интервал между двумя словами различаются только количеством. Поэтому заголовок с достаточным для эффекта межбуквенным интервалом обычно заканчивается пробелами в файле текстового редактора, например ВВЕДЕНИЕ с интервалом 1 Эм как И Н Т Р О Д У К Т И О Н в текстовом процессоре.

Открытые и секретные спецификации

Успешное преобразование данных требует досконального знания работы как исходного, так и целевого форматов. В случае, если спецификация формата неизвестна, разобрать механизм с целью понять, как это работает потребуется для проведения конвертации. Обратный инжиниринг может привести к близкому приближению к исходным спецификациям, но все же могут возникнуть ошибки и отсутствующие функции.

Электроника

Преобразование формата данных также может происходить на физическом уровне системы электронной связи. Преобразование между линейные коды Такие как NRZ и RZ может быть выполнено при необходимости.

Смотрите также

Рекомендации

  1. ^ Драгош-Антон Манолеску; Маркус Фельтер; Джеймс Ноубл (2006). Шаблонные языки разработки программ 5. Эддисон-Уэсли Профессионал. С. 271–. ISBN  978-0-321-32194-7.

Манолеску, Имя (2006). Шаблонные языки разработки программ 5. Река Аппер Сэдл, Нью-Джерси: Аддисон-Уэсли. ISBN  0321321944.