Распределенная файловая система для облака - Distributed file system for cloud

А распределенная файловая система для облака это файловая система который позволяет многим клиентам иметь доступ к данным и поддерживает операции (создание, удаление, изменение, чтение, запись) с этими данными. Каждый файл данных может быть разделен на несколько частей, называемых куски. Каждый фрагмент может храниться на разных удаленных машинах, облегчая параллельное выполнение приложений. Обычно данные хранятся в файлах в иерархическое дерево, где узлы представляют собой каталоги. Существует несколько способов совместного использования файлов в распределенной архитектуре: каждое решение должно подходить для определенного типа приложения, в зависимости от того, насколько сложным является приложение. Между тем необходимо обеспечить безопасность системы. Конфиденциальность, доступность и честность являются основными ключами для безопасной системы.

Пользователи могут совместно использовать вычислительные ресурсы через Интернет благодаря облачные вычисления который обычно характеризуется масштабируемый и эластичный ресурсы - такие как физические серверы, приложения и любые сервисы, которые виртуализированный и распределяется динамически. Синхронизация требуется, чтобы убедиться, что все устройства обновлены.

Распределенные файловые системы позволяют многим крупным, средним и малым предприятиям хранить и получать доступ к своим удаленным данным так же, как и к локальным данным, облегчая использование переменных ресурсов.

Обзор

История

Сегодня существует множество реализаций распределенных файловых систем. Первые файловые серверы были разработаны исследователями в 1970-х годах. Sun Microsystem's Сетевая файловая система стал доступен в 1980-х годах. До этого люди, которые хотели поделиться файлами, использовали кроссовки метод, физически переносящий файлы на носителях с места на место. Когда компьютерные сети начали разрастаться, стало очевидно, что существующие файловые системы имеют множество ограничений и не подходят для многопользовательских сред. Пользователи изначально использовали FTP для обмена файлами.[1] FTP сначала запускался на PDP-10 в конце 1973 года. Даже при использовании FTP файлы нужно было копировать с исходного компьютера на сервер, а затем с сервера на целевой компьютер. Пользователи должны были знать физические адреса всех компьютеров, участвующих в обмене файлами.[2]

Поддерживающие техники

Современные центры обработки данных должны поддерживать большие разнородные среды, состоящие из большого количества компьютеров разной мощности. Облачные вычисления координируют работу всех таких систем с помощью таких методов, как сеть центров обработки данных (DCN), Уменьшение карты каркас, который поддерживает вычисления с интенсивным использованием данных приложения в параллельных и распределенных системах, и виртуализация методы, которые обеспечивают динамическое распределение ресурсов, позволяя нескольким операционным системам сосуществовать на одном физическом сервере.

Приложения

Облачные вычисления обеспечивает крупномасштабные вычисления благодаря своей способности полностью прозрачно предоставлять пользователю необходимые ресурсы ЦП и хранилища. Это делает облачные вычисления особенно подходящими для поддержки различных типов приложений, требующих крупномасштабной распределенной обработки. Этот вычисления с интенсивным использованием данных нужна высокая производительность файловая система которые могут обмениваться данными между виртуальные машины (ВМ).[3]

Облачные вычисления динамически распределяют необходимые ресурсы, высвобождая их после завершения задачи, требуя, чтобы пользователи платили только за необходимые услуги, часто через соглашение об уровне обслуживания. Облачные вычисления и кластерные вычисления парадигмы становятся все более важными для промышленной обработки данных и научных приложений, таких как астрономия и физика, которая часто требует наличия большого количества компьютеров для проведения экспериментов.[4]

Архитектура

Большинство распределенных файловых систем построены на архитектуре клиент-сервер, но существуют и другие, децентрализованные решения.

Клиент-серверная архитектура

Сетевая файловая система (NFS) использует клиент-серверная архитектура, который позволяет обмениваться файлами между несколькими машинами в сети, как если бы они были расположены локально, обеспечивая стандартизированное представление. Протокол NFS позволяет процессам разнородных клиентов, возможно, запущенных на разных машинах и под разными операционными системами, получать доступ к файлам на удаленном сервере, игнорируя фактическое расположение файлов. Использование одного сервера приводит к тому, что протокол NFS страдает от потенциально низкой доступности и плохой масштабируемости. Использование нескольких серверов не решает проблему доступности, поскольку каждый сервер работает независимо.[5] Модель NFS - это удаленная файловая служба. Эта модель также называется моделью удаленного доступа, которая отличается от модели загрузки / выгрузки:

  • Модель удаленного доступа: обеспечивает прозрачность, клиент имеет доступ к файлу. Он отправляет запросы удаленному файлу (при этом файл остается на сервере).[6]
  • Модель загрузки / выгрузки: клиент может получить доступ к файлу только локально. Это означает, что клиент должен загрузить файл, внести изменения и снова загрузить его для использования другими клиентами.

Файловая система, используемая NFS, почти такая же, как и используемая Unix системы. Файлы иерархически организованы в граф именования, в котором каталоги и файлы представлены узлами.

Кластерные архитектуры

А кластерная архитектура устраняет некоторые проблемы в архитектурах клиент-сервер, улучшая параллельное выполнение приложений. Используемая здесь техника - это чередование файлов: файл разбивается на несколько частей, которые «чередуются» по нескольким серверам хранения. Цель состоит в том, чтобы разрешить доступ к разным частям файла параллельно. Если приложение не использует этот метод, было бы удобнее хранить разные файлы на разных серверах. Однако когда дело доходит до организации распределенной файловой системы для крупных центров обработки данных, таких как Amazon и Google, которые предлагают веб-клиентам услуги, позволяющие выполнять несколько операций (чтение, обновление, удаление и т. Д.) С большим количеством файлов, распределенных между большое количество компьютеров, то кластерные решения становятся более выгодными. Обратите внимание, что наличие большого количества компьютеров может означать больше отказов оборудования.[7] Двумя наиболее широко используемыми распределенными файловыми системами (DFS) этого типа являются: Файловая система Google (GFS) и Распределенная файловая система Hadoop (HDFS). Файловые системы обеих реализуются процессами пользовательского уровня, работающими поверх стандартной операционной системы (Linux в случае GFS).[8]

Принципы дизайна

Цели

Файловая система Google (GFS) и Распределенная файловая система Hadoop (HDFS) специально созданы для обработки пакетная обработка на очень больших наборах данных, для этого необходимо учитывать следующие гипотезы:[9]

  • Высокая доступность: кластер может содержать тысячи файловых серверов, и некоторые из них могут быть отключены в любой момент
  • Сервер принадлежит стойке, комнате, центру обработки данных, стране и континенту, чтобы точно определить его географическое положение.
  • Размер файла может варьироваться от многих гигабайт до многих терабайт. Файловая система должна поддерживать огромное количество файлов.
  • Необходимость поддерживать операции добавления и позволять видеть содержимое файла даже во время записи файла.
  • Связь между рабочими машинами надежна: TCP / IP используется с удаленный вызов процедуры RPC коммуникационная абстракция. TCP позволяет клиенту почти сразу узнавать о наличии проблемы и необходимости установить новое соединение.[10]
Балансировка нагрузки

Балансировка нагрузки необходима для эффективной работы в распределенных средах. Это означает распределение работы по разным серверам,[11] справедливо, чтобы выполнить больше работы за то же время и быстрее обслуживать клиентов. В системе, содержащей N серверов фрагментов в облаке (N равно 1000, 10000 или более), где хранится определенное количество файлов, каждый файл разбивается на несколько частей или фрагментов фиксированного размера (например, 64 мегабайта), загрузка каждого сервера фрагментов пропорциональна количеству фрагментов, размещенных на сервере.[12] В облаке с балансировкой нагрузки ресурсы могут быть эффективно использованы при максимальной производительности приложений на основе MapReduce.

Ребалансировка нагрузки

В среде облачных вычислений отказ - это норма,[13][14] а серверы фрагментов могут быть обновлены, заменены и добавлены в систему. Файлы также можно динамически создавать, удалять и добавлять. Это приводит к дисбалансу нагрузки в распределенной файловой системе, а это означает, что фрагменты файлов распределяются между серверами неравномерно.

Распределенные файловые системы в облаках, такие как GFS и HDFS, полагаются на центральные или главные серверы или узлы (Master для GFS и NameNode для HDFS) для управления метаданными и балансировкой нагрузки. Мастер периодически выполняет ребалансировку реплик: данные должны быть перемещены с одного DataNode / chunkserver на другой, если свободное пространство на первом сервере падает ниже определенного порога.[15] Однако этот централизованный подход может стать узким местом для этих главных серверов, если они не смогут управлять большим количеством обращений к файлам, поскольку это увеличивает их и без того большую нагрузку. Проблема перебалансировки нагрузки NP-жесткий.[16]

Чтобы обеспечить совместную работу большого количества серверов фрагментов и решить проблему балансировки нагрузки в распределенных файловых системах, было предложено несколько подходов, таких как перераспределение фрагментов файлов, чтобы фрагменты можно было распределять как можно более равномерно при одновременном сокращении движение стоило максимально дорого.[12]

Файловая система Google

Описание

Google, одна из крупнейших интернет-компаний, создала свою собственную распределенную файловую систему под названием Google File System (GFS), чтобы удовлетворить быстро растущие потребности Google в обработке данных, и она используется для всех облачных сервисов. GFS - это масштабируемая распределенная файловая система для приложений с интенсивным использованием данных. Он обеспечивает отказоустойчивое и высокопроизводительное хранилище данных для большого количества клиентов, обращающихся к нему одновременно.

GFS использует Уменьшение карты, который позволяет пользователям создавать программы и запускать их на нескольких машинах, не задумываясь о проблемах распараллеливания и балансировки нагрузки. Архитектура GFS основана на наличии одного главного сервера для нескольких серверов фрагментов и нескольких клиентов.[17]

Главный сервер, работающий на выделенном узле, отвечает за координацию ресурсов хранения и управление файлами. метаданные (эквивалент, например, индексных дескрипторов в классических файловых системах).[9]Каждый файл разбивается на несколько частей по 64 мегабайта. Каждый фрагмент хранится на сервере фрагментов. Блок идентифицируется дескриптором блока, который представляет собой глобально уникальный 64-битный номер, который назначается мастером при первом создании блока.

Мастер поддерживает все метаданные файлов, включая имена файлов, каталоги и сопоставление файлов со списком фрагментов, содержащих данные каждого файла. Метаданные хранятся в основной памяти главного сервера вместе с отображением файлов на фрагменты. Обновления этих данных записываются в журнал работы на диске. Этот журнал операций реплицируется на удаленные машины. Когда журнал становится слишком большим, создается контрольная точка, и данные основной памяти сохраняются в B-дерево структура для облегчения отображения обратно в основную память.[18]

Отказоустойчивость

Чтобы облегчить Отказоустойчивость, каждый фрагмент реплицируется на несколько серверов фрагментов (по умолчанию - три).[19] Фрагмент доступен как минимум на одном сервере фрагментов. Преимущество этой схемы - простота. Мастер отвечает за выделение серверов фрагментов для каждого фрагмента и связывается только для получения информации о метаданных. Для всех остальных данных клиент должен взаимодействовать с серверами фрагментов.

Мастер отслеживает, где находится чанк. Однако он не пытается точно поддерживать местоположения фрагментов, а лишь изредка связывается с серверами фрагментов, чтобы узнать, какие фрагменты они сохранили.[20] Это обеспечивает масштабируемость и помогает предотвратить узкие места из-за увеличения рабочей нагрузки.[21]

В GFS большинство файлов модифицируются путем добавления новых данных, а не перезаписи существующих данных. После записи файлы обычно читаются только последовательно, а не случайным образом, и это делает эту DFS наиболее подходящей для сценариев, в которых много больших файлов создается один раз, но читается много раз.[22][23]

Обработка файлов

Когда клиент хочет записать / обновить файл, мастер назначит реплику, которая будет первичной репликой, если это будет первая модификация. Процесс написания состоит из двух этапов:[9]

  • Отправка: во-первых, и это, безусловно, самое важное, клиент связывается с мастером, чтобы узнать, на каких серверах фрагментов хранятся данные. Клиенту предоставляется список реплик, определяющих первичный и вторичный серверы фрагментов. Затем клиент связывается с ближайшим сервером фрагментов реплик и отправляет ему данные. Этот сервер отправит данные следующему ближайшему серверу, который затем пересылает их еще одной реплике и так далее. Затем данные распространяются и кэшируются в памяти, но еще не записываются в файл.
  • Запись: когда все реплики получили данные, клиент отправляет запрос записи на первичный сервер фрагментов, идентифицируя данные, которые были отправлены на этапе отправки. Затем первичный сервер присваивает порядковый номер операциям записи, которые он получил, применяет записи к файлу в порядке серийных номеров и пересылает запросы на запись в этом порядке вторичным серверам. Между тем мастер остается вне цикла.

Следовательно, мы можем различать два типа потоков: поток данных и поток управления. Поток данных связан с фазой отправки, а поток управления связан с фазой записи. Это гарантирует, что первичный сервер фрагментов берет на себя управление порядком записи. Обратите внимание, что когда мастер назначает операцию записи реплике, он увеличивает номер версии фрагмента и сообщает всем репликам, содержащим этот фрагмент, новый номер версии. Номера версий блоков позволяют обнаруживать ошибки обновления, если реплика не была обновлена ​​из-за того, что ее сервер фрагментов не работал.[24]

Некоторые новые приложения Google не работали с размером блока в 64 мегабайта. Для решения этой проблемы в 2004 году GFS начала внедрять Большой стол подход.[25]

Распределенная файловая система Hadoop

HDFS , разработанная Фонд программного обеспечения Apache, представляет собой распределенную файловую систему, предназначенную для хранения очень больших объемов данных (терабайты или даже петабайты). Его архитектура аналогична GFS, то есть архитектура ведущий / ведомый. HDFS обычно устанавливается на кластере компьютеров. Концепция дизайна Hadoop основана на Google, с файловой системой Google, Google MapReduce и Большой стол, реализуемые распределенной файловой системой Hadoop (HDFS), Hadoop MapReduce и Hadoop Base (HBase) соответственно.[26] Как и GFS, HDFS подходит для сценариев с доступом к файлам с однократной записью и многократным чтением и поддерживает добавление и усечение файлов вместо случайных операций чтения и записи для упрощения проблем с согласованностью данных.[27]

Кластер HDFS состоит из одного NameNode и нескольких компьютеров DataNode. NameNode, главный сервер, управляет и поддерживает метаданные хранилища DataNodes в своей RAM. Узлы данных управляют хранилищем, подключенным к узлам, на которых они работают. NameNode и DataNode - это программное обеспечение, предназначенное для работы на машинах повседневного использования, которые обычно работают под управлением ОС GNU / Linux. HDFS может быть запущен на любом компьютере, поддерживающем Java, и поэтому может запускать либо NameNode, либо программу Datanode.[28]

В кластере HDFS файл разбивается на один или несколько блоков равного размера, за исключением того, что последний блок может быть меньше. Каждый блок хранится на нескольких узлах данных, и каждый может быть реплицирован на несколько узлов данных, чтобы гарантировать доступность. По умолчанию каждый блок реплицируется трижды, этот процесс называется «Репликация на уровне блока».[29]

NameNode управляет операциями пространства имен файловой системы, такими как открытие, закрытие и переименование файлов и каталогов, а также регулирует доступ к файлам. Он также определяет отображение блоков на DataNodes. Узлы данных отвечают за обслуживание запросов чтения и записи от клиентов файловой системы, управление выделением или удалением блоков и репликацию блоков.[30]

Когда клиент хочет прочитать или записать данные, он связывается с NameNode, и NameNode проверяет, откуда данные должны быть прочитаны или записаны. После этого клиент получает местоположение DataNode и может отправлять ему запросы на чтение или запись.

HDFS обычно характеризуется совместимостью со схемами перебалансировки данных. В общем, управление свободным пространством на DataNode очень важно. Данные должны быть перемещены из одного DataNode в другой, если свободного места недостаточно; а в случае создания дополнительных реплик данные должны быть перемещены для обеспечения баланса системы.[29]

Другие примеры

Распределенные файловые системы можно оптимизировать для разных целей. Некоторые из них, например, предназначенные для интернет-сервисов, включая GFS, оптимизированы для масштабируемости. Другие проекты распределенных файловых систем поддерживают приложения, требующие высокой производительности, обычно выполняемые параллельно.[31] Вот некоторые примеры: Файловая система MapR (MapR-FS), Ceph-FS, Файловая система Фраунгофера (BeeGFS), Файловая система Lustre, Общая параллельная файловая система IBM (GPFS) и Параллельная виртуальная файловая система.

MapR-FS - это распределенная файловая система, которая является основой конвергентной платформы MapR, с возможностями распределенного хранения файлов, базой данных NoSQL с несколькими API-интерфейсами и интегрированной системой потоковой передачи сообщений. MapR-FS оптимизирован для масштабируемости, производительности, надежности и доступности. Его возможности хранения файлов совместимы с API распределенной файловой системы Apache Hadoop (HDFS), но с некоторыми конструктивными особенностями, которые отличают его от HDFS. Среди наиболее заметных отличий MapR-FS - это файловая система с полным доступом для чтения и записи с метаданными для файлов и каталогов, распределенными по пространству имен, поэтому нет NameNode.[32][33][34][35][36]

Ceph-FS - это распределенная файловая система, обеспечивающая отличную производительность и надежность.[37] Он отвечает на задачи работы с огромными файлами и каталогами, координации деятельности тысяч дисков, обеспечения параллельного доступа к метаданным в массовом масштабе, управления рабочими нагрузками как научного, так и общего назначения, аутентификации и шифрования в больших масштабах, а также увеличения или динамически уменьшается из-за частого вывода устройств из эксплуатации, сбоев устройств и расширения кластера.[38]

BeeGFS - это высокопроизводительная параллельная файловая система от Центра компетенции Фраунгофера по высокопроизводительным вычислениям. Распределенная архитектура метаданных BeeGFS была разработана для обеспечения масштабируемости и гибкости, необходимых для работы HPC и аналогичные приложения с высокими требованиями к вводу / выводу.[39]

Файловая система Lustre была разработана и реализована для решения проблемы узких мест, традиционно обнаруживаемых в распределенных системах. Lustre отличается эффективностью, масштабируемостью и избыточностью.[40] GPFS также была разработана с целью устранения таких узких мест.[41]

Коммуникация

Высокая производительность распределенных файловых систем требует эффективной связи между вычислительными узлами и быстрого доступа к системам хранения. Такие операции, как открытие, закрытие, чтение, запись, отправка и получение, должны быть быстрыми, чтобы гарантировать такую ​​производительность. Например, каждый запрос на чтение или запись обращается к дисковой памяти, что приводит к задержкам поиска, ротации и сети.[42]

Операции передачи данных (отправки / получения) передают данные из буфера приложения в ядро ​​машины, TCP контролирует процесс и реализуется в ядре. Однако в случае перегрузки сети или ошибок TCP может не отправлять данные напрямую. При передаче данных из буфера в ядро приложению, машина не читает поток байтов с удаленной машины. Фактически, TCP отвечает за буферизацию данных для приложения.[43]

Выбор размера буфера для чтения и записи файла или отправки и получения файла выполняется на уровне приложения. Буфер поддерживается с помощью круговой связанный список.[44] Он состоит из набора BufferNodes. Каждый BufferNode имеет DataField. DataField содержит данные и указатель NextBufferNode, который указывает на следующий BufferNode. Чтобы найти текущую позицию, два указатели используются: CurrentBufferNode и EndBufferNode, которые представляют позицию в BufferNode для последних позиций записи и чтения. Если в BufferNode нет свободного места, он отправит клиенту сигнал ожидания, чтобы дождаться, пока не освободится место.[45]

Облачная синхронизация распределенной файловой системы

Все больше и больше пользователей имеют несколько устройств со специальным подключением. Наборы данных, реплицируемые на этих устройствах, необходимо синхронизировать между произвольным количеством серверов. Это полезно для резервного копирования, а также для автономной работы. Действительно, когда пользовательские сетевые условия плохие, тогда пользовательское устройство будет выборочно реплицировать часть данных, которые будут изменены позже и в автономном режиме. Как только условия сети станут хорошими, устройство синхронизируется.[46] Существует два подхода к решению проблемы распределенной синхронизации: управляемая пользователем одноранговая синхронизация и облачная синхронизация мастер-реплика.[46]

  • одноранговая сеть, управляемая пользователем: программное обеспечение, такое как rsync должны быть установлены на всех компьютерах пользователей, содержащих их данные. Файлы синхронизируются посредством одноранговой синхронизации, при которой пользователи должны указывать сетевые адреса и параметры синхронизации, и, следовательно, это ручной процесс.
  • Облачная синхронизация главной реплики: широко используется облачными службами, в которых главная реплика поддерживается в облаке, а все операции обновления и синхронизации выполняются с этой главной копией, что обеспечивает высокий уровень доступности и надежности в случае сбоев.

Ключи безопасности

В облачных вычислениях самое важное безопасность концепции конфиденциальность, честность, и доступность ("ЦРУ "). Конфиденциальность становится незаменимой для предотвращения разглашения личных данных. Целостность гарантирует, что данные не будут повреждены.[47]

Конфиденциальность

Конфиденциальность означает, что данные и вычислительные задачи конфиденциальны: ни поставщик облачных услуг, ни другие клиенты не могут получить доступ к данным клиента. В отношении конфиденциальности было проведено много исследований, поскольку это один из важнейших моментов, который по-прежнему создает проблемы для облачных вычислений. Недоверие к поставщикам облачных услуг также является связанной проблемой.[48] Инфраструктура облака должна гарантировать, что данные клиентов не будут доступны неавторизованным лицам.

Среда становится небезопасной, если поставщик услуг может выполнять все следующие действия:[49]

  • найти данные потребителя в облаке
  • доступ и получение данных потребителя
  • понимать значение данных (типы данных, функции и интерфейсы приложения, а также формат данных).

Географическое расположение данных помогает определить конфиденциальность и конфиденциальность. Следует учитывать местонахождение клиентов. Например, клиенты в Европе не будут заинтересованы в использовании центров обработки данных, расположенных в США, поскольку это влияет на гарантию конфиденциальности данных. Чтобы решить эту проблему, некоторые поставщики облачных вычислений включили географическое положение хоста в качестве параметра соглашения об уровне обслуживания, заключенного с заказчиком.[50] позволяя пользователям выбирать себе расположение серверов, на которых будут размещаться их данные.

Другой подход к конфиденциальности - это шифрование данных.[51] В противном случае возникнет серьезный риск несанкционированного использования. Существует множество решений, таких как шифрование только конфиденциальных данных,[52] и поддерживает только некоторые операции для упрощения вычислений.[53] Кроме того, криптографические методы и инструменты, такие как FHE, используются для сохранения конфиденциальности в облаке.[47]

Честность

Целостность в облачных вычислениях подразумевает целостность данных а также вычислительная целостность. Такая целостность означает, что данные должны правильно храниться на облачных серверах и, в случае сбоев или неправильных вычислений, должны быть обнаружены проблемы.

На целостность данных могут повлиять вредоносные события или ошибки администрирования (например, во время резервный и восстановить, перенос данных, или изменение членства в P2P системы).[54]

Целостности легко добиться с помощью криптографии (обычно с помощью код аутентификации сообщения или MAC в блоках данных).[55]

Существуют механизмы проверки, влияющие на целостность данных. Например:

  • HAIL (уровень высокой доступности и целостности) - это распределенная криптографическая система, которая позволяет набору серверов доказывать клиенту, что сохраненный файл не поврежден и его можно восстановить.[56]
  • Hach PORs (доказательства возможность извлечения для больших файлов)[57] основан на симметричной криптографической системе, где есть только один ключ проверки, который должен храниться в файле, чтобы улучшить его целостность. Этот метод служит для шифрования файла F, а затем для генерации случайной строки с именем «sentinel», которую необходимо добавить в конец зашифрованного файла. Сервер не может найти дозорного, который невозможно отличить от других блоков, поэтому небольшое изменение укажет, был ли файл изменен или нет.
  • Проверка PDP (доказуемого владения данными) - это класс эффективных и практичных методов, которые обеспечивают эффективный способ проверки целостности данных на ненадежных серверах:
    • PDP:[58] Перед сохранением данных на сервере клиент должен локально сохранить некоторые метаданные. Позже, без загрузки данных, клиент может попросить сервер проверить, не были ли данные фальсифицированы. Этот подход используется для статических данных.
    • Масштабируемая PDP:[59] Этот подход основан на симметричном ключе, который более эффективен, чем шифрование с открытым ключом. Он поддерживает некоторые динамические операции (изменение, удаление и добавление), но не может использоваться для публичной проверки.
    • Динамический PDP:[60] Этот подход расширяет модель PDP для поддержки нескольких операций обновления, таких как добавление, вставка, изменение и удаление, что хорошо подходит для интенсивных вычислений.

Доступность

Доступность обычно осуществляется репликация.[61][62][63][64] Между тем должна быть гарантирована последовательность. Однако согласованность и доступность не могут быть достигнуты одновременно; каждому отдается предпочтение при некоторой жертве другого. Необходимо найти баланс.[65]

Чтобы данные были доступны, они должны иметь личность. Например, Skute [61] - это механизм, основанный на хранении ключей / значений, который позволяет эффективно динамически распределять данные. Каждый сервер должен быть идентифицирован меткой в ​​формате континент-страна-датацентр-комната-стойка-сервер. Сервер может ссылаться на несколько виртуальных узлов, каждый из которых имеет набор данных (или несколько разделов с несколькими данными). Каждая часть данных идентифицируется ключевым пространством, которое генерируется односторонней криптографической хеш-функцией (например, MD5 ) и локализуется значением хэш-функции этого ключа. Ключевое пространство может быть разделено на несколько разделов, каждый из которых относится к фрагменту данных. Для выполнения репликации виртуальные узлы должны быть реплицированы и на них должны ссылаться другие серверы. Чтобы обеспечить максимальную надежность и доступность данных, реплики должны быть размещены на разных серверах, и каждый сервер должен находиться в другом географическом местоположении, поскольку доступность данных увеличивается с географическим разнообразием.Процесс репликации включает оценку доступности пространства, которая должна быть выше определенного минимального порога удержания на каждом сервере фрагментов. В противном случае данные реплицируются на другой сервер фрагментов. Каждый раздел i имеет значение доступности, представленное следующей формулой:

куда это серверы, на которых размещены реплики, и доверие серверов и (в зависимости от технических факторов, таких как компоненты оборудования, и нетехнических факторов, таких как экономическая и политическая ситуация в стране), а разнообразие - это географическое расстояние между и .[66]

Репликация - отличное решение для обеспечения доступности данных, но она стоит слишком дорого с точки зрения объема памяти.[67] DiskReduce[67] это модифицированная версия HDFS, основанная на RAID технология (RAID-5 и RAID-6) и позволяет асинхронное кодирование реплицированных данных. Действительно, существует фоновый процесс, который ищет широко реплицируемые данные и удаляет лишние копии после их кодирования. Другой подход - заменить репликацию кодированием с стиранием.[68] Кроме того, для обеспечения доступности данных существует множество подходов, позволяющих восстановить данные. Фактически данные должны быть закодированы, и если они будут потеряны, их можно будет восстановить из фрагментов, которые были созданы на этапе кодирования.[69] Вот некоторые другие подходы, в которых используются различные механизмы для гарантии доступности: код Рида-Соломона для Microsoft Azure и RaidNode для HDFS. Кроме того, Google все еще работает над новым подходом, основанным на механизме кодирования стирания.[70]

Реализации RAID для облачного хранилища нет.[68]

Экономические аспекты

Экономика облачных вычислений быстро растет. Правительство США решило потратить 40% своих Совокупный среднегодовой темп роста (CAGR), ожидается, что к 2015 году он составит 7 миллиардов долларов.[71]

Все больше и больше компаний используют облачные вычисления для управления огромным объемом данных и преодоления нехватки емкости хранения, а также потому, что это позволяет им использовать такие ресурсы как услугу, гарантируя, что их вычислительные потребности будут удовлетворены без необходимости инвестировать в инфраструктуре (модель Pay-as-you-go).[72]

Каждый поставщик приложений должен периодически оплачивать стоимость каждого сервера, на котором хранятся реплики данных. Стоимость сервера определяется качеством оборудования, емкостью хранилища, а также накладными расходами на обработку запросов и связь.[73] Облачные вычисления позволяют поставщикам масштабировать свои услуги в соответствии с требованиями клиентов.

Модель оплаты по мере использования также снизила нагрузку на начинающие компании, которые хотят извлечь выгоду из бизнеса, требующего интенсивных вычислений. Облачные вычисления также открывают возможности для многих стран третьего мира, у которых иначе не было бы таких вычислительных ресурсов. Облачные вычисления могут снизить ИТ-барьеры для инноваций.[74]

Несмотря на широкое использование облачных вычислений, эффективное совместное использование больших объемов данных в ненадежном облаке все еще остается проблемой.

Рекомендации

  1. ^ Микросистема Sun, п. 1
  2. ^ Фабио Кон, п. 1
  3. ^ Кобаяши и др. 2011 г., п. 1
  4. ^ Angabini et al. 2011 г., п. 1
  5. ^ Ди Сано и др. 2012 г., п. 2
  6. ^ Эндрю и Мартен 2006, п. 492
  7. ^ Эндрю и Мартен 2006, п. 496
  8. ^ Гумбетов 2012, п. 2
  9. ^ а б c Кшизановский 2012, п. 2
  10. ^ Павел Бжох, п. 7
  11. ^ Кай и др. 2013, п. 23
  12. ^ а б Hsiao et al. 2013, п. 2
  13. ^ Hsiao et al. 2013, п. 952
  14. ^ Гемават, Гобиофф и Люн, 2003 г., п. 1
  15. ^ Гемават, Гобиофф и Люн, 2003 г., п. 8
  16. ^ Hsiao et al. 2013, п. 953
  17. ^ Ди Сано и др. 2012 г., стр. 1–2
  18. ^ Кшизановский 2012, п. 4
  19. ^ Ди Сано и др. 2012 г., п. 2
  20. ^ Эндрю и Мартен 2006, п. 497
  21. ^ Гумбетов 2012, п. 3
  22. ^ Гумбетов 2012, п. 5
  23. ^ Эндрю и Мартен 2006, п. 498
  24. ^ Кшизановский 2012, п. 5
  25. ^ «Великий дисковый накопитель в небе: как веб-гиганты хранят большие - и мы имеем в виду большие - данные». 2012-01-27.
  26. ^ Fan-Hsun et al. 2012 г., п. 2
  27. ^ «Apache Hadoop 2.9.2 - Архитектура HDFS».
  28. ^ Аззедин 2013, п. 2
  29. ^ а б Адамов 2012, п. 2
  30. ^ Йи и Чт Нэйн 2011, п. 122
  31. ^ Соарес и др. 2013, п. 158
  32. ^ Перес, Николас (2016-01-02). «Как MapR повышает нашу продуктивность и упрощает дизайн». Середина. Середина. Получено 21 июня, 2016.
  33. ^ Вуди, Алекс (2016-03-08). «От Hadoop к Zeta: Конвергенция изнутри в MapR». Датанами. Tabor Communications Inc. Получено 21 июня, 2016.
  34. ^ Бреннан, Боб. «Саммит флэш-памяти». YouTube. Samsung. Получено 21 июня, 2016.
  35. ^ Шривас, MC. "Файловая система MapR". Саммит Hadoop 2011. Hortonworks. Получено 21 июня, 2016.
  36. ^ Даннинг, Тед; Фридман, Эллен (январь 2015 г.). «Глава 3: Общие сведения о распределении MapR для Apache Hadoop». Реальный мир Hadoop (Первое изд.). Севастополь, Калифорния: O'Reilly Media, Inc., стр. 23–28. ISBN  978-1-4919-2395-5. Получено 21 июня, 2016.
  37. ^ Weil et al. 2006 г., п. 307
  38. ^ Maltzahn et al. 2010 г., п. 39
  39. ^ Якоби и Лингеманн, п. 10
  40. ^ Шван Филип 2003, п. 401
  41. ^ Джонс, Кенигес и Йейтс 2000, п. 1
  42. ^ Упадхьяя и др. 2008 г., п. 400
  43. ^ Упадхьяя и др. 2008 г., п. 403
  44. ^ Упадхьяя и др. 2008 г., п. 401
  45. ^ Упадхьяя и др. 2008 г., п. 402
  46. ^ а б Аппур, Флорис и Билас 2010, п. 1
  47. ^ а б Чжифэн и Ян 2013, п. 854
  48. ^ Чжифэн и Ян 2013, стр. 845–846
  49. ^ Яу и Ан 2010, п. 353
  50. ^ Веккиола, Пандей и Буйя 2009, п. 14
  51. ^ Яу и Ан 2010, п. 352
  52. ^ Миранда и Сиани 2009
  53. ^ Нериг и Лаутер 2013
  54. ^ Чжифэн и Ян 2013, п. 5
  55. ^ Juels & Oprea 2013, п. 4
  56. ^ Bowers, Juels & Oprea 2009 г.
  57. ^ Джулс и С. Калиски 2007, п. 2
  58. ^ Ateniese et al. 2007 г.
  59. ^ Ateniese et al. 2008 г., стр.5, 9
  60. ^ Erway et al. 2009 г., п. 2
  61. ^ а б Бонвин, Папайоанну и Аберер 2009, п. 206
  62. ^ Cuong et al. 2012 г., п. 5
  63. ^ А., А. и П. 2011, п. 3
  64. ^ Цянь, Д. и Т. 2011, п. 3
  65. ^ Фогельс 2009, п. 2
  66. ^ Бонвин, Папайоанну и Аберер 2009, п. 208
  67. ^ а б Карнеги и др. 2009 г., п. 1
  68. ^ а б Wang et al. 2012 г., п. 1
  69. ^ Абу-Либде, Princehouse & Weatherspoon 2010, п. 2
  70. ^ Wang et al. 2012 г., п. 9
  71. ^ Лори М. Кауфман 2009, п. 2
  72. ^ Angabini et al. 2011 г., п. 1
  73. ^ Бонвин, Папайоанну и Аберер 2009, п. 3
  74. ^ Марстон и др. 2011 г., п. 3

Библиография

  1. Архитектура, строение и дизайн:
    • Чжан, Ци-фэй; Пан, Сюэ-цзэн; Шен, Ян; Ли, Вэнь-цзюань (2012). «Новая масштабируемая архитектура облачной системы хранения для небольших файлов на основе P2P». 2012 Международная конференция IEEE по семинарам по кластерным вычислениям. Coll. Comput. Sci. & Technol., Zhejiang Univ., Ханчжоу, Китай. п. 41. Дои:10.1109 / ClusterW.2012.27. ISBN  978-0-7695-4844-9. S2CID  12430485.
    • Аззедин, Фараг (2013). «На пути к масштабируемой архитектуре HDFS». 2013 Международная конференция по технологиям и системам совместной работы (CTS). Департамент информации и компьютерных наук Университет нефти и полезных ископаемых имени короля Фахда. С. 155–161. Дои:10.1109 / CTS.2013.6567222. ISBN  978-1-4673-6404-1. S2CID  45293053.
    • Кшижановский, Пол (2012). «Распределенные файловые системы» (PDF).
    • Кобаяши, К; Миками, S; Кимура, H; Татебе, О (2011). Файловая система Gfarm в вычислительных облаках. Семинары по параллельной и распределенной обработке и Форум докторов наук (IPDPSW), Международный симпозиум IEEE 2011 г.. Град. Sch. Syst. & Инф. Eng., Univ. Цукуба, Цукуба, Япония. Дои:10.1109 / IPDPS.2011.255.
    • Гумбетов, Шамиль (2012). «Интенсивные вычисления с использованием map-reduce и hadoop». 2012 6-я Международная конференция по применению информационных и коммуникационных технологий (AICT). Кафедра компьютерной инженерии Qafqaz University Баку, Азербайджан. С. 1–5. Дои:10.1109 / ICAICT.2012.6398489. ISBN  978-1-4673-1740-5. S2CID  6113112.
    • Сяо, Хун-Чанг; Чунг, Сюэ-И; Шэнь, Хайин; Чао, Ю-Чанг (2013). Национальный университет Ченг Кунг, Тайнань. «Перебалансировка нагрузки для распределенных файловых систем в облаках». Параллельные и распределенные системы, транзакции IEEE на. 24 (5): 951–962. Дои:10.1109 / TPDS.2012.196. S2CID  11271386.
    • Кай, Фан; Даянг, Чжан; Хуэй, Ли; Иньтан, Ян (2013). «Алгоритм адаптивной балансировки нагрузки с обратной связью в HDFS». 2013 5-я Международная конференция по интеллектуальным сетям и системам для совместной работы. State Key Lab. сетей с интегрированным обслуживанием, Xidian Univ., Сиань, Китай. С. 23–29. Дои:10.1109 / INCoS.2013.14. ISBN  978-0-7695-4988-0. S2CID  14821266.
    • Упадхьяя, Б; Азимов, Ф; Доан, T.T; Чой, Ынми; Ким, Сангбум; Ким, Pilsung (2008). «Распределенная файловая система: эксперименты по эффективности доступа к данным и связи». 2008 Четвертая международная конференция по сетевым вычислениям и расширенному управлению информацией. Sch. автобуса. IT, Kookmin Univ., Сеул. С. 400–405. Дои:10.1109 / NCM.2008.164. ISBN  978-0-7695-3322-3. S2CID  18933772.
    • Soares, Tiago S .; Дантас †, M.A.R; де Маседо, Дуглас Д.Дж .; Бауэр, Майкл А (2013). «Управление данными в среде хранения частного облака с использованием высокопроизводительных распределенных файловых систем». Семинары 2013 г. по стимулирующим технологиям: инфраструктура для совместных предприятий. нф. И Департамент статистики (INE), ФРС. Univ. Санта-Катарина (UFSC), Флорианополис, Бразилия. С. 158–163. Дои:10.1109 / WETICE.2013.12. ISBN  978-1-4799-0405-1. S2CID  6155753.
    • Адамов, Абзетдин (2012). «Распределенная файловая система как основа интенсивных вычислений». 2012 6-я Международная конференция по применению информационных и коммуникационных технологий (AICT). Comput. Англ. Отделение, Qafqaz Univ., Баку, Азербайджан. С. 1–3. Дои:10.1109 / ICAICT.2012.6398484. ISBN  978-1-4673-1740-5. S2CID  16674289.
    • Шван Филип (2003). Cluster File Systems, Inc. "Lustre: создание файловой системы для кластеров из 1000 узлов" (PDF). Материалы Симпозиума по Linux 2003 г.: 400–407.
    • Джонс, Терри; Кенигес, Алиса; Йетс, Р. Ким (2000). Ливерморская национальная лаборатория Лоуренса. «Производительность общей параллельной файловой системы IBM» (PDF). Симпозиум по параллельной и распределенной обработке, 2000. IPDPS 2000. Труды. 14-я Международная.
    • Weil, Sage A .; Brandt, Scott A .; Миллер, Итан Л .; Лонг, Даррелл Д. Э. (2006). «Ceph: масштабируемая высокопроизводительная распределенная файловая система» (PDF). Калифорнийский университет в Санта-Крус. Цитировать журнал требует | журнал = (помощь)
    • Мальцан, Карлос; Молина-Эстолано, Эстебан; Хурана, Амандип; Нельсон, Алекс Дж .; Brandt, Scott A .; Вейл, Сейдж (2010). «Ceph как масштабируемая альтернатива распределенной файловой системе Hadoop» (PDF). Цитировать журнал требует | журнал = (помощь)
    • S.A., Brandt; E.L., Миллер; D.D.E., Лонг; Лан, Сюэ (2003). «Эффективное управление метаданными в больших распределенных системах хранения». 20-я IEEE / 11-я Конференция Годдарда NASA по системам и технологиям массового хранения, 2003 г. (MSST 2003). Труды. Storage Syst. Res. Центр, Калифорнийский университет, Санта-Крус, Калифорния, США. С. 290–298. CiteSeerX  10.1.1.13.2537. Дои:10.1109 / MASS.2003.1194865. ISBN  978-0-7695-1914-2.
    • Гарт А., Гибсон; Родни, MVan Meter (ноябрь 2000 г.). «Архитектура сетевого хранилища» (PDF). Коммуникации ACM. 43 (11): 37–45. Дои:10.1145/353360.353362.
    • Да, Олово Олово; Thu Naing, Thinn (2011). «Архитектура системы хранения на базе ПК-кластера для облачного хранилища». arXiv:1112.2025 [cs.DC ].
    • Чо Чо, Хаинг; Thinn Thu, Naing (2011). «Эффективная система управления хранением данных в кластерном частном облачном дата-центре». 2011 Международная конференция IEEE по облачным вычислениям и интеллектуальным системам. С. 235–239. Дои:10.1109 / CCIS.2011.6045066. ISBN  978-1-61284-203-5. S2CID  224635.
    • S.A., Brandt; E.L., Миллер; D.D.E., Лонг; Лан, Сюэ (2011). «Сервисно-ориентированная архитектура хранилища файлов операторского уровня для облачных вычислений». 2011 3-й симпозиум по веб-сообществу. Центр PCN ​​и CAD, Пекинский университет. почт и телекоммуникаций, Пекин, Китай. С. 16–20. Дои:10.1109 / SWS.2011.6101263. ISBN  978-1-4577-0211-2. S2CID  14791637.
    • Гемават, Санджай; Гобиофф, Ховард; Леунг, Шун-Так (2003). "Файловая система Google". Материалы девятнадцатого симпозиума ACM по принципам операционных систем - SOSP '03. С. 29–43. Дои:10.1145/945445.945450. ISBN  978-1-58113-757-6.
  2. Безопасность
    • Vecchiola, C; Панди, S; Буя, Р. (2009). «Высокопроизводительные облачные вычисления: взгляд на научные приложения». 2009 10-й Международный симпозиум по распространенным системам, алгоритмам и сетям. Отдел вычислений. Sci. & Software Eng., Univ. Мельбурна, Мельбурн, Виктория, Австралия. С. 4–16. arXiv:0910.1979. Дои:10.1109 / I-SPAN.2009.150. ISBN  978-1-4244-5403-7.
    • Миранда, Моубрей; Сиани, Пирсон (2009). «Клиентский менеджер конфиденциальности для облачных вычислений». Материалы Четвертой Международной конференции ИККТ по ​​программному и промежуточному программному обеспечению для систем связи - COMSWARE '09. п. 1. Дои:10.1145/1621890.1621897. ISBN  978-1-60558-353-2. S2CID  10130310.
    • Наэриг, Майкл; Лаутер, Кристин (2013). «Может ли быть гомоморфное шифрование практичным?». Материалы 3-го семинара ACM по безопасности облачных вычислений - CCSW '11. С. 113–124. CiteSeerX  10.1.1.225.8007. Дои:10.1145/2046660.2046682. ISBN  978-1-4503-1004-8.
    • Ду, Хунтао; Ли, Чжаньхуай (2012). «PsFS: параллельная файловая система с высокой пропускной способностью для безопасной системы облачного хранилища». 2012 Международная конференция по измерениям, информации и контролю (MIC). 1. Comput. Собр., Северо-Западный политех. Univ., Сиань, Китай. С. 327–331. Дои:10.1109 / MIC.2012.6273264. ISBN  978-1-4577-1604-1. S2CID  40685246.
    • А. Брандт, Скотт; Л. Миллер, Итан; Д. Э. Лонг, Даррелл; Сюэ, Лан (2003). Исследовательский центр систем хранения данных Калифорнийского университета в Санта-Круз. «Эффективное управление метаданными в больших распределенных системах хранения» (PDF). 11-я Конференция NASA Годдарда по системам и технологиям массового хранения, Сан-Диего, Калифорния.
    • Лори М. Кауфман (2009). «Безопасность данных в мире облачных вычислений». Безопасность и конфиденциальность, IEEE. 7 (4): 161–64. Дои:10.1109 / MSP.2009.87. S2CID  16233643.
    • Бауэрс, Кевин; Джуэлс, Ари; Опря, Алина (2009). HAIL: уровень высокой доступности и целостности для облачного хранилища. Материалы 16-й конференции ACM по компьютерной и коммуникационной безопасности. С. 187–198. Дои:10.1145/1653662.1653686. ISBN  978-1-60558-894-0. S2CID  207176701.
    • Джуэлс, Ари; Опря, Алина (февраль 2013). «Новые подходы к безопасности и доступности облачных данных». Коммуникации ACM. 56 (2): 64–73. Дои:10.1145/2408776.2408793. S2CID  17596621.
    • Чжан, Цзин; У, Гунцин; Ху, Сюэган; У, Синьдун (2012). «Распределенный кэш для распределенной файловой системы Hadoop в облачных службах реального времени». 2012 13-я Международная конференция ACM / IEEE по грид-вычислениям. Отдел вычислений. Наук, Hefei Univ. Technol., Хэфэй, Китай. С. 12–21. Дои:10.1109 / Grid.2012.17. ISBN  978-1-4673-2901-9. S2CID  10778240.
    • Сковорода; J.P., Уолтерс; В.С., Пай; D.-I.D., Канг; С.П., Краго (2012). «Интеграция высокопроизводительных файловых систем в среду облачных вычислений». 2012 SC Companion: высокопроизводительные вычисления, сетевое хранилище и анализ. Отдел электр. & Comput. Eng., Purdue Univ., West Lafayette, IN, USA. С. 753–759. Дои:10.1109 / SC.Companion.2012.103. ISBN  978-0-7695-4956-9. S2CID  5554936.
    • Фань-Сюнь, Цзэн; Чи-Юань, Чен; Ли-Дер, Чжоу; Хан-Чи, Чао (2012). «Внедрить надежную и безопасную облачную распределенную файловую систему». 2012 Международный симпозиум по интеллектуальной обработке сигналов и системам связи. Отдел вычислений. Sci. & Инф. Eng., Nat. Центральный университет, Таоюань, Тайвань. С. 227–232. Дои:10.1109 / ISPACS.2012.6473485. ISBN  978-1-4673-5082-2. S2CID  18260943.
    • Ди Сано, М; Ди Стефано, А; Morana, G; Зито, Д. (2012). «Файловая система как услуга: обеспечение временных и согласованных представлений файлов для взаимодействующих приложений в облаках». 2012 IEEE 21-й международный семинар по стимулирующим технологиям: инфраструктура для совместных предприятий. Кафедра электр., Электрон. & Comput. Eng., Univ. Катании, Катании, Италии. С. 173–178. Дои:10.1109 / WETICE.2012.104. ISBN  978-1-4673-1888-4. S2CID  19798809.
    • Чжифэн, Сяо; Ян, Сяо (2013). «Безопасность и конфиденциальность в облачных вычислениях». Обзоры и учебные пособия по коммуникациям IEEE. 15 (2): 843–859. CiteSeerX  10.1.1.707.3980. Дои:10.1109 / SURV.2012.060912.00182. S2CID  206583820.
    • Джон Б. Хорриган (2008). «Использование приложений и услуг облачных вычислений» (PDF).
    • Яу, Стивен; Ан, Хо (2010). «Защита конфиденциальности в системах облачных вычислений». Int J Software Informatics: 351–365.
    • Карнеги, Бен Фан; Тантисирирой, Виттават; Сяо, Линь; Гибсон, Гарт (2009). "Диск Уменьшать". DiskReduce: RAID для масштабируемых вычислений с интенсивным использованием данных. С. 6–10. Дои:10.1145/1713072.1713075. ISBN  978-1-60558-883-4. S2CID  15194567.
    • Ван, Цзяньцзун; Гонг, Вэйцзяо; П., Варман; Се, Чаншэн (2012). «Снижение накладных расходов на хранилище с помощью устранения узких мест при записи в облачной системе RAID». 2012 13-я Международная конференция ACM / IEEE по грид-вычислениям. С. 174–183. Дои:10.1109 / Grid.2012.29. ISBN  978-1-4673-2901-9. S2CID  16827141.
    • Абу-Либде, Хуссам; Принсхаус, Лонни; Уэтерспун, Хаким (2010). RACS: аргумент в пользу разнообразия облачных хранилищ. SoCC '10 Труды 1-го симпозиума ACM по облачным вычислениям. С. 229–240. Дои:10.1145/1807128.1807165. ISBN  978-1-4503-0036-0. S2CID  1283873.
    • Фогельс, Вернер (2009). "В конечном итоге последовательный". Коммуникации ACM. 52 (1): 40–44. Дои:10.1145/1435417.1435432.
    • Куонг, Фам; Цао, Фыонг; Kalbarczyk, Z; Айер, Р.К. (2012). «На пути к облаку высокой доступности: методы и проблемы». IEEE / IFIP Международная конференция по надежным системам и сетям, семинары (DSN 2012). С. 1–6. Дои:10.1109 / DSNW.2012.6264687. ISBN  978-1-4673-2266-9. S2CID  9920903.
    • А., Ундхейм; А., Чилван; П., Heegaard (2011). «Дифференцированная доступность в SLA для облачных вычислений». 2011 12-я Международная конференция IEEE / ACM по грид-вычислениям. С. 129–136. Дои:10.1109 / Сетка.2011.25. ISBN  978-1-4577-1904-2. S2CID  15047580.
    • Цянь, Хайян; Д., Медхи; Т., Триведи (2011). «Иерархическая модель для оценки качества работы онлайн-сервисов, размещенных с помощью облачных вычислений». Коммуникации ACM. 52 (1): 105–112. CiteSeerX  10.1.1.190.5148. Дои:10.1109 / INM.2011.5990680.
    • Атениезе, Джузеппе; Бернс, Рэндал; Куртмола, Реза; Селедка, Джозеф; Кисснер, Ли; Петерсон, Захари; Песня, Рассвет (2007). «Доказуемое владение данными в ненадежных магазинах». Материалы 14-й конференции ACM по компьютерной и коммуникационной безопасности - CCS '07. С. 598–609. Дои:10.1145/1315245.1315318. ISBN  978-1-59593-703-2. S2CID  8010083.
    • Атениезе, Джузеппе; Ди Пьетро, ​​Роберто; В. Манчини, Луиджи; Цудик, Гена (2008). «Масштабируемое и эффективное доказуемое владение данными». Материалы 4-й международной конференции «Безопасность и конфиденциальность в сетях связи - Secure» Comm '08. п. 1. CiteSeerX  10.1.1.208.8270. Дои:10.1145/1460877.1460889. ISBN  978-1-60558-241-2.
    • Эрвей, Крис; Купчу, Альптекин; Тамассия, Роберто; Папаманту, Харалампос (2009). «Динамическое доказуемое владение данными». Материалы 16-й конференции ACM по компьютерной и коммуникационной безопасности - CCS '09. С. 213–222. Дои:10.1145/1653662.1653688. ISBN  978-1-60558-894-0. S2CID  52856440.
    • Джуэлс, Ари; С. Калиски, Бертон (2007). Pors: доказательства возможности восстановления для больших файлов. Материалы 14-й конференции ACM по компьютерам и коммуникациям. С. 584–597. Дои:10.1145/1315245.1315317. ISBN  978-1-59593-703-2. S2CID  6032317.
    • Бонвен, Николас; Папайоанну, Танасис; Аберер, Карл (2009). «Самоорганизующаяся, отказоустойчивая и масштабируемая схема репликации для облачного хранилища». Материалы 1-го симпозиума ACM по облачным вычислениям - SoCC '10. С. 205–216. Дои:10.1145/1807128.1807162. ISBN  978-1-4503-0036-0. S2CID  3261817.
    • Тим, Краска; Мартин, Хентшель; Густаво, Алонсо; Дональд, Косма (2009). «Последовательное нормирование в облаке: платите только тогда, когда это важно». Труды эндаумента VLDB. 2 (1): 253–264. Дои:10.14778/1687627.1687657.
    • Даниэль, Дж. Абади (2009). «Управление данными в облаке: ограничения и возможности». CiteSeerX  10.1.1.178.200. Цитировать журнал требует | журнал = (помощь)
    • Ари, Джуэлс; С., Бертон; Младший, Калиски (2007). «Порс: доказательства возможности восстановления больших файлов». Коммуникации ACM. 56 (2): 584–597. Дои:10.1145/1315245.1315317. S2CID  6032317.
    • Ари, Атениезе; Рэндал, Бернс; Джонс, Реза; Куртмола, Джозеф; Херринг, Бертон; Леа, Кисснер; Захари, Петерсон; Рассвет, Песня (2007). «Доказуемое владение данными в ненадежных магазинах». CCS '07 Материалы 14-й конференции ACM по компьютерной и коммуникационной безопасности. С. 598–609. Дои:10.1145/1315245.1315318. ISBN  978-1-59593-703-2. S2CID  8010083.
  3. Синхронизация
    • Uppoor, S; Флорис, доктор медицины; Билас, А (2010). «Облачная синхронизация иерархий распределенных файловых систем». 2010 IEEE International Conference on Cluster Computing Workshops and Posters (CLUSTER WORKSHOPS). Inst. Comput. Sci. (ICS), Найдено. для Res. & Technol. - Эллада (FORTH), Ираклион, Греция. С. 1–4. Дои:10.1109 / CLUSTERWKSP.2010.5613087. ISBN  978-1-4244-8395-2. S2CID  14577793.
  4. Экономические аспекты
    • Лори М., Кауфман (2009). «Безопасность данных в мире облачных вычислений». Безопасность и конфиденциальность, IEEE. 7 (4): 161–64. Дои:10.1109 / MSP.2009.87. S2CID  16233643.
    • Марстон, Шон; Лия, Чжи; Бандйопадхьяя, Субхаджьоти; Чжанга, Джухэн; Галсаси, Ананд (2011). Облачные вычисления - бизнес-перспектива. Системы поддержки принятия решений Том 51, Выпуск 1. С. 176–189. Дои:10.1016 / j.dss.2010.12.006.
    • Ангабини, А; Yazdani, N; Mundt, T; Хассани, Ф (2011). «Пригодность облачных вычислений для приложений анализа научных данных; эмпирическое исследование». 2011 Международная конференция по P2P, параллельным, сетевым, облачным и интернет-вычислениям. Sch. Электр. & Comput. Eng., Univ. Тегерана, Тегерана, Ирана. С. 193–199. Дои:10.1109 / 3PGCIC.2011.37. ISBN  978-1-4577-1448-1. S2CID  13393620.