Сетка данных - Data grid

Это простое высокоуровневое представление сетки данных, изображающее распределенное хранилище.

А сетка данных является архитектура или набор услуг, который дает отдельным лицам или группам пользователей возможность доступа, изменения и передачи чрезвычайно больших объемов географически распределенных данные в исследовательских целях.[1] Сетки данных делают это возможным благодаря множеству промежуточное ПО Приложения и Сервисы которые объединяют данные и Ресурсы из нескольких административные домены а затем представить его пользователям по запросу. Данные в сетке данных могут быть расположены на одном сайте или на нескольких сайтах, где каждый сайт может быть своим собственным административным доменом, управляемым набором ограничений безопасности в отношении того, кто может получить доступ к данным.[2] Аналогично, несколько реплики данных могут быть распределены по всей сетке за пределами их исходного административного домена, и ограничения безопасности, наложенные на исходные данные для того, кто может получить к ним доступ, должны в равной степени применяться к репликам.[3] Специально разработанное промежуточное программное обеспечение сетки данных - это то, что обеспечивает интеграцию между пользователями и данными, которые они запрашивают, контролируя доступ, делая их доступными с максимальной эффективностью. На соседней диаграмме показано высокоуровневое представление сетки данных.

ПО промежуточного слоя

Промежуточное ПО предоставляет все услуги и приложения, необходимые для эффективного управления наборы данных и файлы в сетке данных, обеспечивая пользователям быстрый доступ к наборам данных и файлам.[4] Существует ряд концепций и инструментов, которые должны быть доступны, чтобы сделать сетку данных жизнеспособной. Однако в то же время не для всех гридов данных требуются одинаковые возможности и услуги из-за различий в требованиях к доступу, безопасности и расположению ресурсов по сравнению с пользователями. В любом случае, большинство гридов данных будут иметь аналогичные сервисы промежуточного программного обеспечения, которые обеспечивают универсальный пространство имен, служба передачи данных, служба доступа к данным, служба репликации данных и управления ресурсами. В совокупности они являются ключевыми для функциональных возможностей гридов данных.

Универсальное пространство имен

Поскольку источники данных в сетке данных будут состоять из данных из нескольких отдельных систем и сети используя другой файл соглашения об именах, пользователю будет сложно найти данные в сетке данных и знать, что они получили то, что им нужно, исключительно на основе существующих физических имен файлов (PFN). Универсальное или унифицированное пространство имен позволяет создавать логические имена файлов (LFN), на которые можно ссылаться в сетке данных, отображаемой в PFN.[5] Когда LFN запрашивается или запрашивается, все совпадающие PFN возвращаются, чтобы включить возможные копии запрошенных данных. Затем конечный пользователь может выбрать из возвращенных результатов наиболее подходящую реплику для использования. Эта услуга обычно предоставляется как часть системы управления, известной как Брокер ресурсов хранения (SRB).[6] Информация о расположении файлов и сопоставлениях между LFN и PFN может храниться в метаданные или каталог реплик.[7] Каталог реплик будет содержать информацию о LFN, которые отображаются на несколько реплик PFN.

Служба передачи данных

Еще одна услуга промежуточного программного обеспечения - это обеспечение передачи или передачи данных. Транспорт данных будет включать в себя несколько функций, которые не ограничиваются только передачей битов, включая такие элементы, как отказоустойчивость и доступ к данным.[8] Отказоустойчивость может быть достигнута в сетке данных путем предоставления механизмов, обеспечивающих возобновление передачи данных после каждого прерывания до тех пор, пока не будут получены все запрошенные данные.[9] Существует несколько возможных методов, которые можно использовать для включения начала всей передачи с начала данных до возобновления с того места, где передача была прервана. В качестве примера, GridFTP обеспечивает отказоустойчивость, отправляя данные из последнего подтвержденного байта без начала всей передачи с начала.

Сервис передачи данных также обеспечивает низкоуровневый доступ и соединения между хозяева для передачи файлов.[10] Служба передачи данных может использовать любое количество режимов для реализации передачи, включая параллельную передачу данных, когда два или более потока данных используются в одном и том же канал или чередующаяся передача данных, когда два или более потока обращаются к разным блокам файла для одновременной передачи, а также с использованием базовых встроенных возможностей сетевого оборудования или специально разработанных протоколы для поддержки более высоких скоростей передачи.[11] Услуга передачи данных может дополнительно включать сетевое наложение функция для облегчения маршрутизации и передачи данных, а также файлов Ввод / вывод функции, которые позволяют пользователям видеть удаленные файлы, как если бы они были локальными для их системы. Сервис передачи данных скрывает от пользователя сложность доступа и передачи между различными системами, поэтому он выглядит как единый источник данных.

Служба доступа к данным

Службы доступа к данным работают рука об руку со службой передачи данных, обеспечивая безопасность, контроль доступа и управление любыми передачами данных в сетке данных.[12] Службы безопасности предоставляют механизмы для аутентификации пользователей, чтобы гарантировать их правильную идентификацию. Общие формы безопасности для аутентификации могут включать использование паролей или Kerberos (протокол). Сервисы авторизации - это механизмы, которые контролируют, к чему может получить доступ пользователь после идентификации посредством аутентификации. Общие формы механизмов авторизации могут быть такими же простыми, как права доступа к файлам. Однако потребность в более строгом контролируемом доступе к данным достигается с помощью Списки контроля доступа (ACL), Контроль доступа на основе ролей (RBAC) и средства контроля авторизации на основе задач (TBAC).[13] Эти типы элементов управления могут использоваться для предоставления детального доступа к файлам, включая ограничения на время доступа, продолжительность доступа к детализированным элементам управления, которые определяют, какие файлы могут быть прочитаны или записаны. Последняя услуга доступа к данным, которая может присутствовать для защиты конфиденциальности передачи данных, - это шифрование.[14] Наиболее распространенной формой шифрования для этой задачи было использование SSL в транспорте. В то время как все эти службы доступа работают в сетке данных, службы доступа в различных административных доменах, в которых размещаются наборы данных, по-прежнему останутся на месте, чтобы обеспечить соблюдение правил доступа. Чтобы это работало, службы доступа к сетке данных должны согласовываться со службами доступа к административным доменам.

Сервис репликации данных

Чтобы удовлетворить потребности в масштабируемости, быстром доступе и совместной работе пользователей, большинство сеток данных поддерживают репликацию наборов данных в точки в распределенной архитектуре хранения.[15] Использование реплик позволяет нескольким пользователям быстрее получать доступ к наборам данных и сохранять полосу пропускания, поскольку реплики часто можно размещать стратегически близко к сайтам или внутри них, где они нужны пользователям. Однако репликация наборов данных и создание реплик ограничены доступностью хранилища на сайтах и ​​пропускной способностью между сайтами. Репликация и создание наборов данных реплик контролируется системой управления репликами. Система управления репликами определяет потребности пользователей в репликах на основе входных запросов и создает их на основе доступности хранилища и пропускной способности.[16] Затем все реплики каталогизируются или добавляются в каталог на основе сетки данных относительно их местоположения для запросов пользователей. Для выполнения задач, выполняемых системой управления репликами, она должна иметь возможность управлять базовой инфраструктурой хранения. Система управления данными также обеспечит своевременное распространение изменений реплик на все узлы.

Стратегия обновления репликации

Система управления репликацией может обрабатывать обновления реплик несколькими способами. Обновления могут быть разработаны на основе централизованной модели, в которой одна главная реплика обновляет все остальные, или децентрализованной модели, где все одноранговые узлы обновляют друг друга.[17] Топология размещения узлов также может влиять на обновления реплик. Если используется топология иерархии, обновления будут проходить в древовидной структуре по определенным путям. В плоской топологии то, как происходят обновления, полностью зависит от одноранговых отношений между узлами. В гибридной топологии, состоящей как из плоской, так и из иерархической топологии, обновления могут происходить по определенным путям и между одноранговыми узлами.

Стратегия размещения репликации

Существует несколько способов, которыми система управления репликацией может управлять созданием и размещением реплик, чтобы наилучшим образом служить сообществу пользователей. Если архитектура хранилища поддерживает размещение реплик с достаточным объемом хранилища сайта, тогда это становится вопросом потребностей пользователей, имеющих доступ к наборам данных, и стратегии размещения реплик.[18] Было предложено и протестировано множество стратегий, позволяющих наилучшим образом управлять размещением реплик наборов данных в сетке данных в соответствии с требованиями пользователей. Не существует единой универсальной стратегии, которая наилучшим образом удовлетворяла бы всем требованиям. Лучшая стратегия для использования определяется типом сетки данных и требованиями сообщества пользователей к доступу. Можно даже создавать реплики, в которых файлы зашифрованы для обеспечения конфиденциальности, что было бы полезно в исследовательском проекте, посвященном медицинским файлам.[19] В следующем разделе содержится несколько стратегий размещения реплик.

Динамическая репликация

Динамическая репликация - это подход к размещению реплик, основанный на популярности данных.[20] Метод был разработан на основе иерархической модели репликации. Система управления данными отслеживает доступное хранилище на всех узлах. Он также отслеживает запросы (совпадения), данные которых запрашивают клиенты (пользователи) на сайте. Когда количество совпадений для определенного набора данных превышает порог репликации, он запускает создание реплики на сервере, который напрямую обслуживает клиента пользователя. Если на сервере прямого обслуживания, известном как отец, недостаточно места, тогда отец отца в иерархии становится целью для получения реплики и так далее по цепочке, пока она не будет исчерпана. Алгоритм системы управления данными также позволяет динамически удалять реплики, которые имеют нулевое значение доступа или значение ниже частоты хранения данных, чтобы освободить место. Это улучшает производительность системы с точки зрения времени отклика, количества реплик и помогает балансировать нагрузку в сетке данных. Этот метод также может использовать динамические алгоритмы, которые определяют, действительно ли затраты на создание реплики оправдывают ожидаемую прибыль с учетом местоположения.[21]

Адаптивная репликация

Этот метод репликации, аналогичный методу динамической репликации, был разработан на основе иерархической модели репликации, присутствующей в большинстве гридов данных. Он работает по алгоритму, аналогичному динамической репликации, при этом запросы на доступ к файлам являются основным фактором при определении файлов, которые следует реплицировать. Ключевое отличие, однако, заключается в том, что количество и частота создания реплик привязаны к динамическому порогу, который вычисляется на основе скорости поступления запросов от клиентов за период времени.[22] Если количество запросов в среднем превышает предыдущий порог и показывает тенденцию к росту, а коэффициенты использования хранилища указывают на возможность создания большего количества реплик, может быть создано больше реплик. Как и при динамической репликации, удаление реплик с более низким порогом, которые не были созданы в текущем интервале репликации, можно удалить, чтобы освободить место для новых реплик.

Честная репликация

Как и ранее использовавшиеся методы адаптивной и динамической репликации, репликация со справедливым распределением ресурсов основана на иерархической модели репликации. Кроме того, как и в случае с двумя предыдущими, популярность файлов играет ключевую роль в определении того, какие файлы будут реплицированы. Отличие этого метода заключается в том, что размещение реплик зависит от нагрузки доступа и нагрузки хранилища серверов-кандидатов.[нужна цитата ] Сервер-кандидат может иметь достаточно места для хранения, но обслуживать множество клиентов для доступа к сохраненным файлам. Размещение реплики на этом кандидате может снизить производительность для всех клиентов, обращающихся к этому серверу-кандидату. Таким образом, размещение реплик с помощью этого метода осуществляется путем оценки каждого узла-кандидата на нагрузку доступа, чтобы найти подходящий узел для размещения реплики. Если все узлы-кандидаты одинаково рассчитаны на нагрузку доступа, доступ к ним отсутствует или меньше, чем к другому, то для размещения реплик будет выбран узел-кандидат с наименьшей нагрузкой на хранилище. Методы, аналогичные другим описанным методам репликации, используются для удаления неиспользуемых или менее запрошенных реплик, если это необходимо. Удаленные реплики могут быть перемещены на родительский узел для последующего повторного использования, если они снова станут популярными.

Другая репликация

Вышеупомянутые три стратегии репликации - это всего лишь три из многих возможных стратегий репликации, которые можно использовать для размещения реплик в сетке данных, где они улучшат производительность и доступ. Ниже приведены некоторые другие, которые были предложены и протестированы вместе с ранее описанными стратегиями репликации.[23]

  • Статический - использует фиксированный набор реплик узлов без динамических изменений реплицируемых файлов.
  • Лучший клиент - Каждый узел записывает количество запросов на файл, полученных за заданный интервал времени; если номер запроса превышает установленный порог для файла, реплика создается на лучшем клиенте, который запрашивал файл больше всего; устаревшие реплики удаляются по другому алгоритму.
  • Каскадный - Используется в иерархической структуре узлов, где запросы на файл, полученные в течение заданного временного интервала, сравниваются с пороговым значением. Если порог превышен, реплика создается на первом уровне ниже корня, если порог снова превышен, реплика добавляется на следующий уровень вниз и так далее, как эффект водопада, пока реплика не будет помещена на самом клиенте.
  • Обычное кэширование - Если клиент запрашивает файл, он сохраняется как копия на клиенте.
  • Кеширование плюс каскадирование - Сочетает в себе две стратегии кеширования и каскадирования.
  • Быстрый спред - Также используется в иерархической структуре узлов, эта стратегия автоматически заполняет все узлы на пути клиента, запрашивающего файл.

Планирование задач и распределение ресурсов

Такие характеристики грид-систем данных, как крупномасштабность и неоднородность, требуют определенных методов планирования задач и распределения ресурсов. Для решения проблемы в большинстве систем используются расширенные классические методы планирования.[24] Другие предлагают принципиально другие методы, основанные на стимулах для автономных узлов, таких как виртуальные деньги или репутация узла. Другая особенность гридов данных, динамика, заключается в непрерывном процессе подключения и отключения узлов и локальном дисбалансе нагрузки во время выполнения задач. Это может сделать устаревшие или неоптимальные результаты первоначального распределения ресурсов для задачи. В результате в большинстве сеток данных используются методы адаптации во время выполнения, которые позволяют системам отражать динамические изменения: балансировать нагрузку, заменять отключенные узлы, использовать прибыль от вновь подключенных узлов, восстанавливать выполнение задачи после сбоев.

Система управления ресурсами (RMS)

Система управления ресурсами представляет собой основные функции сетки данных. Это сердце системы, которое управляет всеми действиями, связанными с ресурсами хранения. В некоторых гридах данных может потребоваться создание объединенной архитектуры RMS из-за различных административных политик и разнообразия возможностей, имеющихся в сетке данных, вместо использования одного RMS. В таком случае RMS в федерации будут использовать архитектуру, обеспечивающую взаимодействие на основе согласованного набора протоколов для действий, связанных с ресурсами хранения.[25]

Функциональные возможности RMS

  • Выполнение запросов пользователей и приложений на ресурсы данных в зависимости от типа запроса и политик; RMS сможет поддерживать несколько политик и несколько запросов одновременно.
  • Планирование, сроки и создание реплик
  • Применение политик и безопасности в ресурсах сетки данных, включая аутентификацию, авторизацию и доступ
  • Поддержка систем с различными административными политиками для взаимодействия при сохранении автономности сайта
  • Поддержка качества обслуживания (QoS) по запросу, если функция доступна
  • Обеспечьте соблюдение требований отказоустойчивости и стабильности системы
  • Управление ресурсами, то есть дисковым хранилищем, пропускной способностью сети и любыми другими ресурсами, которые взаимодействуют напрямую или как часть сетки данных
  • Управляйте доверием в отношении ресурсов в административных доменах, некоторые домены могут накладывать дополнительные ограничения на их участие, требуя адаптации RMS или федерации.
  • Поддерживает адаптируемость, расширяемость и масштабируемость по отношению к сетке данных.

Топология

Possible Data Grid Topologies

Сетки данных были разработаны с учетом множества топологий, чтобы удовлетворить потребности научного сообщества. Справа четыре диаграммы различных топологий, которые использовались в сетках данных.[26] Каждая топология имеет определенную цель, в которой она будет лучше всего использоваться. Каждая из этих топологий более подробно описана ниже.

Топология федерации это выбор для организаций, которые хотят обмениваться данными из уже существующих систем. Это позволяет каждому учреждению контролировать свои данные. Когда учреждение с надлежащими полномочиями запрашивает данные у другого учреждения, именно учреждение, получающее запрос, определяет, будут ли данные отправлены запрашивающему учреждению. Федерация может быть слабо интегрирована между учреждениями, тесно интегрирована или сочетать то и другое.

Монадическая топология имеет центральный репозиторий, в который вводятся все собранные данные. Затем центральный репозиторий отвечает на все запросы данных. В этой топологии нет реплик по сравнению с другими. Доступ к данным осуществляется только из центрального репозитория, который может быть через веб-портал. Одним из проектов, использующих эту топологию сетки данных, является Сеть инженерного моделирования землетрясений (NEES) В Соединенных Штатах.[27] Это хорошо работает, когда весь доступ к данным локальный или в пределах одного региона с высокоскоростным подключением.

Иерархическая топология поддается сотрудничеству, когда есть единый источник данных, и их необходимо распространять в нескольких местах по всему миру. Одним из таких проектов, который выиграет от этой топологии, будет ЦЕРН что управляет Большой адронный коллайдер что генерирует огромные объемы данных. Эти данные находятся в одном источнике и должны быть распространены по всему миру среди организаций, участвующих в проекте.

Гибридная топология представляет собой просто конфигурацию, которая содержит архитектуру, состоящую из любой комбинации вышеупомянутых топологий. Он используется в основном в ситуациях, когда исследователи, работающие над проектами, хотят поделиться своими результатами для дальнейших исследований, сделав их доступными для совместной работы.

История

Потребность в сетках данных была впервые признана научное сообщество касательно моделирование климата, куда терабайт и петабайт размер наборы данных становятся нормой для транспорта между объектами.[28] Более поздние требования к исследованиям сетей данных были обусловлены Большой адронный коллайдер (LHC) на ЦЕРН, то Обсерватория гравитационных волн с лазерным интерферометром (LIGO), а Слоан цифровой обзор неба (SDSS). Эти примеры научных инструментов позволяют получать большие объемы данных, которые должны быть доступны для больших групп географически рассредоточенных исследователей.[29][30] Другие области использования сетей данных связаны с правительствами, больницами, школами и предприятиями, где предпринимаются усилия по совершенствованию услуг и сокращению затрат путем предоставления доступа к рассредоточенным и отдельным системам данных с помощью сеток данных.[31]

С самого начала концепция Data Grid для поддержки научного сообщества рассматривалась как специализированное расширение «сетки», которая сама по себе изначально была задумана как способ связать суперкомпьютеры с мета-компьютерами.[32] Однако это длилось недолго, и сеть превратилась в способность подключать компьютеры в любом месте в Интернете для получения доступа к любым нужным файлам и ресурсам, подобно тому, как электричество доставляется по сети, просто подключив устройство. Устройство получает электричество через свое подключение, и подключение не ограничивается конкретной розеткой. Исходя из этого, сетка данных была предложена как интегрирующая архитектура, способная предоставлять ресурсы для распределенных вычислений. Он также сможет обслуживать от множества до тысяч запросов одновременно, доставляя от гигабайт до терабайтов данных для каждого запроса. Грид данных будет включать в себя собственную инфраструктуру управления, способную управлять всеми аспектами производительности и работы грид данных в нескольких глобальных сетях, работая в рамках существующей структуры, известной как Интернет.[33]

Сетка данных также была недавно определена с точки зрения удобства использования; что должна делать сетка данных, чтобы она была полезной для научного сообщества. Сторонники этой теории пришли к нескольким критериям.[34] Во-первых, пользователи должны иметь возможность искать и находить подходящие ресурсы в сетке данных среди множества ее наборов данных. Во-вторых, пользователи должны иметь возможность находить в сетке данных наборы данных, наиболее подходящие для их требований, среди множества реплик. В-третьих, пользователи должны иметь возможность передавать и перемещать большие наборы данных между точками за короткий промежуток времени. В-четвертых, сетка данных должна обеспечивать средства для управления несколькими копиями наборов данных в сетке данных. И, наконец, сетка данных должна обеспечивать безопасность с помощью элементов управления доступом пользователей в сетке данных, то есть тем, каким пользователям разрешен доступ к каким данным.

Грид данных - это развивающаяся технология, которая продолжает изменяться и расти, чтобы удовлетворить потребности растущего сообщества. Одна из самых первых программ, которые начали делать сети данных реальностью, была профинансирована Агентство перспективных оборонных исследовательских проектов (DARPA) в 1997 г. на Чикагский университет.[35] Это исследование, инициированное DARPA, продолжило путь к созданию инструментов с открытым исходным кодом, которые делают возможными сетки данных. По мере появления новых требований к сеткам данных такие проекты, как Инструментарий Глобус появится или расширится, чтобы заполнить пробел. Грид данных вместе с «Гридом» будет продолжать развиваться.

Примечания

  1. ^ Оллкок, Билл; Червенак, Энн; Фостер, Ян; и другие. Инструменты Data Grid: наука о больших распределенных данных
  2. ^ Венугопал, Шрикумар; Буйя, Раджкумар; Рамамоханарао, Котагири. Таксономия гридов данных для распределенного обмена данными - управление и обработка стр.37
  3. ^ Шорфуззаман, Мохаммад; Грэм, Питер; Эскичиоглу, Расит. Адаптивное размещение реплик в иерархических сетках данных. стр.15
  4. ^ Падала, Прадип. Обзор промежуточного программного обеспечения данных для грид-систем стр.1
  5. ^ Падала, Прадип. Обзор промежуточного программного обеспечения данных для грид-систем
  6. ^ Аркот, Раджасекар; Ван, Майкл; Мур, Рейган; Шредер, Уэйн; Кременек. Брокер ресурсов хранения - управление распределенными данными в сетке
  7. ^ Венугопал, Шрикумар; Буйя, Раджкумар; Рамамоханарао, Котагири. Таксономия гридов данных для распределенного обмена данными - управление и обработка стр.11
  8. ^ Кутзи, Серена. Эталонная модель для подхода к сетке данных для адресации данных в динамическом SDI стр.16
  9. ^ Венугопал, Шрикумар; Буйя, Раджкумар; Рамамоханарао, Котагири. Таксономия гридов данных для распределенного обмена данными - управление и обработка стр.21
  10. ^ Оллкок, Билл; Фостер, Ян; Нефедова, Вероника; Червенак, Энн; Дилман, Ева; Кессельман, Карл. Высокопроизводительный удаленный доступ к данным моделирования климата: серьезная проблема для технологий сетки данных.
  11. ^ Измайлов, Рауф; Гангулы, Самрат; Вт, Нан. Быстрая параллельная репликация файлов в сетке данных стр.2
  12. ^ Раман, Виджайшанкар; Наранг, Индерпал; Крон, Крис; Хасс, Лаура; Малаика, Сьюзен. Услуги по доступу к данным и обработке данных в гридах
  13. ^ Томас Р. К. и Сандху Р. С. Управление авторизацией на основе задач (tbac): семейство моделей для активного и ориентированного на предприятие управления авторизацией
  14. ^ Шрилатха, Малемпати. Сеточный подход для обеспечения конфиденциальности данных. стр.1
  15. ^ Червенак, Энн; Шулер, Роберт; Кессельман, Карл; Коранда, Скотт; Мо, Брайан. Репликация данных по всему миру для научного сотрудничества
  16. ^ Ламехамеди, Худа; Шиманский, Болеслав; Шенту, Зуджун; Дилман, Ева. Стратегии репликации данных в грид-средах
  17. ^ Ламехамеди, Худа; Шиманский, Болеслав; Шенту, Зуджун; Дилман, Ева. Стратегии репликации данных в грид-средах
  18. ^ Падала, Прадип. Обзор промежуточного программного обеспечения данных для грид-систем
  19. ^ Кранти, Г. и Рекха, Д. Шаши. Репликация защищенных объектов данных в сетке данных стр.40
  20. ^ Белалем, Галем и Меруфель, Бахта. Управление и размещение реплик в иерархической сетке данных
  21. ^ Ламехамеди, Худа; Шиманский, Болеслав; Шенту, Зуджун; Дилман, Ева. Стратегии репликации данных в грид-средах
  22. ^ Шорфуззаман, Мохаммад; Грэм, Питер; Эскичиоглу, Расит. Адаптивное размещение реплик в иерархических сетках данных
  23. ^ Ранганатан, Кавита и Фостер, Ян. Определение стратегий динамической репликации для высокопроизводительной сетки данных
  24. ^ Епимахов, Игорь; Хамерлен, Абделькадер; Диллон, Тарам; Морван, Франк. Методы планирования ресурсов для оптимизации запросов в системах Data Grid
  25. ^ Краутер, Клаус; Буйя, Раджкумар; Махешваран, Мутукумару. Таксономия и обзор систем управления грид-ресурсами для распределенных вычислений
  26. ^ Чжу, Личунь. Управление метаданными в федерации баз данных grid
  27. ^ Венугопал, Шрикумар; Буйя, Раджкумар; Рамамоханарао, Котагири. Таксономия гридов данных для распределенного обмена данными - управление и обработка стр.16
  28. ^ Оллкок, Билл; Фостер, Ян; Нефедова, Вероника; Червенак, Энн; Дилман, Ева; Кессельман, Карл. Высокопроизводительный удаленный доступ к данным моделирования климата: серьезная проблема для технологий сетки данных.
  29. ^ Оллкок, Билл; Червенак, Энн; Фостер, Ян; и другие. стр.571
  30. ^ Тирни, Брайан Л. Проблемы с сетками данных и их производительностью. стр.7
  31. ^ Тибодо, П. Правительства планируют проекты сетей передачи данных
  32. ^ Хейнгартнер, Дуглас. Сетка: Интернет следующего поколения
  33. ^ Хейнгартнер, Дуглас. Сетка: Интернет следующего поколения
  34. ^ Венугопал, Шрикумар; Буйя, Раджкумар; Рамамоханарао, Котагири. Таксономия гридов данных для распределенного обмена данными - управление и обработка стр.1
  35. ^ Глобус. О наборе инструментов globus

Рекомендации

  • Оллкок, Билл; Червенак, Энн; Фостер, Ян; Кессельман, Карл; Ливны, Мирон (2005). «Инструменты Data Grid: использование науки о больших распределенных данных». Journal of Physics: Серия конференций. 16 (1): 571–575. Bibcode:2005JPhCS..16..571A. CiteSeerX  10.1.1.379.4325. Дои:10.1088/1742-6596/16/1/079.
  • Оллкок, Билл; Фостер, Ян; Нефедова, Вероника л; Червенак, Энн; Дилман, Ева; Кессельман, Карл; Ли, Джейсон; Сим, Алекс; Шошани, Арье; Драч, Боб; Уильямс, Дин (2001). «Высокопроизводительный удаленный доступ к данным моделирования климата: серьезная проблема для технологий сетки данных». ACM Press. CiteSeerX  10.1.1.64.6603. Цитировать журнал требует | журнал = (помощь)
  • Епимахов, Игорь; Хамерлен, Абделькадер; Диллон, Тарам; Морван, Франк (2011). «Методы планирования ресурсов для оптимизации запросов в системах Data Grid». Достижения в базах данных и информационных системах. 15-я Международная конференция, ADBIS 2011. Вена, Австрия: Springer Berlin Heidelberg. С. 185–199. Дои:10.1007/978-3-642-23737-9_14.
  • Краутер, Клаус; Буйя, Раджкумар; Махешваран, Мутукумару (2002). «Таксономия и обзор систем управления сетевыми ресурсами для распределенных вычислений». Практика и опыт работы с программным обеспечением (SPE). 32 (2): 135–164. CiteSeerX  10.1.1.38.2122. Дои:10.1002 / spe.432. S2CID  816774.


  • Ламехамеди, Худа; Шиманский, Болеслав; Шенту, Зуджун; Дилман, Ева (2002). «Стратегии репликации данных в грид-средах». Пятая международная конференция по алгоритмам и архитектурам для параллельной обработки (ICA3PP’02). Нажмите. С. 378–383. CiteSeerX  10.1.1.11.5473.
  • Падала, Прадип. «Обзор программного обеспечения промежуточного слоя данных для грид-систем». CiteSeerX  10.1.1.114.1901. Цитировать журнал требует | журнал = (помощь)
  • Ранганатан, Кавита; Фостер, Ян (2001). «Определение стратегий динамической репликации для высокопроизводительной сетки данных». В Proc. Международного семинара по грид-вычислениям. С. 75–86. CiteSeerX  10.1.1.20.6836. Дои:10.1007/3-540-45644-9_8.

дальнейшее чтение

  • Хэнкок, Б. (2009). «Простая сетка данных с использованием операционной системы inferno». Библиотека Hi Tech. 27 (3): 382–392. Дои:10.1108/07378830910988513.
  • Раджкумар, Кеттимуту; Оллкок, Уильям; Лиминг, Ли; Наварро, Иоанн-Поль; Фостер, Ян (30 марта 2007 г.). «GridCopy быстро перемещает данные по сетке» (PDF). Международный симпозиум по параллельной и распределенной обработке (IPDPS 2007). Лонг-Бич: IEEE International. стр. 1–6. Получено 29 апреля, 2012.