Диспетчер ресурсов хранения - Storage Resource Manager

В Управление ресурсами хранения (SRM) технология была инициирована группой управления научными данными в Национальная лаборатория Лоуренса Беркли (LBNL) и разработан в ответ на растущие потребности в управлении большими наборами данных в различных системах хранения.

Динамическое управление хранилищем необходимо для обеспечения:

  1. предотвращение потери данных,
  2. уменьшение количества ошибок при репликации данных, и
  3. сокращение времени анализа за счет обеспечения того, чтобы задачи анализа имели достаточно места для выполнения до завершения.

Уже есть многочисленные примеры, когда данные моделирования, выполнявшиеся на машинах высшего класса, были потеряны, потому что они не были вовремя перемещены в систему хранения данных. Диспетчеры ресурсов хранения (SRM) решают такие проблемы, координируя выделение памяти, передавая данные между площадками и обеспечивая безопасные интерфейсы для систем хранения (т. Е. Выполняя особые требования безопасности каждой системы хранения в своем домашнем учреждении). Например, в В производственной среде использование SRM снизило количество ошибок крупномасштабной репликации с 1% до 0,02% в проекте STAR. Кроме того, SRM могут предотвратить сбои в работе. При выполнении заданий в кластерах некоторые из локальных дисков заполняются до завершения задания, что приводит к потере производительности и, как следствие, задержке в анализе. Это происходит из-за того, что пространство не выделялось динамически и предыдущие ненужные файлы не удалялись. Хотя существуют инструменты для динамического распределения вычислительных и сетевых ресурсов, SRM - единственный доступный инструмент для обеспечения динамического резервирования пространства, гарантии безопасной доступности файлов с поддержкой на весь срок службы и автоматической сборки мусора, предотвращающей засорение систем хранения.

Спецификация SRM превратилась в международный стандарт де-факто, и многие проекты обязались использовать эту технологию, особенно в сообществах HEP и HENP, таких как Всемирная вычислительная сеть большого адронного коллайдера (LHC) (WLCG), которая поддерживает ATLAS и CMS. . Подход SRM заключается в разработке единого стандартного интерфейса, который позволяет взаимодействовать множеству реализаций различных организаций. Этот подход устраняет зависимость от одной реализации и позволяет нескольким группам разрабатывать системы SRM для своих конкретных ресурсов хранения. Этот подход стал критически важным для взаимодействия систем хранения для таких крупномасштабных проектов, которые должны управлять и распределять огромные объемы данных эффективно и безопасно. Без такой объединяющей технологии такие проекты не могут масштабироваться и обречены на провал. Эта проблема будет только нарастать со временем, когда вычислительные средства перейдут в петауровневый режим.

Другой важной проблемой, которую решают SRM, является засорение хранилища. Засорение хранилища - критическая проблема для крупномасштабных систем общего хранения, поскольку удаление файлов после их использования не автоматизировано. Это увеличивает стоимость хранения и замедляет процесс анализа и обнаружения. SRM помогают очистить временные системы хранения, обеспечивая управление временем жизни файлов, к которым осуществляется доступ. Эта возможность имеет решающее значение для эффективного использования хранилища в условиях ограниченных затрат.

SRM также служат шлюзами для безопасного доступа к данным. Ограничивая внешний доступ ко всем системам хранения через стандартный интерфейс SRM, можно гарантировать не только аутентифицированный доступ, но и принудительное применение санкционированного доступа к файлам. Технология SRM была очень успешной в SciDAC-1 и в настоящее время используется в производстве в несколько крупных коллабораций. Взаимодействующие реализации SRM были разработаны в LBNL, FNAL и TJNAF, а также на нескольких сайтах в Европе. Кроме того, эта технология увеличивает продуктивность ученых, устраняя утомительные и трудоемкие задачи по управлению хранилищем, выполнению надежного перемещения данных и выполнению требований безопасности в различных местах хранения.

В дополнение к руководству разработкой стандарта SRM, координируя свою деятельность с несколькими организациями, команда LBNL разработала системы SRM для дисковых и массовых запоминающих устройств, включая HPSS. Эти SRM использовались в нескольких прикладных областях, включая несколько проектов в центре SDM, Earth System Grid, эксперименте STAR и Open Science Grid (OSG). Поскольку наборы данных продолжают расти и становятся все более сложными, эти проекты зависят от постоянной разработки и поддержки реализаций SRM со стороны LBNL. Важно использовать успехи SciDAC-1 и поддерживать текущие проекты, которые зависят от технологии SRM, дальнейшее совершенствование и развертывание SRM в дополнительных проектах и ​​доменах приложений, а также постоянное развитие стандарта SRM. В частности, на основе прошлого опыта мы определили важные функции, которые требуют дальнейшего развития и согласования. К ним относятся сложные аспекты мониторинга ресурсов, которые могут использоваться для оценки производительности, обеспечения авторизации, а также отслеживания и отчетности для целей принудительного использования квот в SRM. Еще один аспект, требующий дальнейшего развития, - это SRM для многокомпонентных систем хранения. Такие системы, состоящие из комбинации нескольких дисковых массивов, параллельных файловых систем и архивных хранилищ, становятся все более распространенными, так как объем данных, которыми необходимо управлять, экспоненциально растет с петауровневыми вычислениями.

Использование SRM в реальных приложениях

Интерфейсы SRM были совместно определены, и в США и Европе разработано несколько реализаций. LBNL представила концепции и впоследствии возглавила скоординированные усилия по определению общего интерфейса на базе сообщества. Несколько реализаций были развернуты в различных приложениях, включая HEP, HENP, ESG, а также в новых областях приложений, таких как моделирование Fusion, биология и другие. Некоторые особенности использования SRM на сегодняшний день:

  • SRM LBNL использовались в производстве в последние несколько лет для поддержки интенсивного и надежного перемещения данных между BNL и NERSC со скоростью около 10 000 файлов (около 1 ТБ) в неделю в автоматическом режиме. Эта договоренность привела к 50-кратному сокращению количества ошибок с 1% до 0,02% в проекте STAR.
  • В одном приложении, названном GridCollector, SRM использовались в сочетании с эффективным методом индексации, чтобы значительно ускорить анализ STAR. В нескольких случаях задача анализа выполнялась за день, по сравнению с предыдущими попытками, когда ученые месяцами ждали отсеивания соответствующих данных. Эта работа получила награду за лучшую работу на ISC’05.
  • Сотрудничество SRM выросло как массовое мероприятие между LBNL, FNAL и BNL, а затем и CERN и RAL. Следовательно, был разработан общий интерфейс, и эта деятельность продолжается в настоящее время. Этот стандарт был адаптирован в сотрудничестве с WLCG.
  • SRM используются в производстве на нескольких предприятиях, включая BNL, NERSC, FNAL, CERN, TJNAF, ORNL и NCAR, а также на других предприятиях в Европе и Азии.
  • Другой пример успешного развертывания - SRM-dCache, разработанный в FNAL. Он широко используется в проекте CMS и взаимодействует с SRM-Castor в CERN. Эти усилия продемонстрировали полезность SRM, обеспечив устойчивую управляемую передачу SRM-to-SRM из Castor в FNAL dCache и на ленту со скоростью от 40 до 60 МБ / с.
  • SRM используются TJNAF для обеспечения совместной работы CLAS и Lattice QCD с удаленным доступом к системе хранения данных JASMine. Такой доступ позволил исследователям использовать вычислительные ресурсы в университетах и ​​других сотрудничающих учреждениях для обработки и анализа данных на несколько недель или месяцев раньше, чем если бы это было сделано с использованием только вычислительных ресурсов TJNAF.
  • SRM LBNL использовались при производстве в проекте Earth Systems Grid (ESG) для обеспечения прозрачного доступа из нескольких удаленных систем хранения в NERSC, NCAR, ORNL, LLNL и LANL, включая HPSS и NCAR-MSS. Дисковая версия SRM используется порталом ESG для управления дисковым пространством, когда оно используется в качестве хранилища файлов для нескольких клиентов.
  • Использование SRM для проекта слияния CPES для крупномасштабного надежного перемещения данных будет включено в механизмы рабочего процесса как часть деятельности центра SDM.

Список программного обеспечения Storage Resource Manager:

Смотрите также