Система научного документооборота - Scientific workflow system

А система научного документооборота это специализированная форма система управления рабочим процессом разработан специально для составления и выполнения ряда этапов вычислений или обработки данных, или рабочий процесс, в научном приложении.[1]

Приложения

Распределенные ученые могут сотрудничать в проведении крупномасштабных научных экспериментов и открытие знаний приложения, использующие распределенные системы вычислительных ресурсов, наборов данных и устройств. Системы научного документооборота играют важную роль в реализации этого видения.

Более специализированные системы научных рабочих процессов предоставляют интерфейс визуального программирования, позволяющий пользователям легко создавать свои приложения в виде визуального графа, соединяя узлы вместе, а также были разработаны инструменты для создания таких приложений независимо от платформы.[2] Каждое направленное ребро в графе рабочего процесса обычно представляет собой соединение между выходом одного приложения и входом следующего. Последовательность таких ребер можно назвать трубопровод.

А система управления рабочим процессом биоинформатики это специализированная система научного документооборота, ориентированная на биоинформатика.

Научные рабочие процессы

Простейшие компьютеризированные научные рабочие процессы - это сценарии, которые вызывают данные, программы и другие входные данные и производят выходные данные, которые могут включать визуализацию и аналитические результаты. Они могут быть реализованы в таких программах, как р или же MATLAB, используя язык сценариев, например Python или же Perl с Интерфейс командной строки или совсем недавно с использованием веб-приложений с открытым исходным кодом, таких как Блокнот Jupyter.

Есть много причин для того, чтобы отличать научные рабочие процессы от традиционных бизнес-процессов. К ним относятся:

  • предоставление простой в использовании среды, позволяющей ученым-разработчикам самостоятельно создавать собственные рабочие процессы.
  • предоставление интерактивных инструментов для ученых, позволяющих им выполнять свои рабочие процессы и просматривать свои результаты в режиме реального времени.
  • упрощение процесса обмена и повторного использования рабочих процессов между учеными.
  • позволяя ученым отслеживать происхождение результатов выполнения рабочего процесса и этапов создания рабочего процесса.

Сосредоточение внимания на ученых позволяет смещать акцент при разработке системы научного рабочего процесса с рабочего процесса. планирование деятельности, обычно рассматриваемой сеточные вычисления среды для оптимизации выполнения сложных вычислений на предопределенных ресурсах, для предметно-ориентированного представления о том, какие типы данных, инструменты и распределенные ресурсы должны быть доступны ученым и как сделать их легко доступными и с конкретными требованиями к качеству обслуживания [3]

Научные рабочие процессы теперь признаны[кем? ] как важнейший элемент киберинфраструктура, способствуя электронной науке. Обычно сидя на промежуточное ПО слой, научные рабочие процессы - это средство, с помощью которого ученые могут моделировать, проектировать, выполнять, отлаживать, перенастраивать и повторно запускать свой анализ и визуализацию трубопроводы. Частью установленного научного метода является создание записи о происхождении результата, о том, как он был получен, использованных экспериментальных методах, калибровках и параметрах машины и т. Д. То же самое и в электронной науке, за исключением того, что данные о происхождении являются записью вызываемые действия рабочего процесса, доступ к службам и базам данных, используемые наборы данных и т. д. Такая информация полезна ученым для интерпретации результатов их рабочего процесса, а другим ученым - для установления доверия к результатам экспериментов.[4]

Совместное использование рабочих процессов

Сообщества социальных сетей, такие как myExperiment были разработаны для облегчения обмена и совместной разработки научных рабочих процессов. Галактика предоставить механизмы совместной работы для редактирования и публикации определений рабочих процессов и результатов рабочих процессов непосредственно в установке Galaxy.

Анализ

Ключевое предположение, лежащее в основе всех систем научных рабочих процессов, заключается в том, что сами ученые смогут использовать систему рабочих процессов для разработки своих приложений на основе визуальных блок-схем, логических диаграмм или, в крайнем случае, написания кода для описания логики рабочего процесса. Мощные системы рабочих процессов позволяют непрограммистам сначала набросать шаги рабочего процесса с помощью простых инструментов блок-схем, а затем подключать различные инструменты сбора, анализа и отчетности. Для максимальной производительности детали базового программного кода обычно должны быть скрыты.

Методы анализа рабочего процесса могут использоваться для анализа свойств таких рабочих процессов для проверки определенных свойств перед их выполнением. Пример теоретической структуры формального анализа для проверки и профилирования аспектов потока управления научных рабочих процессов и их аспектов потока данных для Discovery Net Система описана в статье «Разработка и реализация инструмента анализа рабочего процесса» Курсина и др.[5]

Авторы отмечают, что внедрение программного анализа и верификации в рабочий процесс world требует подробного понимания семантики выполнения языка рабочего процесса, включая свойства выполнения узлов и дуг в графе рабочего процесса, понимание функциональной эквивалентности между шаблонами рабочего процесса и многих других вопросов. Провести такой анализ сложно, и решение этих проблем требует использования формальных методов, используемых в компьютерных исследованиях (например, Сети Петри ) и, опираясь на эти формальные методы, разработать инструменты пользовательского уровня, позволяющие анализировать свойства рабочих процессов и систем рабочих процессов. Отсутствие таких инструментов в прошлом помешало автоматизированным решениям для управления рабочими процессами превратиться из приятных академических игрушек в инструменты производственного уровня, используемые вне узкого круга первых последователей и энтузиастов рабочего процесса.

Известные системы

Известные системы научного рабочего процесса включают:[6]

  • Андурил, биоинформатика и анализ изображений
  • Апач Айравата, универсальная система управления рабочим процессом[7]
  • Apache Airflow, универсальная система управления рабочим процессом
  • Apache Taverna, широко используется в биоинформатике, астрономии, биоразнообразии.
  • БИОБАЙК, облачная биоинформатическая платформа
  • Биоклипс, графическая рабочая среда со средой сценариев, которая позволяет выполнять сложные действия как своего рода рабочий процесс.
  • Коллективные знания, основанный на Python фреймворк для краудсорсинга общих рабочих процессов и экспериментов с JSON API и кроссплатформенный менеджер пакетов
  • Общий язык рабочего процесса, развитый сообществом YAML язык рабочего процесса, поддерживаемый несколькими реализациями движка.
  • Клинопись, а функциональный язык рабочего процесса.
  • Discovery Net, один из первых примеров системы научного документооборота
  • Галактика изначально нацелены на геномика
  • GenePattern, мощная система научного рабочего процесса, которая предоставляет доступ к сотням инструментов геномного анализа.[8]
  • Кеплер, система управления научным документооборотом
  • KNIME, платформа для анализа данных с открытым исходным кодом
  • Пегас, система управления научным рабочим процессом с открытым исходным кодом[9]
  • ОнлайнHPC, онлайн-конструктор научных рабочих процессов и инструментарий для высокопроизводительных вычислений
  • апельсин, визуализация и анализ данных с открытым исходным кодом
  • Пилот трубопровода, графическое программирование с множеством инструментов для работы с рабочими процессами Cheminformatics [10]
  • Быстрый язык параллельных сценариев, язык сценариев со многими встроенными возможностями систем управления рабочими процессами.
  • VisTrails, система научного документооборота, разработанная в Python

Выявлено более 280 систем рабочего процесса анализа вычислительных данных,[11] хотя различие между рабочие процессы анализа данных и научный рабочий процесс является гибким, поскольку не все системы рабочего процесса анализа используются в научных целях.

Смотрите также

Рекомендации

  1. ^ Sun, LiewChee; П., Аткинсон-Малькольм; GaleaMichelle; Фонг, АнгТан; MartinPaul; Ван, Хемерт Яно И. (12 декабря 2016 г.). «Научные рабочие процессы». Опросы ACM Computing. Дои:10.1145/3012429.
  2. ^ Д. Джонсон; и другие. (Декабрь 2009 г.). Независимый от промежуточного ПО построитель рабочих процессов Grid для научных приложений (PDF). 2009 5-я Международная конференция IEEE по электронным наукам, семинары. С. 86–91. Дои:10.1109 / ESCIW.2009.5407993. ISBN  978-1-4244-5946-9.
  3. ^ Кириазис, Димостенис; Церпес, Константинос; Menychtas, Andreas; Литке, Антонис; Варваригу, Теодора (2008). «Инновационный механизм отображения рабочего процесса для гридов в рамках качества обслуживания». Компьютерные системы будущего поколения. 24 (6): 498–511. Дои:10.1016 / j.future.2007.07.009.
  4. ^ Автоматический сбор и эффективное хранение данных экспериментов e-Science. Вычисление параллелизма: Практик. Exper. 2008; 20: 419–429
  5. ^ Curcin, V .; Ghanem, M .; Го, Ю. (2010). «Разработка и внедрение инструмента анализа рабочего процесса». Философские труды Королевского общества A: математические, физические и инженерные науки. 368 (1926): 4193–4208. Bibcode:2010RSPTA.368.4193C. Дои:10.1098 / rsta.2010.0157. PMID  20679131.
  6. ^ Баркер, Адам; Ван Хемерт, Яно (2008), Научный рабочий процесс: обзор и направления исследований, Конспект лекций по информатике, 4967, Гданьск, Польша: Springer Berlin / Heidelberg, стр. 746–753, CiteSeerX  10.1.1.105.4605, Дои:10.1007/978-3-540-68111-3_78, ISBN  978-3-540-68105-2
  7. ^ Марру, Суреш; Гардлер, Росс; Сломинский, Александр; Дума, съел; Перера, Шринатх; Вираварана, Санджива; Гунатилаке, Лахиру; Герат, Чафура; Танчайсин, Патаначай; Пирс, Марлон; Маттманн, Крис; Сингх, Рэминдер; Гунаратна, Тилина; Чинтака, Эран (18 ноября 2011 г.). Материалы семинара ACM 2011 по вычислительным средам шлюза - GCE '11. п. 21. Дои:10.1145/2110486.2110490. ISBN  9781450311236.
  8. ^ Райх, Майкл; Лифельд, Тед; Гулд, Джошуа; Лернер, Джим; Тамайо, Пабло; Месиров, Джилл П. (2006). «GenePattern 2.0». Природа Генетика. 38 (5): 500–501. Дои:10.1038 / ng0506-500. PMID  16642009.
  9. ^ Дилман, Ева; Вахи, Каран; Жюв, Гидеон; Rynge, Матс; Каллаган, Скотт; Maechling, Филип Дж .; Майани, Раджив; Чен, Вэйвэй; Феррейра да Силва, Рафаэль; Ливны, Мирон; Венгер, Кент (май 2015 г.). «Pegasus, система управления рабочим процессом для автоматизации науки». Компьютерные системы будущего поколения. 46: 17–35. Дои:10.1016 / j.future.2014.10.008.
  10. ^ "Пилотная версия трубопровода BIOVIA | Приложение для разработки научных рабочих процессов для анализа данных". Accelrys.com. Получено 2016-12-04.
  11. ^ «Существующие системы документооборота». Вики по Common Workflow Language. В архиве из оригинала от 17.10.2019.

внешняя ссылка