NCSA Коричневая собака - NCSA Brown Dog

NCSA Коричневая собака - это исследовательский проект по разработке метода легкого доступа к историческим исследовательским данным, хранящимся в целях поддержания долгосрочной жизнеспособности больших массивов научных исследований. Поддерживается Национальный центр суперкомпьютерных приложений (NCSA), который финансируется Национальный фонд науки (NSF).[1]

История

Коричневая собака является частью DataNet партнерская программа, профинансированная NSF в 2008 году. DataNet была задумана для решения проблемы все более цифрового и интенсивного использования данных в науке, инженерии и образовании. Brown Dog является частью последующей работы под названием Строительные блоки инфраструктуры данных (DIBB), ориентированная на создание программного обеспечения для поддержки DataNet. Проект был предложен исследователями NCSA и Университет Иллинойса в Урбане-Шампейн а также исследователи из Бостонский университет и Университет Северной Каролины в Чапел-Хилл.

Неструктурированные, неконтролируемые данные с длинным хвостом

Много научных данных меньше, неструктурированный и необработанные, и поэтому их нелегко разделить. Такие данные иногда называют данными «длинного хвоста». Этот термин заимствован из статистики и относится к хвосту распределения размеров проектов. Большинству небольших проектов не хватает ресурсов для надлежащего управления производимыми ими данными. Эти так называемые данные «длинного хвоста», как прошлые, так и настоящие, могут дать информацию для будущих исследований во многих областях исследований. Большая часть этих данных стала недоступной из-за устаревшего программного обеспечения и форматов файлов. В результате невозможность обзора данных более старых исследований нарушает общий научно-исследовательский проект.[2]

Подход

Brown Dog описывает себя как "суперсорку" программного обеспечения.[3] (отсюда и название «Коричневая собака»), служащая низкоуровневой инфраструктурой данных для интерфейса цифрового контента данных через Интернет. Его подход заключается в использовании всех возможных источников автоматизированной помощи (например, программного обеспечения) в надежном и сохраняющем их происхождении способом для создания службы, которая может обрабатывать как можно больше этих данных.[4] Проект видит более широкое воздействие своей работы в ее потенциале служить широкой публике как своего рода «DNS для данных», с целью сделать все данные и все форматы файлов такими же доступными, как сегодня веб-страницы.

Технологии

Brown Dog стремится решать проблемы, связанные с использованием неупорядоченных и неструктурированных коллекций данных, путем разработки двух сервисов: прокси-сервера доступа к данным (DAP) для помощи в преобразовании форматов файлов и Data Tilling Services (DTS) для автоматического извлечения метаданные из содержимого файла. После разработки исследователи и обычные пользователи смогут загружать плагины для браузера и другие инструменты из каталога инструментов Brown Dog.[1][5]

Служба обработки данных

Служба обработки данных (DTS) позволит пользователям выполнять поиск в коллекциях данных, используя существующий файл, чтобы обнаруживать другие похожие файлы в коллекции. Поле поиска DTS будет добавлено к настроенным браузерам, где можно будет удалить файлы примеров. Это указывает DTS искать все файлы в заданном URL для файлов, похожих на сброшенный. Например, при просмотре онлайн-коллекции изображений пользователь может поместить изображение трех человек в поле поиска, и DTS вернет все изображения в коллекции, в которой также есть три человека. Если DTS обнаруживает формат стороннего файла, он будет использовать DAP, чтобы сделать файл доступным. DTS также индексирует данные, извлекает и добавляет метаданные к файлам и коллекциям, позволяя пользователям получить некоторое представление о типе данных, с которыми они сталкиваются.

Эта служба работает на порту 9443.

Прокси доступа к данным

Прокси-сервер доступа к данным (DAP) позволяет пользователям получать доступ к файлам данных, которые в противном случае были бы нечитаемыми. Похож на интернет-шлюз или Служба доменных имен, конфигурация DAP будет введена в настройки компьютера и браузера пользователя. Запросы данных более HTTP сначала будет проверяться DAP, чтобы определить, доступен ли собственный формат файла для чтения на клиентском устройстве. В противном случае DAP преобразует файл в наилучший доступный формат, читаемый клиентской машиной. Как вариант, пользователь может сам указать желаемый формат.

Эта служба работает на порту 8184.

Сценарии использования

Коричневый пес нацелен на троих сценарии использования предложены группами внутри EarthCube исследовательские сообщества. Разработчики и исследователи из этих сообществ будут работать вместе над вариантами использования, которые охватывают геонаука, инженерное дело, биология и социальная наука.

Данные о длиннохвостой растительности в экологии и биологии глобальных изменений

Этот вариант использования возглавляет Майкл Дитце, Бостонский университет

Данные о численности, видовом составе и размерной структуре растительности критически важны для широкого круга дисциплин в области экологии, охраны природы, управления природными ресурсами и биологии глобальных изменений. Однако решение многих насущных вопросов в этих дисциплинах потребует, чтобы земная биосфера и гидрологические модели были способны ассимилировать большой объем данных с длинным хвостом, которые существуют, но в основном недоступны. Команда Brown Dog в сотрудничестве с исследователями лаборатории Дитце будет способствовать сбору огромного количества небольших наборов данных о растительности, ориентированных на исследования, собранных за многие десятилетия, и исторических данных о растительности, включенных в данные Public Land Survey, начиная с 1785 года. Эти данные будут используются в качестве начальных условий для моделей, чтобы понять другие большие наборы данных, а также для калибровки и проверки модели.[1][6]

Проектирование зеленой инфраструктуры с учетом ливневых вод и потребностей человека

Этот вариант использования возглавляет Барбара Минскер, Иллинойсский университет в Урбана-Шампейн; Уильям Салливан, Университет штата Иллинойс в Урбане-Шампейн; Артур Шмидт, Университет Иллинойса в Урбана-Шампейн

Это тематическое исследование включает в себя разработку романа зеленая инфраструктура критерии проектирования и модели, которые объединяют требования к управлению ливневыми водами и экосистемам, а также здоровью и благополучию человека. Для решения научных и социальных проблем, связанных с проектированием зеленых насаждений, доступность и доступность данных является серьезной проблемой. Это исследование будет сосредоточено на выявленных областях области планирования зеленого здорового соседства в городе Чикаго, где существующие местные канализационные системы являются наиболее низкими и где изменения в водонепроницаемой зоне с помощью зеленой инфраструктуры будут полезны для недостаточно обслуживаемых районов. Brown Dog будет использоваться для извлечения экспериментальных данных о предпочтениях человека в ландшафте и его влиянии на здоровье. Эти данные будут использованы для разработки модели воздействия на здоровье человека, которая затем будет связана с моделью земной биосферы и моделью ливневых вод с использованием технологии Brown Dog.[1]

Разработка и применение для исследований критических зон

Этот вариант использования возглавляет Правин Кумар, Университет Иллинойса в Урбана-Шампейн

Критическая зона (CZ) - это «кожа» земли, которая простирается от верхушек деревьев до коренных пород, созданная жизненными процессами, работающими в масштабах от микробов до биомов. Критическая зона поддерживает все земные живые системы. Его верхняя часть - биомантия. Здесь наземная биота живет, размножается, использует и расходует энергию, а ее отходы и остатки накапливаются и разлагаются. Он включает в себя почву, которая действует как геомембрана, через которую вода и растворенные вещества, энергия, газы, твердые вещества и организмы взаимодействуют с атмосферой, биосферой, гидросферой и литосферой. На эту биодинамическую зону влияют самые разные факторы, от климата и обезлесения до сельского хозяйства, выпаса скота и человеческого развития. Понимание и прогнозирование этих эффектов имеет ключевое значение для управления и поддержания жизненно важных экосистемные услуги таких как плодородие почвы, очистка воды и производство пищевых ресурсов, а также, в более крупных масштабах, глобальный круговорот углерода и связывание углерода. CZ обеспечивает объединяющую основу для интеграции земной поверхности и приповерхностной среды и отражает сложную сеть биологических и химические процессы и антропогенное воздействие, происходящие в совершенно разных временных и пространственных масштабах. Природа этих данных создает серьезные проблемы для междисциплинарных исследований Чешской Республики, поскольку интеграция разнообразия и количества продуктов и моделей данных была препятствием. С другой стороны, данные CZ предоставляют отличную возможность для определения, тестирования и внедрения технологий Brown Dog. В этом контексте «неструктурированные» данные в широком смысле рассматриваются как состоящие из набора разнородных данных с форматами, отражающими временное и дисциплинарное наследие, данных от появляющихся недорогих датчиков на основе открытого оборудования и встроенных сетей датчиков, в которых отсутствуют четко определенные метаданные и характеристики датчиков, поскольку а также данные, доступные в виде карт, изображений и текста.[1]

Премия NSF

CIF21 DIBB: Brown Dog был присужден зимой 2013 года с датой начала 1 октября 2013 года. Предполагаемый срок действия - 30 сентября 2018 года.[7]

Сумма премии составила 10 519 716 долларов США, что является крупнейшей наградой DIBB. Главный исследователь - Кентон МакГенри из NCSA Университета штата Иллинойс в Урбане-Шампейн. Соруководители - Джонг Ли NCSA / UIUC; Барбара Минскер, инженер по строительству и охране окружающей среды, Иллинойский университет в Урбана-Шампейн; Правин Кумар, инженер по строительству и охране окружающей среды, Иллинойский университет в Урбана-Шампейн; Майкл Дитце, факультет Земли и окружающей среды, Бостонский университет.

Рекомендации

  1. ^ а б c d е "Коричневая собака". NCSA Коричневая собака. Получено 31 июля 2014.
  2. ^ «DataUp - курирование данных для длинного хвоста науки». Блог Microsoft Research Connections. Команда Microsoft Research Connections. Получено 7 августа 2014.
  3. ^ Вуди, Алекс. «Проект NCSA направлен на создание DNS-подобной службы для данных». датанами. Получено 7 августа 2014.
  4. ^ Плец, Джон. «U of I исследователи получают миллионы на« супер-болвана », чтобы уловить тенденции больших данных». Чикагский бизнес. Crain Communications, Inc. Получено 7 августа 2014.
  5. ^ Джеветт, Барбара. "БЕСПЛАТНЫЙ НАБОР ДАННЫХ". Журнал NCSA Access. NCSA. Получено 7 августа 2014.
  6. ^ «Ученый и соавторы BU получают грант в размере 10,5 миллионов долларов на разработку программного обеспечения для некураторских данных». www.newswise.com. Колледж искусств и наук Бостонского университета. Получено 7 августа 2014.
  7. ^ "Премия № 1261582 - CIF21 DIBB: Коричневая собака". nsf.gov. Получено 31 июля 2014.

внешняя ссылка