Сводные данные - Aggregate data

Диаграмма, показывающая основное значение агрегированных данных, которые представляют собой комбинацию индивидуальных данных.

Сводные данные - это данные высокого уровня, полученные путем объединения данных на индивидуальном уровне. Например, выпуск отрасли - это совокупность отдельных выпусков фирм в этой отрасли.[1] Агрегированные данные применяются в статистике, хранилищах данных и в экономике.

Есть различие между агрегированными данными и индивидуальными данными. Под совокупными данными понимаются индивидуальные данные, усредненные по географическим регионам, годам, сервисным агентствам или другими способами.[2] Индивидуальные данные представляют собой дезагрегированные индивидуальные результаты и используются для проведения анализа для оценки различий в подгруппах.[2]

Сводные данные в основном используются исследователями и аналитиками, политиками, банками и администраторами по нескольким причинам. Они используются для оценки политики, распознавания тенденций и закономерностей процессов, получения релевантной информации и оценки текущих мер стратегического планирования. Сводные данные, собранные из различных источников, используются в различных областях исследований, таких как сравнительный политический анализ и научный анализ APD, для дальнейшего анализа. Сводные данные также используются в медицинских и образовательных целях. Агрегированные данные широко используются, но они также имеют некоторые ограничения, в том числе неточные изображения. выводы и ложные выводы, которые также называются "экологическая ошибка ’.[3] «Экологическая ошибка» означает, что пользователи не могут делать выводы об экологических отношениях между двумя количественными переменными на индивидуальном уровне.[3]

Приложения

В статистика, совокупные данные - данные, полученные в результате нескольких измерений. При агрегировании данных группы наблюдений заменяются на сводные статистические данные на основании этих наблюдений.[4]

В хранилище данных, использование совокупность data значительно сокращает время на запрос больших наборов данных. Разработчики предварительно суммируют запросы, которые часто используются, например, еженедельные продажи по нескольким размеры например, по иерархии элементов или географической иерархии.

В экономика, совокупные данные или же агрегаты данных представляют собой данные высокого уровня, которые состоят из множества или комбинации других более индивидуальных данных, таких как:

Основные пользователи

Исследователи и аналитики

Исследователи используют агрегированные данные, чтобы понять распространенные этос, оценить сущность социальных реалий и социальной организации, обозначить первоочередные проблемы в исследование, а также предлагаем прогнозы в отношении характера социальных проблем.[5] Агрегированные данные полезны для исследователей, когда они заинтересованы в изучении взаимосвязей между двумя различными переменными на агрегированном уровне и связей между агрегированной переменной и характеристикой на индивидуальном уровне.[2] Исследователи также предприняли попытку критически оценить политики, практики и предписания систем с помощью агрегированных данных, чтобы исследовать соответствующие актуальность и эффективность.[5]

Политики

Совокупные данные используются правительствами для разработки более эффективных политик, поскольку они служат мерой того, насколько правительство способно осознавать потребности и потребности своих граждан, а также мерой того, как правительство эффективно поддерживает социальный порядок.[5] Например, правительства во всем мире используют совокупные данные о мобильном местоположении для анализа в ответ на Covid-19. Сводные данные о мобильном местоположении могут дать представление об эффективности социальное дистанцирование меры, принятые правительствами. Правительства также используют агрегированные данные для определения возможных «горячих точек» и потенциала передачи.[6]

А также проектирование эффективность государственной политики, агрегированный анализ данных также проводится для оценки характера, оценки степени, выявления тенденции и изучения модели конкретного явления или процесса с целью разработки стратегии, подготовки краткосрочной или долгосрочной политики и принятия эффективные и актуальные процедуры контроля или предотвращения.[5] Политики также используют агрегированные финансовые данные при оценке экономической и финансовой деятельности компаний и домашних хозяйств, поскольку эти данные помогают идентифицировать риски, связанные с финансовая стабильность. Политики могут использовать агрегированные данные, чтобы лучше понимать изменения экономических и финансовых условий страны.[7]

банки

Банки собирают агрегированные данные от значительного числа клиентов, а затем анонимизируют их, удаляя личную информацию. Основная причина, по которой банки используют агрегированные данные, - это оценка экономических тенденций и понимание кластеров клиентов. Банкам не разрешается делиться информацией о клиентах личные данные, но агрегированные данные могут быть переданы бизнес-клиентам банков и доступны другим партнерам, которые также используют ту же платформу для сбора информации об агрегированных данных.[8]

В Австралии Commonwealth Bank предоставляет своим бизнес-клиентам анонимные данные об их клиентах, полученные в результате транзакций по картам. ANZ также предоставляет своим бизнес-клиентам анонимные данные, которые собираются из миллионов транзакций торговых терминалов и транзакций по картам ANZ.[8]

В Великобритании Комплексный сбор совокупных данных по неотложной медицинской помощи (IUC ADC) предоставляет исчерпывающую информацию о деятельности IUC, ее эффективности, а также потребности в услугах. Его данные получены от ведущих поставщиков данных, ответственных за предоставление интегрированных услуг неотложной помощи в Англии.[9] В Национальный центр здоровья (NHS) под Департамент здравоохранения и социальной защиты (DHSC) в Англии заявили, что этот набор агрегированных данных заменит минимальный набор данных NHS 111. Он также будет использоваться в качестве официального источника статистики IUC, а также для наблюдения за ключевыми показателями эффективности (KPI) ADC IUC.[10]

Администраторы

Доступные эмпирические данные на национальном или региональном уровне используются администраторами и интеллектуалами, а также людьми, которых беспокоит регион или общество. благосостояние, как источники ссылки.[5] В частности, администраторы используют агрегированные данные для оценки текущей политической, религиозной, социальной или иной атмосферы нации, чтобы отслеживать пробелы в социальных реакциях, относящихся ко времени и пространству, и определять приоритеты для действий. Эти оценки помогают администраторам оценить текущие меры, которые будут полезны в будущем. стратегическое планирование и предоставить индикаторы эффективных корректирующих мер.[5]

Источники и методы сбора

Сводные данные могут представлять собой совокупность различных типов записей и записей, включая биография, автобиография, описательные счета и корреспонденция.[5] Например, исследователь собирает, сопоставляет или компилирует совокупные данные с помощью нескольких механизмов социальные исследования, включая инвентарь, опрос, анкету и опросник или же график. Официальные или неофициальные агентства также собирают и компилируют агрегированные данные на постоянной основе, используя инфраструктуру, доступную в отделах на полевом уровне.[5]

Источники агрегированных данных также можно рассматривать как инструменты для обнаружения данных. В США некоторые данные по США представлены в виде таблиц. Примеры источников этих совокупных данных по США включают Бюро переписи населения США, Статистическая справка США и Social Explorer. Международный Валютный Фонд данные, World DataBank и Мировой стол Пенна являются примерами транзакционных и международных источников агрегированных данных.[11]

Использование агрегированных данных

Сравнительный политический анализ

Сводные данные используются в сравнительном политическом анализе, потому что аналитики сосредотачиваются не только на индивидуальном поведении. Они также сосредоточены на поведении территориальных единиц, включая избирательные округа и нации.[12] В анализе политической деятельности важные данные, например, относящиеся к индустриализация, урбанизация, так же как и сети массовых коммуникаций, нелегко выразить на индивидуальных уровнях. Они выражаются в на душу населения условия, чтобы контролировать изменения в единицах площади » численность населения.[12] Сводные данные широко доступны, поскольку демографические, социально-экономические и политические данные собираются и публикуются странами. Это помогает исследователям и аналитикам проводить более длительные исследования тенденций и позволяет им более глубоко сфокусировать внимание на изменениях и разработках.[12]

Научный метаанализ APD

Факторы, включая потребность во времени, значительных ресурсах и широком международном сотрудничество, препятствовали использованию индивидуальных данных пациента (IPD) метаанализ, что привело к тому, что большинство опубликованных метаанализов опирались на совокупные данные о пациентах (APD).[13] Для сбора данных во всех испытаниях по всем пациентам собираются совокупные данные о пациентах из завершенных исследований, которые представляются на профессиональных встречах, публикуются в медицинская литература, или были предоставлены непосредственно отдельными исследователями. Обобщенные данные пациентов используются пользователями, включая Кокрейн Сотрудничество, Целевая группа профилактических служб США, а также многочисленные профессиональные сообщества в обеспечении поддержки руководств по клинической практике. Обобщенные данные о пациентах также используются в метаанализах по времени до события, поскольку результаты могут информировать инвесторов о целесообразности проведения большего количества метаанализов, основанных на ресурсоемких индивидуальных данных о пациентах.[13]

Другое использование

Здравоохранение

В информационной системе здравоохранения совокупные данные - это интеграция данных о многочисленных пациентах. Определенного пациента невозможно отследить по совокупным данным. Эти агрегированные данные представляют собой только подсчеты, включая Туберкулезный, Малярия, или другие заболевания. Медицинские учреждения используют этот тип агрегированной статистики для создания отчетов и показателей, а также для проведения стратегического планирования в своих системах здравоохранения.[14] По сравнению с агрегированными данными, данные пациента - это индивидуальные данные, относящиеся к одному пациенту, включая его имя, возраст и диагноз и история болезни. Данные на основе пациентов в основном используются для отслеживания прогресса пациента, например, того, как пациент реагирует на конкретное лечение с течением времени.[14]

Архив данных COVID-19, также называемый COVID-ARC, объединяет данные исследований, проведенных в глобус. Исследователи получают доступ к открытиям зарубежных коллег и налаживают сотрудничество для облегчения процессов, связанных с борьбой с болезнью.[15] В частности, использование агрегированных медицинских данных позволяет поставщикам медицинских услуг раскрывать действенные клинические идеи, когда, например, становится возможным тщательный просмотр клинических данных или непрерывные записи пациентов.[15]

Образование

Совокупные данные, такие как агрегированные демографические данные на уровне школы и агрегированные данные об успеваемости на уровне школы, используются в экспериментальном анализе для оценки взаимосвязи между успеваемостью учащихся и мероприятиями на уровне школы.[16] Сводные данные также могут использоваться в неэкспериментальном анализе, например регресс анализ разрывов и анализ прерывных временных рядов. Данные на индивидуальном уровне не требуются в этих неэкспериментальных анализах. Например, анализ прерванных временных рядов оценивает влияние, оказываемое программой на уровне школы, путем сравнения достижений школы до и после запуска программы, когда данные на индивидуальном уровне не требуются.[16]

Ограничения

Смотрите также: Слабые стороны агрегированных данных

В процессе усреднения единиц в некоторых кластер или внутри страны информация теряется, что увеличивает вероятность сделать неточные выводы.[17] Потеря информации происходит из-за того, что при агрегировании данных игнорируются индивидуальные вариации, как если бы они были только типом статистического шума или ошибки измерения.[18] Выводы также меняются от одного к другому, когда для анализа используются данные отдельных фирм или агрегированные данные. Например, при расчете средних показателей по стране не учитываются переменные, специфичные для конкретной фирмы, такие как размер фирмы, возраст фирмы или концентрация собственности фирмы, а при расчете индивидуальных средних значений учитываются. Существуют различия между результатами, полученными на основе совокупных данных и индивидуальных данных.[17]

Также существует проблема «экологической ошибки». Эта концепция была предложена Робинсоном (1950). Смысл этого термина в том, что вариабельность средних значений на индивидуальном уровне значительно отличается от вариативности агрегированных средних.[18] С помощью агрегированной концепции выражаются вещи, отличные от индивидуальных эквивалентов агрегированных данных, что означает, что нельзя делать выводы на индивидуальном уровне.[3] Хотя агрегированные данные имеют более широкое применение, чем данные на индивидуальном уровне, исследователям сложнее заниматься анализом подгруппа результаты при использовании агрегированных данных. В конце концов, может потребоваться и индивидуальная информация. Моделирование роста и продольный моделирование на основе агрегированных данных также затруднено, поскольку переменные могут изменяться со временем.[2]

Другие типы агрегированных данных

Данные финансовых агрегатов

Данные финансовых агрегатов - это тип агрегированных данных о кредит и денежная масса в Австралии, который используется политиками при оценке экономической и финансовой деятельности как домашних хозяйств, так и компаний.[7]

Кредитные агрегаты

Кредитные агрегаты - это показатели заимствований домашних хозяйств и предприятий у финансовых посредников. Сумма средств, привлеченных предприятиями для целей, включая инвестиции в проекты, покупку активов или управление денежными потоками, также измеряется с использованием кредитных агрегатов.[7]

Денежные агрегаты

Денежные агрегаты - это средства измерения денег или «подобных денег» инструментов банковской системы, которые причитаются предприятиям и домашним хозяйствам. Примером «похожего на деньги» инструмента являются депозиты в банковский счет.[7]

Сводные данные переписи

В Соединенном Королевстве, перепись агрегированные данные - это данные, полученные в результате переписей населения Соединенного Королевства. Они предоставляют информацию о социально-экономических и демографических характеристиках населения страны. Они представляют собой сборник агрегированных или обобщенных расчетов количества людей, жителей домохозяйств или семей в определенных географических областях с определенными характеристиками или совокупностями характеристик, взятых из субъектов и мест, групп населения, семей, здоровья, этническая принадлежность и религия, жилье и работа.[19]

Агрегированные данные используются в качестве компонентов результатов переписи Великобритании. Они получены на основе анализа информации, представленной в отчетах переписи.[19] Сводные данные переписи используются для сравнения и описания характеристик населения в различных местах Великобритании, поскольку они могут предоставить сопоставимую информацию на различных географических уровнях по всей Великобритании. Сводные данные переписи также используются в академическом секторе для учебных и исследовательских целей, а также для определения местоположения участков и маркетинга в частном секторе.[19]

Рекомендации

  1. ^ Хашимзаде, Нигяр; Майлз, Гарет; Блэк, Джон (2017-01-19). Экономический словарь. Издательство Оксфордского университета. п. 4. Дои:10.1093 / acref / 9780198759430.001.0001. ISBN  978-0-19-875943-0.
  2. ^ а б c d Джейкоб, Робин (2016). «Использование совокупных административных данных в исследованиях социальной политики». Управление планирования, исследований и оценки | АКФ. п. 1-6. Получено 2020-10-30.
  3. ^ а б c Старрин, Бенгт; Хэгквист, Курт; Ларссон, Джерри; Свенссон, Пер-Гуннар (1 июня 1993 г.). «Типы сообществ, социально-экономическая структура и смертность от ИБС - контекстный анализ, основанный на сводных шведских данных». Социальные науки и медицина. 36 (12): 1569–1578. Дои:10.1016/0277-9536(93)90345-5. ISSN  0277-9536.
  4. ^ Агрегация и реструктуризация данных (глава 5.6 из книги «R в действии», Публикации Мэннинга )
  5. ^ а б c d е ж грамм час Шукла, К. С. (1982). «АНАЛИЗ ОБЩИХ ДАННЫХ». Журнал Индийского юридического института. 24 (4): 756–762. ISSN  0019-5731.
  6. ^ «Мобильные данные о местоположении и Covid-19: вопросы и ответы». Хьюман Райтс Вотч. 2020-05-13. Получено 2020-10-30.
  7. ^ а б c d Банк, Джоэл; Дуррани, Кассим; Хацви, Эдем (21 марта 2019 г.). «Обновления финансовых агрегатов Австралии». Резервный банк Австралии. Резервный банк Австралии.
  8. ^ а б Стюарт, Эмили (22 марта 2019 г.). «Банки имеют много информации о вас - и они не хранят ее при себе - ABC Life». ABC News. Получено 2020-10-30.
  9. ^ «Статистика» Комплексный сбор совокупных данных по неотложной помощи (IUC ADC), экспериментальная статистика за 2019-20 гг. ». www.england.nhs.uk. NHS England. Получено 2020-10-30.
  10. ^ «Комплексный сбор совокупных данных по неотложной помощи (IUC ADC) за март 2020 г. (экспериментальный)». GOV.UK. Англия, Соединенное Королевство. 14 мая 2020. Получено 2020-10-30.
  11. ^ Пенсек, Брюс. «Руководства по исследованию: ресурсы данных для социальных наук: совокупные данные». guides.lib.vt.edu. Технологический институт Вирджинии. Получено 2020-10-30.
  12. ^ а б c Рецлафф, Ральф Х. (1965). «Использование агрегированных данных в сравнительном политическом анализе». Журнал политики. 27 (4): 797–817. Дои:10.2307/2128120. ISSN  0022-3816.
  13. ^ а б Лайман, Гэри H .; Кудерер, Николь М. (25 апреля 2005 г.). «Сильные и слабые стороны метаанализа на основе агрегированных данных». BMC Методология медицинских исследований. 5 (1): 14. Дои:10.1186/1471-2288-5-14. ISSN  1471-2288. ЧВК  1097735. PMID  15850485.
  14. ^ а б «3.5 Разница между агрегированными данными и данными пациента в ИСЗ». docs.dhis2.org. Получено 2020-11-15.
  15. ^ а б Гринбаум, Зара (19 августа 2020 г.). «Ученые запускают архив данных для поддержки исследований COVID-19». Новости HSC. Получено 2020-10-31.
  16. ^ а б Джейкоб, Робин Т .; Годдард, Роджер Д .; Ким, Ын Сук (2014-03-01). «Оценка использования агрегированных данных при оценке мероприятий в школах: последствия для оценочных исследований и государственной политики в отношении данных общественного пользования». Оценка образования и анализ политики. 36: 44–66. Дои:10.3102/0162373713485814.
  17. ^ а б Холдернесс, Клиффорд Г. (12 мая 2016 г.). «Проблемы, связанные с использованием агрегированных данных для вывода индивидуального поведения: доказательства из закона, финансов и концентрации собственности». Критический финансовый обзор. 5 (1): 1–40. Дои:10.1561/104.00000028.
  18. ^ а б Pollet, Thomas V .; Стулп, Герт; Хензи, С. Питер; Барретт, Луиза (2015). «Избавление от усугубления агрегации данных: концептуальное руководство по решению статистических вопросов, связанных с объединением данных наблюдений на индивидуальном уровне». Американский журнал приматологии. 77 (7): 727–740. Дои:10.1002 / ajp.22405. ISSN  1098-2345.
  19. ^ а б c «Руководство по совокупным данным переписи». census.ukdataservice.ac.uk. Получено 2020-10-31.