Статистический контроль раскрытия информации - Statistical disclosure control - Wikipedia

Статистический контроль раскрытия информации (SDC), также известный как ограничение раскрытия статистической информации (SDL) или же отказ от раскрытия информации, это метод, используемый в исследованиях на основе данных, чтобы гарантировать, что ни одно лицо или организация не могут быть идентифицированы по результатам анализа опроса или административных данных, или при выпуске микроданные. Целью SDC является защита конфиденциальности респондентов и субъектов исследования.[1]

Есть два основных подхода к SDC: основанный на принципах и на основе правил.[2] В системах, основанных на принципах, контроль раскрытия пытается поддерживать определенный набор фундаментальных принципов - например, «ни одно лицо не должно быть идентифицировано в опубликованных микроданных». Системы, основанные на правилах, напротив, подтверждаются особым набором правил, которым следует лицо, осуществляющее контроль за раскрытием информации, после чего данные считаются безопасными для разглашения. Используя эту таксономию, предложенную Ричи и Эллиотом в 2013 году, контроль раскрытия информации на основе дифференциальная конфиденциальность можно рассматривать как подход, основанный на принципах, тогда как средства контроля, основанные на деидентификации, например, в США Медицинское страхование Портативность и Акт об ответственности Метод Safe Harbor Правила конфиденциальности для деидентификации защищенная медицинская информация можно рассматривать как систему, основанную на правилах.

Необходимость

Многие виды Социальное, исследования в области экономики и здравоохранения используют потенциально конфиденциальные данные в качестве основы для своих исследований, таких как опрос или Перепись данные, налоговые записи, медицинские записи, образовательная информация и т. д. Такая информация обычно предоставляется конфиденциально, и в случае административные данные, не всегда с целью исследования.

Исследователей обычно не интересует информация об одном человеке или компании; они ищут тенденции среди больших групп людей.[3] Однако используемые ими данные, в первую очередь, связаны с отдельными людьми и предприятиями, и SDC гарантирует, что их невозможно идентифицировать по опубликованным данным, независимо от того, насколько подробными или широкими.[4]

Не исключено, что в конце анализа данных исследователь каким-то образом выделяет в своем исследовании одного человека или компанию. Например, исследователь может определить исключительно хорошее или плохое обслуживание в гериатрическом отделении больницы в отдаленном районе, где только одна больница предоставляет такую ​​помощь. В этом случае анализ данных «раскрывает» личность больницы, даже если набор данных, используемый для анализа, был правильно анонимный или обезличен.

Статистический контроль за раскрытием информации выявит этот риск раскрытия и обеспечит изменение результатов анализа для защиты конфиденциальности.[5] Это требует баланса между защитой конфиденциальности и обеспечением того, чтобы результаты анализа данных оставались полезными для статистическое исследование.[6]

SDC на основе правил

В SDC, основанном на правилах, используется жесткий набор правил, чтобы определить, могут ли быть опубликованы результаты анализа данных. Правила применяются последовательно, что делает очевидным, какие виды вывода приемлемы. Однако, поскольку правила негибкие, либо раскрывающая информация может все еще ускользнуть, либо правила являются чрезмерно ограничительными и могут допускать только результаты, которые слишком широки для публикации полезного анализа.[2]

В Агентство статистики и исследований Северной Ирландии использует основанный на правилах подход к публикации статистики и результатов исследований.[7]

SDC, основанный на принципах

В SDC, основанном на принципах, в SDC обучаются как исследователь, так и проверяющий результат. Они получают набор правил, которые представляют собой практические правила, а не жесткие правила, как в SDC на основе правил. Это означает, что в принципе любой результат может быть одобрен или отклонен. Эмпирические правила являются отправной точкой для исследователя и с самого начала объясняют, какие результаты будут считаться безопасными и неразглашаемыми, а какие - небезопасными. Исследователь должен доказать, что любые «небезопасные» результаты не раскрывают информацию, но последнее слово остается за проверяющим. Поскольку жестких правил нет, это требует специальных знаний о рисках раскрытия информации как от исследователя, так и от проверяющего. Это в первую очередь побуждает исследователя получать безопасные результаты. Однако это также означает, что результат может быть непоследовательным и неопределенным. Это требует обширного обучения и хорошего понимания статистики и анализа данных.[2]

В Служба данных Великобритании использует принципиальный подход к контролю за раскрытием статистической информации.[8]

Критика

Было показано, что многие современные методы контроля раскрытия статистической информации, такие как обобщение и подавление ячеек, уязвимы для атак гипотетического взломщика данных. Например, Кокс показал в 2009 году, что подавление дополнительных ячеек обычно приводит к «чрезмерно защищенным» решениям из-за необходимости подавлять как основные, так и дополнительные ячейки, и даже в этом случае может привести к компрометации конфиденциальных данных, когда сообщаются точные интервалы.[9]

Смотрите также

Рекомендации

  1. ^ Скиннер, Крис (2009). «Статистический контроль раскрытия данных обследований» (PDF). Справочник по статистике Том 29A: Выборочные обследования: дизайн, методы и приложения. Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  2. ^ а б c Ричи, Феликс и Эллиотт, Марк (2015). «Принципы и контроль раскрытия статистической информации на основе правил в средах удаленного доступа» (PDF). IASSIST Quarterly v39 pp5-13. Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  3. ^ «ADRN» Безопасные результаты ». adrn.ac.uk. Получено 2016-03-08.
  4. ^ «Государственные статистические службы: контроль раскрытия статистической информации». Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  5. ^ Темпл, Матиас; и другие. (2014). «Международная сеть обследований домашних хозяйств» (PDF). Рабочий документ IHSN. Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  6. ^ "Архивировано: Управление статистической информации УНС". Управление национальной статистики. Архивировано из оригинал на 2016-01-05. Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  7. ^ «Перепись 2001 года - Методология» (PDF). Агентство статистики и исследований Северной Ирландии. 2001 г.. Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  8. ^ Афхамай, Реза; и другие. (2013). «Практика контроля за раскрытием статистической информации при безопасном доступе британской службы данных» (PDF). Европейская экономическая комиссия ООН. Проверено март 2016 г.. Проверить значения даты в: | дата доступа = (помощь)
  9. ^ Лоуренс Х. Кокс, Уязвимость дополнительного подавления ячеек к атаке злоумышленника, Журнал конфиденциальности и конфиденциальности (2009) 1, номер 2, стр. 235–251 http://repository.cmu.edu/jpc/vol1/iss2/8/