Экспоненциальный механизм (дифференциальная конфиденциальность) - Exponential mechanism (differential privacy)

В экспоненциальный механизм это техника для проектирования дифференциально частный алгоритмы. Он был разработан Фрэнк МакШерри[1] и Кунал Талвар[2] в 2007 году. Их работа была признана одним из лауреатов премии PET Award 2009 за выдающиеся исследования в области технологий повышения конфиденциальности.[3]

Большинство первоначальных исследований в области дифференциальной конфиденциальности вращалось вокруг функций с действительными значениями, которые имеют относительно низкие значения. чувствительность для изменения данных одного человека, полезности которого не препятствуют небольшие аддитивные возмущения. Возникает естественный вопрос, что происходит в ситуации, когда хочется сохранить более общие наборы свойств. Экспоненциальный механизм помогает расширить понятие дифференциальной конфиденциальности для решения этих проблем. Более того, он описывает класс механизмов, который включает все возможные дифференциально частные механизмы.

Экспоненциальный механизм [4]

Алгоритм

В очень общих чертах механизм конфиденциальности отображает набор входы из домена к диапазону . Карта может быть рандомизирована, и в этом случае каждый элемент домена соответствует распределению вероятностей в диапазоне . Механизм конфиденциальности не делает никаких предположений о природе и помимо базы мера на . Определим функцию . Интуитивно эта функция присваивает баллы паре , куда и . Оценка отражает привлекательность пары , т.е. чем выше оценка, тем привлекательнее пара. Учитывая ввод , цель механизма - вернуть так что функция примерно максимально. Для этого настройте механизм следующее:
Определение: Для любой функции , а базовая мера над , определять:

выбирать с вероятностью, пропорциональной , куда .

Это определение подразумевает тот факт, что вероятность возврата экспоненциально увеличивается с увеличением значения . Игнорирование базовой меры тогда значение что максимизирует имеет наибольшую вероятность. Более того, этот механизм дифференциально частный. Доказательство этого утверждения последует. Следует иметь в виду одну техническую деталь: чтобы правильно определить то должно быть конечно.

Теорема (дифференциальная конфиденциальность): дает -дифференциальная конфиденциальность.

Доказательство: плотность вероятности в равно

Теперь, если одно изменение в изменения самое большее то числитель может измениться не более чем в раз и знаменатель минимум в раз . Таким образом, отношение новой плотности вероятности (т.е. с новой ) и более ранний не более .

Точность

В идеале нам нужны случайные розыгрыши из механизма почти максимизировать . Если мы рассмотрим быть то можно показать, что вероятность отклонения механизма от низка, пока имеется достаточная масса (с точки зрения ) ценностей со значением близка к оптимальной.

Лемма: Позволять и , у нас есть самое большее . Вероятность принимается .

Доказательство: вероятность самое большее , поскольку знаменатель может быть не более одного. Поскольку обе вероятности имеют один и тот же нормализующий член, поэтому

Значение не больше единицы, поэтому из этой оценки следует утверждение леммы.

Теорема (точность): Для этих значений , у нас есть .

Доказательство: из предыдущей леммы следует, что вероятность того, что счет будет не меньше является . По предположению, . Подставляя значение мы получаем эту вероятность как минимум . Умножение на дает желаемую оценку.

Мы можем предположить за быть меньше или равным единице во всех вычислениях, потому что мы всегда можем нормализовать .

Пример применения экспоненциального механизма [5]

Прежде чем мы углубимся в детали примера, давайте определим некоторые термины, которые мы будем широко использовать в ходе нашего обсуждения.

Определение (глобальная чувствительность): Глобальная чувствительность запроса максимальная разница при оценке на двух соседних наборах данных :

Определение: Предикатный запрос для любого предиката определяется как

Обратите внимание, что для любого предиката .

Механизм выпуска

Следующее связано с Аврим Блюм, Катрина Лигетт и Аарон Рот.

Определение (полезность): А механизм[постоянная мертвая ссылка ] является -полезно для запросов в классе с вероятностью , если и каждый набор данных , за , .

Неформально это означает, что с большой вероятностью запрос будет вести себя аналогичным образом в исходном наборе данных и на синтетическом наборе данных .
Рассмотрим распространенную проблему интеллектуального анализа данных. Предположим, есть база данных с записи. Каждая запись состоит из -кортежи вида куда . Теперь пользователь хочет изучить линейное полупространство формы . По сути, пользователь хочет выяснить значения такое, что максимальное количество кортежей в базе данных удовлетворяет неравенству. Алгоритм, который мы описываем ниже, может генерировать синтетическую базу данных что позволит пользователю изучить (приблизительно) то же линейное полупространство при запросе к этой синтетической базе данных. Мотивация для такого алгоритма состоит в том, что новая база данных будет сгенерирована дифференциально конфиденциальным образом и, таким образом, обеспечит конфиденциальность отдельных записей в базе данных. .

В этом разделе мы покажем, что можно освободить набор данных, который полезен для концепций, из полинома. VC-Dimension класс и при этом придерживаться -дифференциальная конфиденциальность до тех пор, пока размер исходного набора данных не менее полиномиален на VC-Dimension концептуального класса. Официально заявить:

Теорема: Для любого класса функций и любой набор данных такой, что

мы можем вывести -полезный набор данных что сохраняет -дифференциальная конфиденциальность. Как мы упоминали ранее, алгоритм не обязательно должен быть эффективным.

Интересен тот факт, что алгоритм, который мы собираемся разработать, генерирует синтетический набор данных, размер которого не зависит от исходного набора данных; на самом деле, это зависит только от VC-измерение концептуального класса и параметра . Алгоритм выводит набор данных размером

Мы заимствуем Теорема о равномерной сходимости из комбинаторика и сформулируйте его следствие, соответствующее нашим потребностям.

Лемма: Учитывая любой набор данных существует набор данных размера такой, что .

Доказательство:

Мы знаем из теоремы о равномерной сходимости, что

где вероятность превышает распределение набора данных. Таким образом, если RHS меньше единицы, то мы точно знаем, что набор данных существуют. Чтобы связать RHS меньше единицы, нам нужно , куда - некоторая положительная константа. Поскольку мы заявили ранее, что мы выведем набор данных размером , поэтому, используя эту границу мы получили . Отсюда лемма.

Теперь мы задействуем экспоненциальный механизм.

Определение: Для любой функции и входной набор данных , экспоненциальный механизм выводит каждый набор данных с вероятностью, пропорциональной .

Из экспоненциального механизма мы знаем, что это сохраняет -дифференциальная конфиденциальность. Вернемся к доказательству теоремы.

Мы определяем .

Чтобы показать, что механизм удовлетворяет -полезность, мы должны показать, что он выводит некоторый набор данных с с вероятностью . Есть не больше наборы выходных данных и вероятность того, что не более чем пропорционально . Таким образом, при объединении вероятность вывода любого такого набора данных не более чем пропорционально . Опять же, мы знаем, что существует некоторый набор данных для которого . Следовательно, такой набор данных выводится с вероятностью, по крайней мере, пропорциональной .

Позволять событие, когда экспоненциальный механизм выводит некоторый набор данных такой, что .

событие, когда экспоненциальный механизм выводит некоторый набор данных такой, что .

Теперь устанавливаем это количество как минимум , мы находим, что достаточно иметь

Итак, мы доказываем теорему.

Экспоненциальный механизм в других областях

В приведенном выше примере использования экспоненциального механизма можно вывести синтетический набор данных дифференциально конфиденциальным образом и использовать набор данных для ответов на запросы с хорошей точностью. Другие частные механизмы, такие как апостериорная выборка,[6] который возвращает параметры, а не наборы данных, можно сделать эквивалентным экспоненциальному.[7]

Помимо настройки конфиденциальности, экспоненциальный механизм также изучался в контексте теория аукционов и алгоритмы классификации.[8] В случае аукционов экспоненциальный механизм помогает достичь правдивый настройка аукциона.

Рекомендации

  1. ^ Фрэнк МакШерри
  2. ^ Кунал Талвар
  3. ^ «Прошлые победители премии PET».
  4. ^ Ф. МакШерри и К. Талвар. Разработка механизмов с помощью дифференциальной конфиденциальности. Материалы 48-го ежегодного симпозиума основ информатики, 2007.
  5. ^ Аврим Блюм, Катрина Лигетт, Аарон Рот. Подход теории обучения к не-итеративной конфиденциальности базы данных // Материалы 40-го ежегодного симпозиума ACM по теории вычислений, 2008 г.
  6. ^ Христос Димитракакис, Блейн Нельсон, Айкатерини Митрокотса, Бенджамин Рубинштейн. Надежный и частный байесовский вывод. Теория алгоритмического обучения 2014
  7. ^ Ю-Сян Ван, Стивен Э. Финберг, Алекс Смола Конфиденциальность бесплатно: апостериорная выборка и стохастический градиент Монте-Карло. Международная конференция по машинному обучению, 2015.
  8. ^ Шива Прасад Касивисванатан, Хомин К. Ли, Кобби Ниссим, Софья Расходникова, Адам Смит. Чему мы можем научиться в частном порядке? Материалы 49-го ежегодного симпозиума IEEE 2008 г. по основам информатики. arXiv: 0803.0924

внешняя ссылка