Что такое разностное конфиденциальность в машинном обучении (Предварительная версия)?

Сведения о разностной конфиденциальности в машинном обучении и принципах ее работы.

В связи с увеличением объема данных, которые организация собирает и использует для анализа, возникает вопрос конфиденциальности и безопасности. Для анализа необходимо иметь данные. Как правило, чем больше данных используется для обучения моделей машинного обучения, тем точнее они. Если для этих анализов используются персональные данные, то важно, чтобы они оставались частными при использовании.

Сведения о работе дифференциальной конфиденциальности

Дифференциальная конфиденциальность — это набор систем и рекомендаций, которые помогают обеспечить безопасность и конфиденциальность данных частных лиц. В решениях машинного обучения для обеспечения соответствия нормативным требованиям может потребоваться разностная конфиденциальность.

Процесс машинного обучения для обеспечения конфиденциальности

В традиционных сценариях необработанные данные хранятся в файлах и базах данных. При анализе данных пользователи обычно используют необработанные данные. Это является проблемой из-за возможного нарушения конфиденциальности личности. Благодаря дифференциальной конфиденциальности можно решить эту проблему, добавив в данные "шум" или случайность, чтобы пользователи не могли определить отдельные точки данных. Как минимум, такая система дает основания для возражений. Таким образом, сохраняется конфиденциальность отдельных пользователей без излишнего влияния на точность данных.

В системах с дифференциальной конфиденциальностью данные совместно используются запросами. Когда пользователь отправляет запрос данных, операции, известные как механизмы обеспечения конфиденциальности, добавляют шум в запрашиваемые данные. Механизмы обеспечения конфиденциальности возвращают приблизительное число данных вместо необработанных данных. Этот конфиденциальный результат отображается в отчете. Отчеты состоят из двух частей: вычисленные фактические данные и описание того, как эти данные создавались.

Метрики дифференциальной конфиденциальности

Дифференциальная конфиденциальность защищает от возможности того, что пользователь может создать неопределенное количество отчетов, что в конечном счете может раскрыть конфиденциальные данные. Значение Эпсилон измеряет степень шума или закрытый отчет. Epsilon имеет обратное отношение к шумам или конфиденциальности. Чем ниже значение epsilon, тем больше в данных шума (и конфиденциальность).

Значения epsilon положительны. Значения меньше 1 дают полное основание для возражений. Все, что поступает со значением больше 1, имеет повышенный риск раскрытия фактических данных. При реализации решений машинного обучения с использованием разностной конфиденциальности необходимо получить данные с значениями Эпсилон от 0 до 1.

Другое значение, которое напрямую зависит от epsilon, — delta. Delta — это степень вероятности, что отчет не является полностью частным. Чем выше значение delta, тем выше epsilon. Так как эти значения связаны, epsilon используется чаще.

Ограничение запросов с использованием бюджета конфиденциальности

Для обеспечения конфиденциальности в системах, в которых разрешено использование нескольких запросов, дифференциальная конфиденциальность определяет ограничение скорости. Это ограничение называется бюджетом конфиденциальности. Бюджеты конфиденциальности не позволяют восстановить полные данные с помощью нескольких запросов. Для бюджетов конфиденциальности устанавливается значение epsilon (обычно от 1 до 3), чтобы ограничить риск повторной идентификации. По мере создания отчетов в бюджетах конфиденциальности отслеживается значение epsilon отдельных отчетов, а также статистическое выражение всех отчетов. После исчерпания бюджета конфиденциальности пользователи больше не смогут получить доступ к данным.

Надежность данных

Хотя сохранение конфиденциальности должно быть целью, если речь идет об удобстве использования и надежности данных, существует компромисс. В аналитике данных правильность может рассматриваться как мера неопределенности, представленная ошибками выборки. Эта неопределенность обычно имеет определенные границы. Правильность с точки зрения дифференциальной конфиденциальности вместо этого измеряет надежность данных, на которую влияет неопределенность, представленная механизмами конфиденциальности. Если коротко, более высокий уровень шума или конфиденциальности преобразует данные с меньшим значением epsilon, правильности и надежности.

Библиотеки дифференциальной конфиденциальности с открытым кодом

Смартноисе — это проект с открытым исходным кодом, который содержит компоненты для создания решений машинного обучения с использованием разностной конфиденциальности. SmartNoise на высшем уровне состоит из следующих компонентов:

  • библиотека ядра SmartNoise;
  • библиотека SDK для SmartNoise.

Ядро SmartNoise

Основная библиотека включает следующие механизмы обеспечения конфиденциальности для реализации системы с дифференциальной конфиденциальностью:

Компонент Описание
Анализ Описание графа произвольных вычислений.
Проверяющий элемент управления Библиотека Rust, которая содержит набор средств для проверки и наследования необходимых условий для выполнения анализа с дифференциальной конфиденциальностью.
Параметры выполнения Носитель для выполнения анализа. Эталонная среда выполнения написана на языке Rust, но среды выполнения могут быть написаны с помощью любой вычислительной платформы, такой как SQL и Spark в зависимости от потребностей.
Привязки Языковые привязки и вспомогательные библиотеки для построения анализа. В настоящее время SmartNoise предоставляет привязки Python.

Пакет SDK для SmartNoise

Системная библиотека предоставляет следующие средства и службы для работы с табличными и реляционными данными:

Компонент Описание
Доступ к данным Библиотека, которая перехватывает и обрабатывает запросы SQL, а затем создает отчеты. Эта библиотека реализована в Python и поддерживает следующие источники данных ODBC и DBAPI:
  • PostgreSQL
  • SQL Server
  • Spark
  • Preston.
  • Pandas.
Служба Служба выполнения, которая предоставляет конечную точку REST для обслуживания запросов к общим источникам данных. Служба разработана таким образом, чтобы обеспечить композицию разностных модулей конфиденциальности, которые работают с запросами, содержащими разные значения delta и epsilon, также известными как разнородные запросы. Эта эталонная реализация учитывает дополнительное влияние запросов на коррелированные данные.
Средство оценки Стохастическое средство оценки, которое проверяет нарушения конфиденциальности, правильности и смещения. Средство оценки поддерживает следующие проверки:
  • Проверка конфиденциальности — определяет, соответствует ли отчет условиям разностной конфиденциальности.
  • Тест на точность — измеряет, находится ли уровень надежности отчетов выше или ниже границ, заданных уровнем достоверности в 95 %.
  • Проверка служебной программы — определяет, достаточно ли близко к данным находятся доверительные границы отчета, сохраняя при этом максимальную конфиденциальность.
  • Проверка смещения — измеряет распределение отчетов для повторяющихся запросов, чтобы убедиться, что они сбалансированы.

Дальнейшие действия

Дополнительные сведения о разностной конфиденциальности в машинном обучении: