Сводки по решениям ИИ и машинного обучения: дополнение к шкале ошибок жизненного цикла разработки решений для обеспечения безопасностиAI/ML Pivots to the Security Development Lifecycle Bug Bar

Авторы: Эндрю Маршалл (Andrew Marshall), Джугал Парикх (Jugal Parikh), Емре Кисиман (Emre Kiciman) и Рам Шанкар Шива Кумар (Ram Shankar Siva Kumar)By Andrew Marshall, Jugal Parikh, Emre Kiciman and Ram Shankar Siva Kumar

Ноябрь 2019 г.November 2019

Этот документ получен в результате применения инженерных методик, разработанных консультативным советом AETHER Майкрософт для рабочей группы по технологиям ИИ. Он играет роль дополнения к существующей шкале ошибок жизненного цикла разработки решений для обеспечения безопасности, используемой для рассмотрения традиционных уязвимостей системы безопасности.This document is a deliverable of the Microsoft AETHER Engineering Practices for AI Working Group and functions as a supplement to the existing SDL bug bar used to triage traditional security vulnerabilities. Документ предлагается использовать в качестве справочного пособия при рассмотрении проблем безопасности, связанных с ИИ и машинным обучением.It is intended to be used as a reference for the triage of AI/ML-related security issues. Более подробные сведения об анализе угроз и их устранении см. в статье Моделирование угроз для решений ИИ и машинного обучения: системы и зависимости.For more detailed threat analysis and mitigation information, refer to Threat Modeling AI/ML Systems and Dependencies.

В этом руководстве широко используется таксономия угроз состязательного машинного обучения под названием Режимы сбоев в машинном обучении, разработанная Рамом Шанкаром Шивой Кумаром (Ram Shankar Siva Kumar), Дэвидом О’Брайеном (David O’Brien), Кендрой Альберт (Kendra Albert), Саломе Фильюн (Salome Viljoen) и Джеффри Сновером (Jeffrey Snover).This guidance is organized around and extensively references the Adversarial Machine Learning Threat Taxonomy created by Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen, and Jeffrey Snover entitled Failure Modes in Machine Learning. Обратите внимание: в исследовании, на основе которого создан этот документ, анализируются не только намеренные либо вредоносные действия, но и случайные вмешательства, вызывающие сбои машинного обучения, однако в настоящем дополнении к шкале ошибок рассматриваются только намеренные или вредоносные действия, способные привести к инциденту безопасности и/или развертыванию исправления.Note that while the research this content is based on addresses both intentional/malicious and accidental behaviors in ML failure modes, this bug bar supplement focuses entirely on intentional/malicious behaviors that would result in a security incident and/or deployment of a fix.

ThreatThreat SeveritySeverity Описание, риски для бизнеса и примерыDescription/Business Risks/Examples
Подделка данныхData Poisoning От важного до критическогоImportant to Critical

Повреждение обучающих данных. Конечная цель злоумышленника — испортить машинную модель, созданную на этапе обучения, чтобы на этапе тестирования изменились прогнозы, основанные на новых данных.Corrupting the training data - The end goal of the attacker is to contaminate the machine model generated in the training phase, so that predictions on new data will be modified in the testing phase.

При целевых "отравляющих" атаках злоумышленник стремится изменить классификационную принадлежность определенных примеров, чтобы заставить систему выполнять или пропускать определенные действия.In targeted poisoning attacks, the attacker wants to misclassify specific examples to cause specific actions to be taken or omitted.

Антивирусное программное обеспечение преподносится как вредоносное, что позволяет включить его в категорию вредоносного ПО и запретить его использование в клиентских системах. Submitting AV software as malware to force its misclassification as malicious and eliminate the use of targeted AV software on client systems. 

Компания привлекает хорошо известный и надежный веб-сайт с фьючерсными данными для обучения своих моделей.A company scrapes a well-known and trusted website for futures data to train their models. После этого веб-сайт поставщика данных подвергается атаке путем внедрения кода SQL.The data provider’s website is subsequently compromised via SQL Injection attack. Злоумышленник может исказить набор данных в соответствии со своими целями, но обучаемая модель не будет знать о том, что данные подделаны.The attacker can poison the dataset at will and the model being trained has no notion that the data is tainted.

Захват моделиModel Stealing От важного до критическогоImportant to Critical

Воссоздание базовой модели с помощью подлинного запроса.Recreation of the underlying model by legitimately querying it. Новая модель по своим функциональным возможностям аналогична базовой модели.The functionality of the new model is same as that of the underlying model. По воссозданной модели путем инверсии можно восстановить сведения о функциях или получить представление об обучающих данных. Once the model is recreated, it can be inverted to recover feature information or make inferences on training data. 

Решение уравнения. Злоумышленник может создать запросы, позволяющие определить неизвестные переменные в модели, возвращающей вероятности класса через выходные данные API.Equation solving – For a model that returns class probabilities via API output, an attacker can craft queries to determine unknown variables in a model.

Нахождение пути. Эта атака использует особенности API для извлечения "решений", принятых деревом при классификации входных данных.Path Finding – an attack that exploits API particularities to extract the ‘decisions’ taken by a tree when classifying an input.

Атака с переносом. Злоумышленник может обучить локальную модель (например, отправляя прогнозирующие запросы к целевой модели) и использовать ее для создания состязательных примеров, которые передаются в целевую модель.Transferability attack - An adversary can train a local model—possibly by issuing prediction queries to the targeted model - and use it to craft adversarial examples that transfer to the target model. Получив копию вашей модели и обнаружив ее уязвимость к определенному типу входных состязательных данных, злоумышленник может в автономном режиме разрабатывать новые атаки на модель, развернутую в вашей рабочей среде.If your model is extracted and discovered vulnerable to a type of adversarial input, new attacks against your production-deployed model can be developed entirely offline by the attacker who extracted a copy of your model.

В системах, где модель машинного обучения служит для обнаружения вредоносного поведения, например для идентификации спама, классификации вредоносных программ и обнаружения аномалий в сети, извлечение моделей может облегчить атаки с обходом.In settings where an ML model serves to detect adversarial behavior, such as identification of spam, malware classification, and network anomaly detection, model extraction can facilitate evasion attacks

Инверсия моделиModel Inversion От важного до критическогоImportant to Critical

Секретные механизмы используемые в моделях машинного обучения, можно восстановить.The private features used in machine learning models can be recovered. К этим методам относится, в частности, реконструкция закрытых обучающих данных, к которым у злоумышленника нет доступа.This includes reconstructing private training data that the attacker does not have access to. Атака осуществляется путем поиска входных данных, максимально увеличивающих возвращаемый доверительный уровень, с учетом классификации, соответствующей целевой модели.This is accomplished by finding the input which maximizes the confidence level returned, subject to the classification matching the target.

Пример Реконструкция данных распознавания лиц, связанных с предполагаемыми или известными именами, при наличии доступа к API для отправки запроса к модели.Example: Reconstruction of facial recognition data from guessed or known names and API access to query the model.

Состязательный пример в материальном миреAdversarial Example in Physical Domain CriticalCritical Состязательные примеры способны воздействовать на материальный мир. Например, они могут заставить беспилотный автомобиль проехать на стоп-сигнал светофора, потому что на нем загорелся цвет (состязательные входные данные), который система распознавания изображений больше не воспринимает как знак обязательной остановки.  These examples can manifest in the physical domain, like a self-driving car being tricked into running a stop sign because of a certain color of light (the adversarial input) being shone on the stop sign, forcing the image recognition system to no longer see the stop sign as a stop sign.  
Атака на цепочку поставок машинного обученияAttack ML Supply Chain CriticalCritical

Для обучения алгоритмов требуется много ресурсов (данных и вычислений), поэтому сейчас популярно использование моделей, обученных крупными корпорациями, которые адаптируются для требуемых задач (например, ResNet — это популярная модель распознавания изображений от Майкрософт).Owing to large resources (data + computation) required to train algorithms, the current practice is to reuse models trained by large corporations and modify them slightly for task at hand (e.g: ResNet is a popular image recognition model from Microsoft).

Эти модели размещаются в галерее Model Zoo (на платформе Caffe можно найти популярные модели распознавания изображений).These models are curated in a Model Zoo (Caffe hosts popular image recognition models).

Атака нацелена на модели, размещенные в Caffe, в результате пользователи платформы имеют все шансы получить искаженную модель.In this attack, the adversary attacks the models hosted in Caffe, thereby poisoning the well for anyone else.

Алгоритм-лазутчик от злонамеренного поставщика машинного обученияBackdoored Algorithm from Malicious ML Provider CriticalCritical

Компрометация базового алгоритмаCompromising the underlying algorithm

Злонамеренный поставщик машинного обучения как услуги задействует алгоритм-лазутчик, позволяющий реконструировать закрытые обучающие данные.A malicious ML-as-a-Service provider presents a backdoored algorithm, wherein the private training data is recovered. Благодаря этому злоумышленник может воссоздать конфиденциальные данные, такие как лица и тексты, используя только модель. This provides the attacker with the ability to reconstruct sensitive data such as faces and texts, given only the model.

Перепрограммирование нейронной сетиNeural Net Reprogramming От важного до критическогоImportant to Critical

С помощью специально созданного запроса злоумышленник может перепрограммировать системы машинного обучения на выполнение задач, не предусмотренных их создателями.By means of a specially crafted query from an attacker, ML systems can be reprogrammed to a task that deviates from the creator’s original intent

Неэффективные элементы управления доступом в API распознавания лиц, позволяющие сторонним лицам встраивать приложения, предназначенные для причинения вреда пользователям, например, генератор наложенных изображений (дипфейков).Weak access controls on a facial recognition API enabling 3rd parties to incorporate into apps designed to harm users, such as a deep fakes generator.

Такой сценарий призван оскорбить или унизить человека.This is an abuse/account takedown scenario

Состязательное искажениеAdversarial Perturbation От важного до критическогоImportant to Critical

При искажающих атаках злоумышленник незаметно изменяет запрос, чтобы получить нужный ответ от модели, развернутой в рабочей среде.In perturbation-style attacks, the attacker stealthily modifies the query to get a desired response from a production-deployed model. Это нарушает целостность входных данных модели, что приводит к атакам методом фаззинга, которые не обязательно нацелены на нарушение прав доступа или завершение работы программы. Вместо этого они нарушают способность модели к классификации.This is a breach of model input integrity which leads to fuzzing-style attacks where the end result isn’t necessarily an access violation or EOP, but instead compromises the model’s classification performance.

Это могут быть интернет-тролли, применяющие определенные слова таким образом, чтобы ИИ запрещал их использование. Такой прием позволяет эффективно отказывать в обслуживании законному пользователю, имя которого совпадает с запрещенным словом.This can be manifested by trolls using certain target words in a way that the AI will ban them, effectively denying service to legitimate users with a name matching a “banned” word.

Принудительная классификация полезных сообщений как спама или предотвращение обнаружения состязательного примера.Forcing benign emails to be classified as spam or causing a malicious example to go undetected. Эта уловка также известна как обход модели или подражательные атаки.These are also known as model evasion or mimicry attacks.

Злоумышленник может создать входные данные, позволяющие уменьшить доверительный уровень правильной классификации, особенно в сценариях, влекущих серьезные последствия.Attacker can craft inputs to reduce the confidence level of correct classification, especially in high-consequence scenarios. Атака также может осуществляться в виде потока ложных срабатываний, призванных перегрузить администраторов или системы мониторинга сфальсифицированными оповещениями, которые невозможно отличить от истинных.This can also take the form of a large number of false positives meant to overwhelm administrators or monitoring systems with fraudulent alerts indistinguishable from legitimate alerts.

Определение членстваMembership Inference От умеренного до критическогоModerate to Critical

Позволяет сделать заключение о принадлежности конкретного элемента к группе, используемой для обучения моделиInfer individual membership in a group used to train a model

Пример: прогнозирование хирургических операций на основе данных о возрасте, поле и больницеEx: prediction of surgical procedures based on age/gender/hospital