AI/ML pivota a la barra de errores del ciclo de vida del desarrollo de seguridad

Por Andrew Marshall, Jugal Parikh, Emre Kiciman y Ram Shankar Siva Kumar

Noviembre de 2019

Este documento es una entrega de las prácticas de ingeniería de Microsoft AETHER para el grupo de trabajo de IA y funciona como complemento a la barra de errores de SDL existente que se usa para corregir vulnerabilidades de seguridad tradicionales. Está pensado para usarse como referencia para el triage de los problemas de seguridad relacionados ML IA/AI. Para obtener información más detallada sobre análisis y mitigación de amenazas, consulte Modelado de amenazas AI/ML y dependencias.

Esta guía se organiza en torno a la taxonomía de amenazas de Machine Learning adversarial creada por Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen y Jeffrey Snover titulado Modos de fracaso en Machine Learning. Tenga en cuenta que, aunque la investigación de este contenido se basa en las direcciones de comportamientos intencionados,malintencionados y accidentales en los modos de error de ML, este complemento de barra de errores se centra por completo en comportamientos intencionados o malintencionados que darían como resultado un incidente de seguridad o la implementación de una corrección.

Amenaza Gravedad Descripción/Riesgos empresariales/Ejemplos
Intoxicación de datos Importante para crítico

Dañar los datos de aprendizaje: el objetivo final del atacante es contaminar el modelo de máquina generado en la fase de aprendizaje, de modo que las predicciones sobre nuevos datos se modifiquen en la fase de prueba.

En ataques de intoxicación dirigidos, el atacante quiere clasificar de forma errónea ejemplos específicos para hacer que se toquen u omitan acciones específicas.

Enviar software AV como malware para forzar su clasificación errónea como malintencionada y eliminar el uso de software AV dirigido en sistemas cliente.

Una empresa rasca un sitio web conocido y de confianza para los datos futuros para entrenar sus modelos. El sitio web del proveedor de datos se ve posteriormente en peligro SQL ataque de inyección. El atacante puede contaminar el conjunto de datos a su voluntad y el modelo que está entrenado no tiene idea de que los datos están manchados.

Robo de modelos Importante para crítico

Recreación del modelo subyacente al consultarlo legítimamente. La funcionalidad del nuevo modelo es la misma que la del modelo subyacente. Una vez que se vuelve a crear el modelo, se puede invertir para recuperar información de características o hacer inferencias en los datos de aprendizaje.

Resolución de ecuaciones: para un modelo que devuelve probabilidades de clase a través del resultado de la API, un atacante puede crear consultas para determinar variables desconocidas en un modelo.

Búsqueda de rutas: un ataque que aprovecha las particularidades de la API para extraer las "decisiones" tomadas por un árbol al clasificar una entrada.

Ataque de transferibilidad: un adversario puede entrenar un modelo local,posiblemente emitiendo consultas de predicción al modelo dirigido, y usarlo para crear ejemplos de conflicto que se transfieren al modelo de destino. Si el modelo se extrae y se detecta vulnerable a un tipo de entrada adversaria, el atacante que extrajo una copia del modelo podrá desarrollar sin conexión nuevos ataques contra el modelo implementado en producción.

En la configuración en la que un modelo ML sirve para detectar comportamientos contradictorias, como la identificación de correo no deseado, la clasificación de malware y la detección de anomalías de red, la extracción de modelos puede facilitar los ataques de evasión

Inversión del modelo Importante para crítico

Se pueden recuperar las características privadas que se usan en los modelos de aprendizaje automático. Esto incluye la reconstrucción de datos de aprendizaje privados a los que el atacante no tiene acceso. Esto se logra al encontrar la entrada que maximiza el nivel de confianza devuelto, sujeto a que la clasificación coincida con el objetivo.

Ejemplo: Reconstrucción de datos de reconocimiento facial a partir de nombres adivinados o conocidos y acceso a la API para consultar el modelo.

Ejemplo de conflicto en dominio físico Crítico Estos ejemplos se pueden manifiesto en el dominio físico, como si un coche autoconducido se le engañara al ejecutar un signo de detenerse debido a que un color de luz determinado (la entrada adversaria) se brilló en el signo de detenerse, lo que obligó al sistema de reconocimiento de imágenes a dejar de ver el signo de detenerse como un signo de detenerse.
Ataque ML cadena de suministro Crítico

Debido a los grandes recursos (datos + cálculo) necesarios para entrenar algoritmos, la práctica actual es reutilizar modelos entrenados por grandes empresas y modificarlos ligeramente para las tareas a mano (por ejemplo: ResNet es un modelo de reconocimiento de imagen popular de Microsoft).

Estos modelos se curan en un zoo modelo (Caffe hospeda modelos de reconocimiento de imágenes populares).

En este ataque, el adversario ataca los modelos hospedados en la Caffe, con lo que se intoxica el pozo para cualquier otra persona.

Algoritmo backdoored del proveedor de ML malintencionado Crítico

Comprometer el algoritmo subyacente

Un proveedor ML de aprendizaje como servicio presenta un algoritmo puerta trasera, en el que se recuperan los datos de aprendizaje privados. Esto proporciona al atacante la capacidad de reconstruir datos confidenciales, como rostros y textos, dado solo el modelo.

Reprogramación de red neuronal Importante para crítico

Mediante una consulta especialmente diseñada de un atacante, los sistemas ML se pueden reprogramar a una tarea que se desvía de la intención original del creador

Controles de acceso débiles en una API de reconocimiento facial que permite a terceros incorporarse a aplicaciones diseñadas para dañar a los usuarios, como un generador de falsos profundos.

Este es un escenario de abuso o de quita de cuenta

Perturbación adversarial Importante para crítico

En los ataques de estilo de perturbación, el atacante modifica la consulta de forma furtiva para obtener la respuesta deseada de un modelo implementado en producción. Se trata de un incumplimiento de la integridad de entrada del modelo que lleva a ataques de estilo difuso en los que el resultado final no es necesariamente una infracción de acceso o EOP, sino que compromete el rendimiento de clasificación del modelo.

Esto puede ser manifiesto por los trols que usan determinadas palabras de destino de manera que la IA las prohíba, lo que deniega el servicio a usuarios legítimos con un nombre que coincida con una palabra "prohibida".

Forzar que los correos electrónicos benignos se clasifiquen como correo no deseado o que un ejemplo malintencionado no se detecte. También se conocen como ataques de imitación o evasión de modelos.

El atacante puede crear entradas para reducir el nivel de confianza de la clasificación correcta, especialmente en escenarios de consecuencias altas. Esto también puede tomar la forma de un gran número de falsos positivos destinados a sobrecargar a los administradores o sistemas de supervisión con alertas fraudulentas indistinguibles de alertas legítimas.

Inferencia de pertenencia Moderado a crítico

Infer individual membership in a group used to train a model

Por ejemplo: predicción de procedimientos quirúrgicos basados en edad/sexo/hospital