Modelado de amenazas AI/ML y dependencias

Por Andrew Marshall, Jugal Parikh, Emre Kiciman y Ram Shankar Siva Kumar

Agradecimiento especial a Raúl Rojas y a AETHER Security Engineering Workstream

Noviembre de 2019

Este documento es una entrega del grupo de trabajo AETHER Engineering Practices for AI y complementa las prácticas de modelado de amenazas sdl existentes proporcionando nuevas instrucciones sobre enumeración y mitigación de amenazas específicas para la inteligencia artificial y Machine Learning espacio. Está pensado para usarse como referencia durante las revisiones de diseño de seguridad de lo siguiente:

  1. Productos o servicios que interactúan con o que toman dependencias de servicios basados en IA/ML basados en inteligencia artificial

  2. Productos o servicios que se están construyendo con IA/ML en su núcleo

La mitigación de amenazas de seguridad tradicional es más importante que nunca. Los requisitos establecidos por el ciclo de vida de desarrollo de seguridad son esenciales para establecer una base de seguridad del producto sobre la que se basa esta guía. Si no se abordan las amenazas de seguridad tradicionales, se habilitan los ataques específicos de AI/ML que se tratan en este documento tanto en el software como en los dominios físicos, así como en la reducción del riesgo en la pila de software. Para obtener una introducción a las nuevas amenazas de seguridad en este espacio, vea Proteger el futuro de la IA y ML en Microsoft.

Los conjuntos de aptitudes de los ingenieros de seguridad y los científicos de datos normalmente no se superponen. Esta guía proporciona una forma para que ambas disciplinas tengan conversaciones estructuradas sobre estas nuevas amenazas o mitigaciones netas sin necesidad de que los ingenieros de seguridad se conviertan en científicos de datos o viceversa.

Este documento se divide en dos secciones:

  1. "Nuevas consideraciones clave en el modelado de amenazas" se centra en las nuevas formas de pensar y en las nuevas preguntas que puede hacer al modelar amenazas AI/ML sistemas. Tanto los científicos de datos como los ingenieros de seguridad deben revisar esto, ya que será su libro de juegos para las discusiones de modelado de amenazas y la priorización de la mitigación.
  2. "Amenazas específicas de AI/ML y sus mitigaciones" proporciona detalles sobre ataques específicos, así como pasos específicos de mitigación en uso hoy para proteger los productos y servicios de Microsoft contra estas amenazas. Esta sección está dirigida principalmente a científicos de datos que pueden necesitar implementar mitigaciones de amenazas específicas como resultado del proceso de modelado de amenazas y revisión de seguridad.

Esta guía se organiza en torno a una taxonomía de amenazas de Machine Learning adversarial creada por Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen y Jeffrey Snover titulado "Modos de erroren Machine Learning". Para obtener instrucciones de administración de incidentes sobre el triaging de amenazas de seguridad que se detallan en este documento, consulte la Barra de errores de SDL para AI/ML Amenazas. Todos estos son documentos vivos que evolucionarán a lo largo del tiempo con el paisaje de amenazas.

Nuevas consideraciones clave en el modelado de amenazas: Cambiar la forma de ver los límites de confianza

Asuma el riesgo o la intoxicación de los datos de los que entrena, así como del proveedor de datos. Aprenda a detectar entradas de datos anómalas y malintencionadas, así como a distinguirlas y recuperarlas de ellas.

Resumen

Los almacenes de datos de aprendizaje y los sistemas que los hospedan forman parte del ámbito de modelado de amenazas. La mayor amenaza a la seguridad en el aprendizaje automático hoy en día es la intoxicación de datos debido a la falta de detecciones y mitigaciones estándar en este espacio, combinada con la dependencia de conjuntos de datos públicos no confiables o no rescatados como orígenes de datos de aprendizaje. El seguimiento de la procedencia y el linaje de los datos es esencial para garantizar su fiabilidad y evitar un ciclo de aprendizaje de "basura, basura".

Preguntas que debe hacer en una revisión de seguridad

  • Si los datos están intoxicados o manipulados, ¿cómo lo sabrá?

    -¿Qué telemetría tiene que detectar un sesgo en la calidad de los datos de aprendizaje?

  • ¿Está entrenando a partir de entradas proporcionadas por el usuario?

    -¿Qué tipo de validación/sanitización de entrada está haciendo en ese contenido?

    -¿La estructura de estos datos documentada es similar a Hojas de datos para conjuntos de datos?

  • Si se entrena con los almacenes de datos en línea, ¿qué pasos debe seguir para garantizar la seguridad de la conexión entre el modelo y los datos?

    -¿Tienen una forma de informar de los compromisos para los consumidores de sus fuentes?

    -¿Son incluso capaces de hacerlo?

  • ¿Qué tan confidenciales son los datos de los que entrena?

    -¿Lo cataloga o controla la adición/actualización/eliminación de entradas de datos?

  • ¿Puede el modelo generar datos confidenciales?

    -¿Se obtuvieron estos datos con permiso del origen?

  • ¿El modelo solo genera resultados necesarios para lograr su objetivo?

  • ¿El modelo devuelve puntuaciones de confianza sin procesar o cualquier otro resultado directo que se pueda grabar y duplicar?

  • ¿Cuál es el impacto de los datos de aprendizaje que se recuperan si se ataca o invierte el modelo?

  • Si los niveles de confianza de los resultados del modelo se bajan repentinamente, ¿puede averiguar cómo/por qué, así como los datos que lo causaron?

  • ¿Ha definido una entrada bien formada para el modelo? ¿Qué está haciendo para asegurarse de que las entradas cumplen este formato y qué hace si no lo hacen?

  • Si los resultados son incorrectos pero no provocan errores, ¿cómo lo sabrá?

  • ¿Sabe si los algoritmos de aprendizaje son resistentes a las entradas adversas a nivel matemático?

  • ¿Cómo se recupera de la contaminación adversaria de los datos de aprendizaje?

    -¿Puede aislar o poner en cuarentena el contenido de los conflictos y volver a entrenar modelos afectados?

    -¿Puede revertir o recuperar a un modelo de una versión anterior para volver a entrenar?

  • ¿Usa la función Learning en contenido público no resacurado?

  • Empiece a pensar en el linaje de los datos: si encontrara un problema, ¿podría realizar un seguimiento de su introducción al conjunto de datos? Si no es así, ¿es un problema?

  • Saber de dónde proceden los datos de aprendizaje e identificar las normas estadísticas para empezar a comprender el aspecto de las anomalías

    -¿Qué elementos de los datos de aprendizaje son vulnerables a la influencia externa?

    -Quién puede contribuir a los conjuntos de datos de los que está entrenando?

    -¿Cómo se atacan las fuentes de datos de aprendizaje para dañar a un competidor?

  • Perturbación adversarial (todas las variantes)

  • Intoxicación de datos (todas las variantes)

Ataques de ejemplo

  • Forzar que los correos electrónicos benignos se clasifiquen como correo no deseado o que un ejemplo malintencionado no se detecte

  • Entradas creadas por atacantes que reducen el nivel de confianza de la clasificación correcta, especialmente en escenarios de consecuencias altas

  • El atacante inserta ruido de forma aleatoria en los datos de origen que se clasifican para reducir la probabilidad de que se utilice la clasificación correcta en el futuro, lo que hace que el modelo se agite de forma eficaz

  • La contaminación de los datos de aprendizaje para forzar la clasificación errónea de puntos de datos selectos, lo que provoca que un sistema haga o omita acciones específicas

Identificar las acciones que los modelos o productos o servicios podrían realizar y que pueden causar daños al cliente en línea o en el dominio físico

Resumen

A la izquierda, los ataques a IA/ML pueden llegar al mundo físico. Cualquier escenario que se pueda convertir en daño físico o psíquico a los usuarios es un riesgo catastrófico para su producto o servicio. Esto se extiende a los datos confidenciales sobre los clientes que se usan para las opciones de aprendizaje y diseño que pueden filtrar esos puntos de datos privados.

Preguntas que debe hacer en una revisión de seguridad

  • ¿Se entrena con ejemplos contradictorias? ¿Qué impacto tienen en el resultado del modelo en el dominio físico?

  • ¿Qué aspecto tiene el troling para su producto o servicio? ¿Cómo puede detectarlo y responder a él?

  • ¿Qué se necesita para conseguir que el modelo devuelva un resultado que inste al servicio a denegar el acceso a usuarios legítimos?

  • ¿Cuál es el impacto de la copia o robo del modelo?

  • ¿Se puede usar el modelo para deducir la pertenencia a una persona individual de un grupo determinado o simplemente en los datos de aprendizaje?

  • ¿Puede un atacante causar daños reputacionales o retrocesos de relaciones públicas a su producto forzándolo a llevar a cabo acciones específicas?

  • ¿Cómo se manejan los datos con formato correcto pero con un sesgo general, como los de los trols?

  • Para cada forma de interactuar o consultar el modelo, ¿se puede interrogar a ese método para revelar datos de aprendizaje o funcionalidad del modelo?

  • Inferencia de pertenencia

  • Inversión del modelo

  • Robo de modelos

Ataques de ejemplo

  • Reconstrucción y extracción de datos de aprendizaje consultando repetidamente el modelo para obtener los máximos resultados de confianza

  • Duplicación del propio modelo mediante la coincidencia exhaustiva de consultas y respuestas

  • Consultar el modelo de forma que se revele un elemento específico de datos privados se incluyó en el conjunto de aprendizaje

  • Autoconducido al que se le hace un truco para ignorar las señales de detenerse o los semáforos

  • Bots conversacionales manipulados para troles a usuarios benignos

Identificar todos los orígenes de dependencias de IA/ML así como las capas de presentación front-end en la cadena de suministro de datos o modelos

Resumen

Muchos ataques en IA y Machine Learning comienzan con el acceso legítimo a las API que se muestra para proporcionar acceso de consulta a un modelo. Debido a las fuentes enriquecciones de datos y a las experiencias de usuario enriquecciones que implican aquí, el acceso autenticado pero "inadecuado" (hay un área gris aquí) el acceso 3rd-partya sus modelos es un riesgo debido a la capacidad de actuar como una capa de presentación encima de un servicio proporcionado por Microsoft.

Preguntas que debe hacer en una revisión de seguridad

  • ¿Qué clientes o partners se autentican para obtener acceso a sus API de modelo o servicio?

    -¿Pueden actuar como una capa de presentación encima del servicio?

    -¿Puede revocar su acceso rápidamente en caso de peligro?

    -¿Cuál es su estrategia de recuperación en caso de uso malintencionado de su servicio o dependencias?

  • ¿Puede un grupo 3rd crear una fachada alrededor de su modelo para volver a propósito y dañar a Microsoft o a sus clientes?

  • ¿Los clientes le proporcionan datos de aprendizaje directamente?

    -¿Cómo se protegen los datos?

    -¿Qué sucede si es malintencionado y el servicio es el objetivo?

  • ¿Qué aspecto tiene un falso positivo aquí? ¿Cuál es el impacto de un falso negativo?

  • ¿Puede realizar un seguimiento y medir la desviación de las tasas verdadero positivo frente a falso positivo en varios modelos?

  • ¿Qué tipo de telemetría necesita para demostrar la fiabilidad de los resultados del modelo a sus clientes?

  • Identifique todas las dependencias de terceros3 rd en su cadena de suministro de datos ML/Aprendizaje, no solo el software de código abierto, sino también los proveedores de datos.

    -¿Por qué los usa y cómo comprueba su fiabilidad?

  • ¿Usa modelos predefinidos de partes 3rd o envía datos de aprendizaje a proveedores MLaaS de terceros3 rd?

  • Inventariar historias de noticias sobre ataques a productos o servicios similares. Entendiendo que muchas amenazas de inteligencia artificial ML se transfieren entre los tipos de modelo, ¿qué impacto tendrían estos ataques en sus propios productos?

  • Reprogramación de red neuronal

  • Ejemplos de conflicto en el dominio físico

  • Proveedores ML de aprendizaje malintencionados que recuperan datos de aprendizaje

  • Ataque a la ML de suministro

  • Modelo con puertas traseras

  • Dependencias ML específicas

Ataques de ejemplo

  • El proveedor de MLaaS malintencionado troyanos de su modelo con un bypass específico

  • El cliente de conflicto encuentra vulnerabilidad en la dependencia común del sistema operativo que usa, carga la carga de datos de aprendizaje creada para poner en peligro su servicio

  • Un partner sin escrúpulos usa API de reconocimiento facial y crea una capa de presentación sobre el servicio para producir Fakes.

Amenazas específicas ML IA y sus mitigaciones

#1: Perturbación adversarial

Descripción

En ataques de estilo de perturbación, el atacante modifica la consulta de forma furtiva para obtener la respuesta deseada de un modelo implementado en producción[1]. Se trata de un incumplimiento de la integridad de entrada del modelo que lleva a ataques de estilo difuso en los que el resultado final no es necesariamente una infracción de acceso o EOP, sino que compromete el rendimiento de clasificación del modelo. Esto también puede ser manifiesto por los trols que usan determinadas palabras de destino de manera que la IA las prohíba, lo que deniega el servicio a usuarios legítimos con un nombre que coincida con una palabra "prohibida".

[24]

Variant #1a: Clasificación errónea dirigida

En este caso, los atacantes generan una muestra que no está en la clase de entrada del clasificador de destino, pero que el modelo clasifica como esa clase de entrada en particular. La muestra adversarial puede aparecer como ruido aleatorio para los ojos humanos, pero los atacantes tienen cierto conocimiento del sistema de aprendizaje automático de destino para generar un ruido blanco que no es aleatorio, pero está explotando algunos aspectos específicos del modelo de destino. El adversario proporciona una muestra de entrada que no es una muestra legítima, pero el sistema de destino la clasifica como una clase legítima.

Ejemplos

[6]

Mitigaciones

  • Reforzando la robustez adversarial con la confianza del modelo inducida por el aprendizaje de adversarial [19]: Los autores proponen Un entorno cercano altamente seguro (HCNN), un marco que combina información de confianza y búsqueda de vecinos más cercanos, para reforzar la robustez adversarial de un modelo base. Esto puede ayudar a distinguir entre las predicciones de modelo correctas y incorrectas en una zona de un punto muestreado de la distribución de aprendizaje subyacente.

  • Análisis causal basado en la atribución [20]: Los autores estudian la conexión entre la resistencia a las perturbaciones adversas y la explicación basada en la atribución de decisiones individuales generadas por modelos de aprendizaje automático. Informan de que las entradas contradictorias no son sólidas en el espacio de atribución, es decir, enmascarar algunas características con una atribución alta lleva a cambiar la indecisión del modelo de aprendizaje automático en los ejemplos de los adversarios. En cambio, las entradas naturales son sólidas en el espacio de atribución.

    [20]

Estos enfoques pueden hacer que los modelos de aprendizaje automático sean más resistentes a los ataques adversariales, ya que engañar a este sistema de cognición de dos capas requiere no solo atacar el modelo original, sino también asegurarse de que la atribución generada para el ejemplo de adversarial sea similar a los ejemplos originales. Ambos sistemas deben estar en peligro simultáneamente para un ataque adversarial exitoso.

Paralelos tradicionales

Elevación remota de privilegios ya que el atacante ahora controla el modelo

Gravedad

Crítico

Variant #1b: Clasificación errónea de origen/destino

Esto se caracteriza como un intento de un atacante de obtener un modelo para devolver la etiqueta deseada para una entrada determinada. Esto suele obligar a un modelo a devolver un falso positivo o un falso negativo. El resultado final es una toma sutil de la precisión de clasificación del modelo, por la que un atacante puede inducir desvíos específicos a voluntad.

Aunque este ataque tiene un impacto perjudicial significativo en la precisión de clasificación, también puede ser más largo llevar a cabo dado que un adversario no solo debe manipular los datos de origen para que ya no se etiquetan correctamente, sino que también se etiquetan específicamente con la etiqueta fraudulenta deseada. Estos ataques suelen implicar varios pasos o intentos para forzar la clasificación errónea [3]. Si el modelo es susceptible de transferir ataques de aprendizaje que fuerzan la clasificación errónea dirigida, es posible que no haya una huella de tráfico de atacante discernible, ya que los ataques de sondeo se pueden realizar sin conexión.

Ejemplos

Forzar que los correos electrónicos benignos se clasifiquen como correo no deseado o que un ejemplo malintencionado no se detecte. También se conocen como ataques de imitación o evasión de modelos.

Mitigaciones

Acciones de detección reactivas o defensivas

  • Implemente un umbral de tiempo mínimo entre llamadas a la API que proporcione resultados de clasificación. Esto ralentiza las pruebas de ataque de varios pasos aumentando la cantidad total de tiempo necesaria para encontrar una perturbación correcta.

Acciones proactivas y de protección

  • Denoising feature for Improving Adversarial Robustness [22]: Los autores desarrollan una nueva arquitectura de red que aumenta la robustez de los adversarios mediante la denoción de características. En concreto, las redes contienen bloques que desaconsechan las características con medios no locales u otros filtros; todas las redes están entrenadas de un extremo a otro. Cuando se combina con el aprendizaje de los adversarios, la característica que denote las redes mejora sustancialmente la robustez del adversario de última generación tanto en la configuración de ataque de cuadro blanco como en cuadro negro.

  • Aprendizaje y regularización de los adversarios: entrena con muestras adversarias conocidas para mejorar la resistencia y la robustez frente a las entradas malintencionadas. Esto también se puede ver como una forma de regularización, que penaliza la norma de los degradados de entrada y hace que la función de predicción del clasificador sea más suave (aumentando el margen de entrada). Esto incluye clasificaciones correctas con tasas de confianza más bajas.

Invierta en desarrollar la clasificación monotónica con la selección de características monotónicas. Esto garantiza que el adversario no podrá evadir al clasificador simplemente con el relleno de las características de la clase negativa [13].

  • El apreteo de características [18] se puede usar para mejorar los modelos DNN detectando ejemplos de conflictos. Reduce el espacio de búsqueda disponible para un adversario al une muestras que corresponden a muchos vectores de características diferentes en el espacio original en una sola muestra. Al comparar la predicción de un modelo DNN en la entrada original con la de la entrada exprimida, el apretón de características puede ayudar a detectar ejemplos de conflictos. Si los ejemplos originales y exprimido producen resultados sustancialmente diferentes del modelo, es probable que la entrada sea contradictoria. Al medir el desacuerdo entre las predicciones y seleccionar un valor de umbral, el sistema puede generar la predicción correcta para ejemplos legítimos y rechazar las entradas contradictorias.

    [18]

  • Defensas certificadas contra ejemplos contradictorios [22]: Los autores proponen un método basado en una relajación semi definitoria que genera un certificado que para una red y entrada de prueba determinadas, ningún ataque puede forzar que el error supere un valor determinado. En segundo lugar, como este certificado es diferenciable, los autores lo optimizan conjuntamente con los parámetros de red, proporcionando un regularizador adaptable que fomenta la robustez frente a todos los ataques.

Acciones de respuesta

  • Emita alertas sobre los resultados de clasificación con una varianza alta entre los clasificadores, especialmente si son de un solo usuario o de un grupo reducido de usuarios.

Paralelos tradicionales

Elevación remota de privilegios

Gravedad

Crítico

Variant #1c: Random misclassification

Esta es una variación especial en la que la clasificación de destino del atacante puede ser cualquier otra cosa que no sea la clasificación de origen legítima. Por lo general, el ataque implica la inyección de ruido de forma aleatoria en los datos de origen que se clasifican para reducir la probabilidad de que se utilice la clasificación correcta en el futuro [3].

Ejemplos

Mitigaciones

Igual que la variante 1a.

Paralelos tradicionales

Denegación de servicio no persistente

Gravedad

Importante

Variant #1d: Reducción de confianza

Un atacante puede crear entradas para reducir el nivel de confianza de la clasificación correcta, especialmente en escenarios de consecuencias altas. Esto también puede tomar la forma de un gran número de falsos positivos destinados a sobrecargar a los administradores o sistemas de supervisión con alertas fraudulentas indistinguibles de alertas legítimas [3].

Ejemplos

Mitigaciones
  • Además de las acciones que se tratan en Variant #1a, la limitación de eventos se puede usar para reducir el volumen de alertas de un único origen.
Paralelos tradicionales

Denegación de servicio no persistente

Gravedad

Importante

#2a de datos dirigidos

Descripción

El objetivo del atacante es contaminar el modelo de máquina generado en la fase de aprendizaje,de modo que las predicciones sobre nuevos datos se modifiquen en la fase de prueba[1]. En ataques de intoxicación dirigidos, el atacante quiere clasificar de forma errónea ejemplos específicos para hacer que se toquen u omitan acciones específicas.

Ejemplos

Enviar software AV como malware para forzar su clasificación errónea como malintencionada y eliminar el uso de software AV dirigido en sistemas cliente.

Mitigaciones
  • Definir sensores de anomalías para ver la distribución de datos en el día a día y alertar sobre variaciones

    -Medir la variación de datos de aprendizaje diariamente, telemetría para sesgo/deriva

  • Validación de entrada, tanto de sanitización como de comprobación de integridad

  • La intoxicación inyecta muestras de aprendizaje de desinsectación. Dos estrategias principales para hacer frente a esta amenaza:

    -Data Sanitization/ validation: remove poisoning samples from training data -Bagging for fighting poisoning attacks [14]

    -Reject-on-Negative-Impact (RONI) defense [15]

    -Robust Learning: Seleccione algoritmos de aprendizaje que sean sólidos en presencia de muestras de intoxicación.

    -Uno de estos métodos se describe en [21] donde los autores abordan el problema de la intoxicación de datos en dos pasos: 1) introducción de un nuevo método de factorización matriz sólida para recuperar el subespacio verdadero y 2) regresión de principios sólidos a instancias adversarias de poda basada en la base recuperada en el paso (1). Se caracteriza por las condiciones necesarias y suficientes para recuperar correctamente el subespacio real y presentan una pérdida de predicción límite en comparación con la verdad terrestre.

Paralelos tradicionales

Host troyano por el que el atacante persiste en la red. Los datos de aprendizaje o configuración están en peligro y se ingieren o se confían para la creación de modelos.

Gravedad

Crítico

#2b intoxicación de datos indiscriminada

Descripción

El objetivo es estropear la calidad/integridad del conjunto de datos que se está atacando. Muchos conjuntos de datos son públicos, no de confianza o no se han hecho públicos, por lo que esto crea preocupaciones adicionales sobre la capacidad de detectar esas infracciones de integridad de datos en primer lugar. El aprendizaje sobre datos que no se reconocen en peligro es una situación de recolección de basura o desprotegido. Una vez detectado, es necesario determinar el alcance de los datos que se han infringido y poner en cuarentena o volver a entrenar.

Ejemplos

Una empresa rasca un sitio web conocido y de confianza para obtener datos de futuros de petróleo para entrenar sus modelos. El sitio web del proveedor de datos se ve posteriormente en peligro SQL ataque de inyección. El atacante puede contaminar el conjunto de datos a su voluntad y el modelo que está entrenado no tiene idea de que los datos están manchados.

Mitigaciones

Igual que la variante 2a.

Paralelos tradicionales

Denegación de servicio autenticada en un activo de alto valor

Gravedad

Importante

Ataques de inversión de modelo n.º 3

Descripción

Las características privadas usadas en modelos de aprendizaje automático se pueden recuperar [1]. Esto incluye la reconstrucción de datos de aprendizaje privados a los que el atacante no tiene acceso. También conocido como ataques de escalada en la comunidad biométrica [16, 17] Esto se logra al encontrar la entrada que maximiza el nivel de confianza devuelto, sujeto a que la clasificación coincida con el objetivo [4].

Ejemplos

[4]

Mitigaciones
  • Las interfaces a modelos entrenados a partir de datos confidenciales necesitan un control de acceso sólido.

  • Consultas de límite de tasa permitidas por modelo

  • Implemente puertas entre usuarios/autores de llamadas y el modelo real realizando la validación de entrada en todas las consultas propuestas, rechazando cualquier cosa que no se acoja a la definición del modelo de corrección de entrada y devolviendo solo la cantidad mínima de información necesaria para ser útil.

Paralelos tradicionales

Divulgación de información dirigida y encubrida

Gravedad

Esto es importante según la barra de errores estándar de SDL, pero los datos confidenciales o de identificación personal que se extraen elevan a críticos.

Ataque de inferencia de pertenencia #4

Descripción

El atacante puede determinar si un registro de datos determinado formaba parte del conjunto de datos de aprendizaje del modelo o no[1]. Los investigadores pudieron predecir el procedimiento principal de un paciente (por ejemplo: La operación por la que pasó el paciente) en función de los atributos (por ejemplo: edad, sexo, hospital) [1].

[12]

Mitigaciones

Los documentos de investigación que demuestran la viabilidad de este ataque indican que la privacidad diferencial [4, 9] sería una mitigación eficaz. Este sigue siendo un campo naciente en Microsoft y AETHER Security Engineering recomienda crear experiencia con inversiones de investigación en este espacio. Esta investigación tendría que enumerar las capacidades de privacidad diferencial y evaluar su eficacia práctica como mitigaciones y, a continuación, diseñar formas para que estas defensas se hereden de forma transparente en nuestras plataformas de servicios en línea, de forma similar a cómo compilar código en Visual Studio le proporciona protección de seguridad predeterminada que es transparente para el desarrollador y los usuarios.

El uso de la deserción de las neuronas y el apilamiento de modelos pueden ser mitigaciones efectivas hasta cierto punto. El uso de la deserción neuronal no solo aumenta la resistencia de una red neuronal a este ataque, sino que también aumenta el rendimiento del modelo [4].

Paralelos tradicionales

Privacidad de datos. Se están haciendo deferencias sobre la inclusión de un punto de datos en el conjunto de aprendizaje, pero los datos de aprendizaje en sí no se revelan

Gravedad

Se trata de un problema de privacidad, no de seguridad. Se trata en las instrucciones de modelado de amenazas porque los dominios se superponen, pero cualquier respuesta aquí estaría controlada por privacidad, no por seguridad.

Robo de modelos #5

Descripción

Los atacantes recrean el modelo subyacente consultando legítimamente el modelo. La funcionalidad del nuevo modelo es la misma que la del modelo subyacente[1]. Una vez que se vuelve a crear el modelo, se puede invertir para recuperar información de características o hacer inferencias en los datos de aprendizaje.

  • Resolución de ecuaciones: para un modelo que devuelve probabilidades de clase a través del resultado de la API, un atacante puede crear consultas para determinar variables desconocidas en un modelo.

  • Búsqueda de rutas: un ataque que aprovecha las particularidades de la API para extraer las "decisiones" tomadas por un árbol al clasificar una entrada [7].

  • Ataque de transferibilidad: un adversario puede entrenar un modelo local,posiblemente emitiendo consultas de predicción al modelo dirigido, y usarlo para crear ejemplos de conflicto que se transfieren al modelo de destino [8]. Si el modelo se extrae y se detecta vulnerable a un tipo de entrada adversaria, el atacante que extrajo una copia del modelo podrá desarrollar sin conexión nuevos ataques contra el modelo implementado en producción.

Ejemplos

En la configuración en la que un modelo ML sirve para detectar comportamientos contradictorias, como la identificación de correo no deseado, la clasificación de malware y la detección de anomalías de red, la extracción de modelos puede facilitar los ataques de evasión [7].

Mitigaciones

Acciones proactivas y de protección

  • Minimice u ofusca los detalles devueltos en las API de predicción mientras mantiene su utilidad para las aplicaciones "honestas" [7].

  • Defina una consulta bien formada para las entradas del modelo y solo devuelva resultados en respuesta a entradas completadas y bien formadas que coincidan con ese formato.

  • Devolver valores de confianza redondeados. La mayoría de los autores de llamadas legítimos no necesitan varias posiciones decimales de precisión.

Paralelos tradicionales

¿Manipulación no autenticada de solo lectura de datos del sistema, divulgación de información de alto valor dirigida?

Gravedad

Importante en modelos confidenciales de seguridad, moderado de lo contrario

Reprogramación de red neuronal n.º 6

Descripción

Mediante una consulta especialmente diseñada de un adversario, los sistemas de aprendizaje automático se pueden reprogramar a una tarea que se desvía de la intención original del creador [1].

Ejemplos

Controles de acceso débiles en una API de reconocimiento facial que permite que las partes 3rd se incorporen a aplicaciones diseñadas para dañar a los clientes de Microsoft, como un generador de falsos profundos.

Mitigaciones
  • Cliente < sólido: > autenticación mutua de servidor y control de acceso a interfaces de modelo

  • Quitar las cuentas infractores.

  • Identifique y aplique un contrato de nivel de servicio para sus API. Determine el tiempo de corrección aceptable para un problema una vez notificado y asegúrese de que el problema ya no vuelva a reprobarse una vez que expire el SLA.

Paralelos tradicionales

Este es un escenario de abuso. Es menos probable que abra un incidente de seguridad en este caso que simplemente deshabilite la cuenta del infractor.

Gravedad

Importante para crítico

Ejemplo de adversarial n.º 7 en el dominio físico (bits- > átomos)

Descripción

Un ejemplo contradictorio es una entrada o consulta de una entidad malintencionada enviada con el único objetivo de engañar al sistema de aprendizaje automático [1]

Ejemplos

Estos ejemplos se pueden manifiesto en el dominio físico, como si un coche autoconducido se le engañara al ejecutar un signo de detenerse debido a que un color de luz determinado (la entrada adversaria) se brilló en el signo de detenerse, lo que obligó al sistema de reconocimiento de imágenes a dejar de ver el signo de detenerse como un signo de detenerse.

Paralelos tradicionales

Elevación de privilegios, ejecución remota de código

Mitigaciones

Estos ataques se manifiestan porque los problemas de la capa de aprendizaje automático (la capa de algoritmo de datos debajo de la toma de decisiones controlada por & IA) no se mitigaron. Al igual que con cualquier otro software *o* sistema físico, la capa debajo del objetivo siempre puede ser atacada a través de vectores tradicionales. Debido a esto, las prácticas de seguridad tradicionales son más importantes que nunca, especialmente con la capa de vulnerabilidades nomitigated (la capa de datos/algo) que se usa entre la inteligencia artificial y el software tradicional.

Gravedad

Crítico

#8 Proveedores ML malintencionados que pueden recuperar datos de aprendizaje

Descripción

Un proveedor malintencionado presenta un algoritmo puerta trasera, en el que se recuperan los datos de aprendizaje privados. Pudieron reconstruir rostros y textos, dado el modelo solo.

Paralelos tradicionales

Divulgación de información dirigida

Mitigaciones

Los artículos de investigación que demuestran la viabilidad de este ataque indican que el cifrado homomórfico sería una mitigación eficaz. Este es un área con poca inversión actual en Microsoft y AETHER Security Engineering recomienda crear experiencia con inversiones de investigación en este espacio. Esta investigación tendría que enumerar los principios de cifrado homomórfico y evaluar su eficacia práctica como mitigaciones frente a los proveedores ML como servicio malintencionados.

Gravedad

Importante si los datos son PII, moderados de lo contrario

#9 Ataque a la ML de suministro

Descripción

Debido a los grandes recursos (datos + cálculo) necesarios para entrenar algoritmos, la práctica actual es reutilizar modelos entrenados por grandes empresas y modificarlos ligeramente para las tareas a mano (por ejemplo: ResNet es un modelo de reconocimiento de imagen popular de Microsoft). Estos modelos se curan en un zoo modelo (Caffe hospeda modelos de reconocimiento de imágenes populares). En este ataque, el adversario ataca los modelos hospedados en la Caffe, con lo que se intoxica el pozo para cualquier otra persona. [1]

Paralelos tradicionales
  • Compromiso de dependencia no de seguridad de terceros

  • App Store, sin saberlo, hospeda malware

Mitigaciones
  • Minimice las dependencias de terceros para modelos y datos siempre que sea posible.

  • Incorpore estas dependencias al proceso de modelado de amenazas.

  • Aproveche la autenticación segura, elcontrol de acceso y el cifrado entre sistemas de terceros de 1 st/3rd.

Gravedad

Crítico

#10 Puerta Machine Learning

Descripción

El proceso de aprendizaje se externaliza a una tercera parte malintencionada que manipula los datos de aprendizaje y entrega un modelo troyano que fuerza clasificaciones erróneas dirigidas, como clasificar un determinado virus como no malintencionado[1]. Este es un riesgo en ML escenarios de generación de modelos como servicio.

[12]

Paralelos tradicionales
  • Compromiso de la dependencia de seguridad de terceros

  • Mecanismo de actualización de software en peligro

  • Compromiso de entidad de certificación

Mitigaciones
Acciones de detección reactivas o defensivas
  • El daño ya se ha hecho una vez que se ha detectado esta amenaza, por lo que no se puede confiar en el modelo ni en los datos de aprendizaje proporcionados por el proveedor malintencionado.
Acciones proactivas y de protección
  • Entrenar todos los modelos confidenciales en la casa

  • Datos de aprendizaje del catálogo o asegurarse de que proceden de un tercero de confianza con prácticas de seguridad sólidas

  • Modelo de amenazas de la interacción entre el proveedor de MLaaS y sus propios sistemas

Acciones de respuesta
  • Igual que para comprometer la dependencia externa
Gravedad

Crítico

#11 Explotar dependencias de software del ML sistema

Descripción

En este ataque, el atacante NO manipula los algoritmos. En su lugar, explota vulnerabilidades de software como desbordamientos de búfer o scripting entre sitios[1]. Aún es más fácil poner en peligro las capas de software debajo de IA/ML que atacar directamente la capa de aprendizaje, por lo que las prácticas de mitigación de amenazas de seguridad tradicionales detalladas en el ciclo de vida del desarrollo de seguridad son esenciales.

Paralelos tradicionales
  • Dependencia de software de código abierto comprometida

  • Vulnerabilidad del servidor web (XSS, CSRF, error de validación de entrada de API)

Mitigaciones

Trabaje con su equipo de seguridad para seguir los procedimientos recomendados aplicables del ciclo de vida del desarrollo de seguridad/garantía de seguridad operativa.

Gravedad

Variable; Hasta Crítico según el tipo de vulnerabilidad de software tradicional.

Bibliografía

[1] Modos de error en Machine Learning, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen y Jeffrey Snover,https://docs.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Ejemplos contradictorias en profundidad Learning: Caracterización y divergencia, Wei, etc.,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Ataques y defensas de inferencia de pertenencia independiente a modelos y datos en modelos de Machine Learning, Salem, etc.,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha y T. Ristenpart, "Model Inversion Attacksthat Exploit Confidence Information and Basic Countermeasures",en Proceedings of the 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolás Papernot & Patrick McDaniel- Ejemplos de Machine Learning AIWTB 2017

[7] Robo de Machine Learning através de API de predicción, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Universidad de Cornell; Ari Juels, Cornell Tech; Michael K. Reiter, De la Universidad de Carolina del Norte en Chapel Hill; Thomas Ristenpart, Técnico de Cornell

[8] El espacio de ejemplos adversariales transferibles, Florian Tramèr , Nicolas Papernot , Ian Goodfellow, Dan Boneh y Patrick McDaniel

[9] Descripción de las deferencias de pertenencia en los modelos de Well-Generalized Learning Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2, Xiaofeng Wang2, Haixu Tang2, Carl A. Gunter1 y Kai Chen3,4

[10] Simon-Gabriel et al., La vulnerabilidad adversaria de las redes neuronales aumenta con la dimensión de entrada, ArXiv 2018;

[11] Lyu et al., una familia unificada de regularización de degradado para ejemplos de conflicto, ICDM 2015

[12] Patrones salvajes: Diez años después del auge del Machine Learning adversarial - NeCS 2019 Batista Biggioa, Fabio Roli

[13] Detección de malware adversarialmente robusto con clasificaciónmonotónica Inigo Incer et al.

[14] Batista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto y Fabio Roli. Clasificadores de etiquetado para la lucha contra ataques de intoxicación en tareas de clasificación adversaria

[15] Un rechazo mejorado en la defensa de impacto negativo Hongjiang Li y Patrick P.K. Chan

[16] Adler. Vulnerabilidades en sistemas de cifrado biométrico. 5º Int'l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-García. Sobre la vulnerabilidad de los sistemas de verificación facial a los ataques de escalada. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Apretó características: Detectar ejemplos de adversariales en redes neuronales profundas. Simposium de seguridad de redes y sistemas distribuidos de 2018. 18-21 de febrero.

[19] Reforzando la robustez adversarial con la confianza del modelo inducida por el aprendizaje adversarial: Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Análisis causal basado en la atribución para la detección de ejemplos contradictorios, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Regresión lineal sólida contra la intoxicación de datos de aprendizaje: Chang Liu et al.

[22] Función Denoising para mejorar la robustez adversarial, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Defensas certificadas contra ejemplos de conflicto: Aditi Raghunathan, Jacob Steinhardt, Percy Liang