Esta arquitectura muestra un entorno de investigación seguro diseñado para permitir que los investigadores accedan a datos confidenciales con un mayor nivel de control y protección de datos. Este artículo es aplicable a las organizaciones que están obligadas a cumplir con la normativa o con otros requisitos estrictos de seguridad.
Esta arquitectura se creó originalmente para instituciones de investigación de educación superior con requisitos HIPAA. Sin embargo, este diseño se puede usar en cualquier sector que requiera un aislamiento de datos para perspectivas de investigación. Estos son algunos ejemplos:
- Sectores que procesan datos regulados según los requisitos de NIST
- Centros médicos que colaboran con investigadores internos o externos
- Banca y finanzas
Si sigue las instrucciones, puede mantener el control total de los datos de investigación, separar las tareas y cumplir los estándares estrictos de cumplimiento normativo. Además, puede facilitar la colaboración entre los roles típicos implicados en una carga de trabajo orientada a la investigación, los propietarios de datos, los investigadores y los aprobadores.
Arquitectura
Flujo de datos
Los propietarios de datos cargan los conjuntos de datos en una cuenta pública de almacenamiento de blobs. Los datos se cifran mediante claves administradas por Microsoft.
Data Factory usa un desencadenador que comienza a copiar el conjunto de datos cargado en una ubicación específica (ruta de acceso de importación) de otra cuenta de almacenamiento con controles de seguridad. Solo se puede acceder a la cuenta de almacenamiento mediante un punto de conexión privado. Además, una entidad de servicio tiene acceso a ella con permisos limitados. Data Factory elimina la copia original, lo que hace que el conjunto de datos sea inmutable.
Los investigadores acceden al entorno seguro mediante una aplicación de streaming con Azure Virtual Desktop como un jumpbox con privilegios.
El conjunto de datos de la cuenta de almacenamiento seguro se presenta a las VM de ciencia de datos aprovisionadas en un entorno de red seguro para el trabajo de investigación. Gran parte de la preparación de los datos se realiza en esas VM.
El entorno seguro tiene un proceso de Azure Machine Learning que puede acceder al conjunto de datos mediante un punto de conexión privado para los usuarios para las funcionalidades de AML, como entrenar, implementar, automatizar y administrar los modelos de aprendizaje automático. En este momento, se crean modelos que cumplen las directrices normativas. Se elimina la información personal de todos los datos del modelo para que sean anónimos.
Los modelos o datos anónimos se guardan en una ubicación independiente del almacenamiento seguro (ruta de acceso de exportación). Cuando se agregan nuevos datos a la ruta de exportación, se desencadena una aplicación lógica. En esta arquitectura, la aplicación lógica se encuentra fuera del entorno seguro porque no se envía ningún dato a la aplicación lógica. Su única función es enviar una notificación e iniciar el proceso de aprobación manual.
La aplicación inicia un proceso de aprobación que solicita una revisión de los datos que se ponen en cola para exportarse. Los revisores manuales garantizan que no se exporten datos confidenciales. Después del proceso de revisión, los datos se aprueban o se deniegan.
Nota
Si no se requiere un paso de aprobación en la filtración, el paso de la aplicación lógica podría omitirse.
Si se aprueban los datos anónimos, se envían a la instancia de Data Factory.
Data Factory traslada los datos a la cuenta de almacenamiento pública en un contenedor independiente para permitir que los investigadores externos tengan acceso a sus modelos y datos exportados. Como alternativa, se puede aprovisionar otra cuenta de almacenamiento en un entorno de seguridad inferior.
Componentes
Esta arquitectura se compone de varios servicios en la nube de Azure que escalan los recursos según sea necesario. Aquí se describen los servicios y sus roles. Para obtener vínculos a la documentación del producto para comenzar a trabajar con estos servicios, consulte Vínculos relacionados.
Componentes principales de la carga de trabajo
Estos son los componentes principales que trasladan los datos de investigación y los procesan.
Microsoft Data Science Virtual Machine (DSVM) : VM configuradas con herramientas que se usan para el análisis de datos y el aprendizaje automático.
Azure Machine Learning : se usa para entrenar, implementar, automatizar y administrar modelos de Machine Learning y para administrar la asignación y el uso de recursos de proceso de ML.
Proceso de Azure Machine Learning : un clúster de nodos que se usa para entrenar y probar modelos de aprendizaje automático y de IA. El proceso se asigna a petición en función de una opción de escalado automático.
Almacenamiento de Azure Blob: hay dos instancias. La instancia pública se usa para almacenar temporalmente los datos cargados por los propietarios de los datos. Además, almacena datos anónimos después del modelado en un contenedor independiente. La segunda instancia es privada. Recibe los conjuntos de datos de entrenamiento y prueba de Machine Learning usados por los scripts de entrenamiento. El almacenamiento se monta como una unidad virtual en cada nodo de un clúster de Proceso de Machine Learning.
Azure Data Factory traslada automáticamente los datos entre cuentas de almacenamiento de distintos niveles de seguridad para garantizar la separación de tareas.
Azure Virtual Desktop se usa como un jumpbox para obtener acceso a los recursos del entorno seguro con aplicaciones de streaming y un escritorio completo, según sea necesario. También se puede usar Azure Bastion. Pero conviene tener claras las diferencias de control de seguridad entre las dos opciones. Virtual Desktop tiene algunas ventajas:
- Capacidad de transmitir una aplicación como VSCode para ejecutar cuadernos en los recursos de proceso de aprendizaje automático.
- Capacidad de limitar las operaciones de copiar, pegar y las capturas de pantalla.
- Compatibilidad para la autenticación de Azure Active Directory en DSVM.
Azure Logic Apps proporciona un flujo de trabajo automatizado de poco código para desarrollar las partes del desencadenador y de la versión del proceso de aprobación manual.
Componentes de administración de posición
Estos componentes supervisan continuamente la posición de la carga de trabajo y su entorno. Su finalidad es detectar y mitigar los riesgos en cuanto se detecten.
Azure Security Center se usa para evaluar la posición de seguridad general de la implementación y proporcionar un mecanismo de atestación para el cumplimiento normativo. Los problemas que se encontraron anteriormente durante las auditorías o valoraciones se pueden descubrir con anticipación. Use características para supervisar el progreso, como la puntuación de seguridad y la de cumplimiento.
Azure Sentinel es una solución de Administración de eventos e información de seguridad (SIEM) y de respuesta automatizada de orquestación de seguridad (SOAR). Se pueden ver de forma centralizada los registros y alertas de varios orígenes y aprovechar las ventajas de los análisis avanzados de la IA y la seguridad para detectar amenazas buscarlas, evitarlas y responder a ellas.
Azure Monitor proporciona observabilidad en todo el entorno. Vea métricas, registros de actividad y registros de diagnóstico de la mayoría de los recursos de Azure sin una configuración agregada. Las herramientas de administración, como las de Azure Security Center, también envían datos de registro a Azure Monitor.
Componentes de la gobernanza
- Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a gran escala.
Seguridad
El objetivo principal de esta arquitectura es proporcionar un entorno de investigación seguro y de confianza que limite de forma estricta la filtración de datos desde el área segura.
Seguridad de las redes
Los recursos de Azure usados para almacenar, probar y entrenar conjuntos de datos de investigación se aprovisionan en un entorno seguro. Ese entorno es una instancia de Azure Virtual Network (VNet) que tiene reglas de grupos de seguridad de red (NSG) para restringir el acceso, principalmente:
Acceso entrante y saliente a la red pública de Internet y en la red virtual.
Acceso entre puertos y servicios específicos. Por ejemplo, esta arquitectura bloquea todos los rangos de puertos, excepto los necesarios para los servicios de Azure (como Azure Monitor). Encontrará una lista completa de etiquetas de servicio y los servicios correspondientes aquí.
Además, se acepta el acceso desde la red virtual con Azure Virtual Desktop (AVD) en puertos limitados a los mecanismos de acceso aprobados, y se deniega el resto del tráfico. En comparación con este entorno, la otra red virtual (con AVD) es relativamente abierta.
El almacenamiento de blobs principal del entorno seguro se encuentra fuera de la red pública de Internet. Solo es accesible dentro de la red virtual mediante las conexiones de punto de conexión privado y los firewalls de Azure Storage. Se usa para limitar las redes desde las que los clientes pueden conectarse a los recursos compartidos de archivos de Azure.
El entorno seguro tiene un proceso de Azure Machine Learning que puede acceder al conjunto de datos mediante un punto de conexión privado.
En el caso de los servicios de Azure que no se pueden configurar eficazmente con puntos de conexión privados o para proporcionar una inspección de paquetes con estado, considere la posibilidad de usar Azure Firewall o una aplicación virtual de red (NVA) de terceros.
Administración de identidades
El acceso a Blob Storage se obtiene mediante controles de acceso basados en roles de Azure.
Azure Virtual Desktop admite la autenticación de Azure AD en DSVM.
Data Factory usa una identidad administrada para acceder a los datos desde el almacenamiento de blobs. Las DSVM también usan una identidad administrada para las tareas de corrección.
Seguridad de los datos
Para proteger los datos en reposo, todas las instancias de Azure Storage se cifran con claves administradas por Microsoft mediante una criptografía segura.
O bien se pueden usar claves administradas por el cliente. Las claves se deben almacenar en un almacén de claves administrado. En esta arquitectura, Azure Key Vault se implementa en el entorno seguro para almacenar secretos como claves de cifrado y certificados. Los recursos de la red virtual segura acceden a Key Vault mediante un punto de conexión privado.
Consideraciones de gobernanza
Habilite Azure Policy para aplicar estándares y proporcionar una corrección automatizada para que los recursos cumplan las directivas específicas. Las directivas se pueden aplicar a una suscripción de proyecto o a un nivel de grupo de administración como una única directiva o como parte de una iniciativa normativa.
Por ejemplo, en esta arquitectura, la configuración de invitado de Azure Policy se aplicó a todas las VM del ámbito. La directiva puede auditar los sistemas operativos y la configuración de las máquinas de Data Science VM.
Imagen de la máquina virtual
Las instancias de Data Science VM ejecutan imágenes de base personalizadas. Para compilar la imagen de base, se recomienda usar tecnologías como Azure Image Builder. De este modo, puede crear una imagen repetible que se pueda implementar cuando sea necesario.
Es posible que la imagen de base necesite actualizaciones, tales como más archivos binarios. Esos archivos binarios deben cargarse en el almacenamiento de blobs público y fluir por el entorno seguro, del mismo modo que los propietarios de datos cargan los conjuntos de datos.
Otras consideraciones
La mayoría de las soluciones de investigación son cargas de trabajo temporales y no es necesario que estén disponibles durante períodos prolongados. Esta arquitectura está diseñada como una implementación de una sola región con zonas de disponibilidad. Si los requisitos empresariales exigen mayor disponibilidad, replique esta arquitectura en varias regiones. Necesitará otros componentes, como el equilibrador de carga global y el distribuidor, para enrutar el tráfico a todas esas regiones. Como parte de la estrategia de recuperación, se recomienda capturar y crear una copia de la imagen de base personalizada con Azure Image Builder.
El tamaño y el tipo de las instancias de Data Science VM deben ser adecuados para el estilo de trabajo que se realice. Esta arquitectura está diseñada para admitir un único proyecto de investigación y la escalabilidad se logra mediante el ajuste del tamaño y el tipo de las VM y de las opciones adoptadas para los recursos de proceso disponibles para AML.
El costo de las DSVM depende de la elección de la serie de VM subyacentes. Dado que la carga de trabajo es temporal, se recomienda el plan de consumo para el recurso de aplicación lógica. Use la calculadora de precios de Azure para calcular los costos en función del dimensionamiento estimado de los recursos necesarios.