Seguridad y cifrado de datos

En este artículo se presentan las configuraciones de seguridad para ayudar a proteger los datos.

Para obtener información sobre cómo proteger el acceso a los datos, consulte Gobernanza de datos con Unity Catalog.

Introducción a la seguridad y el cifrado de datos

Azure Databricks proporciona características de cifrado para ayudar a proteger los datos. No todas las características de seguridad están disponibles en todos los planes de tarifa. En la tabla siguiente se incluye información general sobre las características y cómo se alinean con los planes de precios.

Característica Plan de tarifa
Claves administradas por el cliente para procesos de cifrado Premium
Cifrado del tráfico entre los nodos de trabajo del clúster Premium
Cifrado doble para la raíz de DBFS Premium
Cifrado de consultas, historial de consultas y resultados de consultas Premium

Habilitación de claves administradas por el cliente para el cifrado

Azure Databricks admite la adición de una clave administrada por el cliente para ayudar a proteger y controlar el acceso a los datos. Azure Databricks admite claves administradas por el cliente desde almacenes de Azure Key Vault y módulos de seguridad de hardware (HSM) administrados de Azure Key Vault. Existen tres características de claves administradas por el cliente para diferentes tipos de datos:

  • Claves administradas por el cliente para discos administrados: las cargas de trabajo de proceso de Azure Databricks en el almacén del plano de proceso almacenan datos temporales en discos administrados de Azure. De manera predeterminada, los datos almacenados en discos administrados se cifran en reposo, mediante el cifrado del lado del servidor, con claves administradas por Microsoft. Puede configurar su propia clave para que el área de trabajo de Azure Databricks la use para el cifrado de discos administrados. Consulte Claves administradas por el cliente para discos administrados por Azure.

  • Claves administradas por el cliente para servicios administrados: los datos de los servicios administrados del plano de control de Azure Databricks se cifran en reposo. Puede agregar una clave administrada por el cliente para los servicios administrados para ayudar a proteger y controlar el acceso a los siguientes tipos de datos cifrados:

    • Archivos de código fuente de los cuadernos almacenados en el plano de control.
    • Resultados de los cuadernos almacenados en el plano de control.
    • Secretos almacenados por las API del administrador de secretos.
    • Consultas e historial de consultas de Databricks SQL.
    • Tokens de acceso personal u otras credenciales utilizadas para configurar la integración de Git con las carpetas Git de Databricks.

    Consulte Claves administradas por el cliente para servicios administrados.

  • Claves administradas por el cliente para la raíz de DBFS: de manera predeterminada, la cuenta de almacenamiento se cifra con claves administradas por Microsoft. Puede configurar su propia clave para cifrar todos los datos de la cuenta de almacenamiento raíz del área de trabajo. Para más información, consulte Claves administradas por el cliente para la raíz de DBFS.

Para más información sobre qué características de las claves administradas por el cliente en Azure Databricks protegen los diferentes tipos de datos, consulte Claves administradas por el cliente para procesos de cifrado.

Habilitación del cifrado doble para DBFS

El sistema de archivos de Databricks (DBFS) es un sistema de archivos distribuido montado en un área de trabajo de Azure Databricks y disponible en los clústeres de Azure Databricks. DBFS se implementa como una cuenta de almacenamiento en un grupo de recursos administrado en un área de trabajo de Azure Databricks. La ubicación de almacenamiento predeterminada de DBFS se conoce como la raíz de DBFS.

Azure Storage cifra automáticamente todos los datos de una cuenta de almacenamiento, incluido el almacenamiento raíz de DBFS. Opcionalmente, puede habilitar el cifrado en el nivel de infraestructura de Azure Storage. Cuando se habilita el cifrado de infraestructura, los datos de una cuenta de almacenamiento se cifran dos veces, una vez en el nivel de servicio y otra en el nivel de infraestructura, con dos algoritmos de cifrado y dos claves diferentes. Para más información sobre cómo implementar un área de trabajo con cifrado de infraestructura, consulte Configuración del cifrado doble para la raíz de DBFS.

Cifrado de consultas, historial de consultas y resultados de consultas

Puede usar su propia clave de Azure Key Vault para cifrar las consultas y el historial de consultas de Databricks SQL almacenados en el panel de control de Azure Databricks. Para obtener más detalles, consulte Cifrar consultas, historial de las consultas y resultados de las consultas

Cifrado del tráfico entre los nodos de trabajo del clúster

Las consultas y transformaciones de usuario normalmente se envían a los clústeres a través de un canal cifrado. Sin embargo, de forma predeterminada, los datos intercambiados entre los nodos de trabajo del clúster no están cifrados. Si el entorno requiere que los datos se cifren en todo momento, ya sea en reposo o en tránsito, puede crear un script de inicialización que configure los clústeres para cifrar el tráfico entre los nodos de trabajo, mediante el cifrado AES de 128 bits a través de una conexión TLS 1.2. Para más información, consulte Cifrado del tráfico entre los nodos de trabajo del clúster.

Administración de la configuración del área de trabajo

Los administradores del área de trabajo de Azure Databricks pueden administrar la configuración de seguridad del área de trabajo como, por ejemplo, la capacidad de descargar cuadernos y aplicar el modo de acceso al clúster de aislamiento de usuario. Para obtener más información, consulte Administración del área de trabajo.