Asignar modelos de & seguridad de ingeniería de ciencia de datos a Databricks SQL

En este artículo se describe cómo los administradores Azure Databricks configuración de Databricks SQL en un área de trabajo que ya ha configurado el acceso a objetos de datos en un área de trabajo de Ingeniería de ciencia & de datos. Siga los pasos de la sección correspondiente al modelo de seguridad del clúster en Ingeniería de ciencia de & datos.

Configuración del acceso mediante clústeres habilitados para el control de acceso a tablas

Siga esta guía si usa clústeres habilitados para el control de acceso a tablas en el área de trabajo de Ingeniería de ciencia de datos y desea acceder a los datos desde & Databricks SQL.

Para los datos que desea consultar en Databricks SQL, los administradores configuran el acceso al almacenamiento en la nube subyacente mediante una entidad de servicio. Los puntos de conexión SQL databricks comparten las mismas credenciales de acceso de almacenamiento en la nube.

Requisitos

  • Azure Databricks cuenta en el plan Premium .
  • Un punto de conexión SQL Databricks.
  • Grupos que representan a los usuarios a los que va a dar acceso a los datos.

Paso 1: Obtener la configuración de la entidad de servicio de los clústeres habilitados para el control de acceso a tablas

Azure Databricks realiza este paso en un área de trabajo de Ingeniería de & ciencia de datos.

Para cada clúster habilitado para el control de acceso a tablas, vaya a la configuración del clúster y copie la configuración de la entidad de servicio. La configuración de acceso a datos tiene el formato siguiente:

spark.hadoop.fs.azure.account.auth.type.<storage-account-name>.dfs.core.windows.net OAuth
spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account-name>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account-name>.dfs.core.windows.net <application-id>
spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account-name>.dfs.core.windows.net {{<secret-name>/<secret-scope>}}
spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account-name>.dfs.core.windows.net https://login.microsoftonline.com/<directory-id>/oauth2/token
  • application-id:identificador que identifica de forma única la Azure AD aplicación.
  • directory-id:identificador que identifica de forma única la instancia de Azure AD (denominada Id. de directorio (inquilino) en Azure Databricks).
  • scope-name:nombre del ámbito del secreto creado.
  • secret-name:el nombre del secreto creado.

Paso 2: Configurar Databricks SQL usar entidades de servicio para el acceso a datos

Consulte Configuración de Databricks SQL usar entidades de servicio para el acceso a datos.

Configuración del acceso mediante entidades de servicio de nivel de clúster

Siga los pasos de esta sección si usa entidades de servicio de nivel de clúster en el área de trabajo de Ingeniería de ciencia de datos y desea acceder a los datos desde & Databricks SQL.

Para los datos que desea consultar en Databricks SQL, el acceso al almacenamiento en la nube subyacente se configura mediante una entidad de servicio. Todos los puntos de conexión SQL databricks comparten las mismas entidades de servicio de acceso de almacenamiento en la nube.

Nota

En Databricks SQL control de acceso a tablas es el único modelo de seguridad y el control de acceso a tablas siempre está habilitado. En Ingeniería de ciencia & de datos, Azure Databricks administradores deben habilitar explícitamente el control de acceso a tablas.

Requisitos

  • Azure Databricks cuenta en el plan Premium .
  • Un punto de conexión SQL Databricks.
  • Grupos que representan a los usuarios que tendrán acceso a los datos.

Paso 1: (Opcional) Creación de una entidad de servicio para cada cuenta de almacenamiento de Azure Data Lake Storage Gen2

Nota

Puede reutilizar las entidades de servicio existentes: cualquier entidad de servicio existente usada en un área de trabajo de Ingeniería de ciencia de datos se puede reutilizar para & Databricks SQL. Para esta opción, puede omitir este paso.

Databricks recomienda volver a usar las entidades de servicio existentes si están configuradas en el nivel de cuenta de almacenamiento o conceder acceso a las existentes en ese nivel.

Consulte Step 1: (Optional) Create a service principal for each Azure Data Lake Storage Gen2 storage account (Paso 1: (opcional)Creación de una entidad de servicio para cada cuenta de almacenamiento de Azure Data Lake Storage Gen2.

Paso 2: Concesión de acceso de entidad de servicio al almacenamiento en la nube subyacente

Un Azure Databricks realiza los pasos siguientes en el área de Azure Portal y un área de trabajo de Ingeniería & de ciencia de datos.

Si ha creado nuevas entidades de servicio, concédalas acceso al almacenamiento de ADLS y omita los pasos siguientes.

Si reutiliza entidades de servicio de un área de trabajo de Ingeniería & de ciencia de datos, siga estos pasos:

  1. Identifique las cuentas de almacenamiento a las que desea acceder desde Databricks SQL un clúster de área de trabajo de Ingeniería de ciencia de datos que los usuarios usaron para acceder a & los datos.
  2. En un área de trabajo de Ingeniería & de ciencia de datos:
    1. Haga clic en Proceso en la barra lateral.

    2. Seleccione el clúster que se usa para acceder a los datos.

    3. Expanda Opciones avanzadas.

    4. Copie la configuración de acceso a datos de la configuración de Spark. La configuración de acceso a datos tiene el formato siguiente:

      spark.hadoop.fs.azure.account.auth.type.<storage-account-name>.dfs.core.windows.net OAuth
      spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account-name>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
      spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account-name>.dfs.core.windows.net <application-id>
      spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account-name>.dfs.core.windows.net {{<secret-name>/<secret-scope>}}
      spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account-name>.dfs.core.windows.net https://login.microsoftonline.com/<directory-id>/oauth2/token
      

Para cada clúster, tenga en cuenta los grupos que tienen privilegios De adjuntar o superiores en el clúster para informar de las instrucciones del paso 4.

Paso 3: Configuración de SQL de conexión para usar la entidad de servicio para el acceso a datos

Consulte Step 3: Configure Databricks SQL use service principals for data access (Paso 3: Configuración de Databricks para usar entidades de servicio para el acceso a datos).

Paso 4: Definición de privilegios de acceso a datos

Consulte Paso 4: Definición de privilegios de acceso a datos mediante el control de acceso a tablas.

Paso 5: Establecimiento de propietarios de objetos

Vea Paso 5: (opcional) Establecer propietario.

Configuración del acceso mediante clústeres configurados para el paso a través de credenciales

Siga los pasos de esta sección si usa clústeres configurados para el paso a través de credenciales en el área de trabajo de Ingeniería de ciencia de datos y desea acceder a los datos desde & Databricks SQL.

Para los datos que desea consultar en Databricks SQL, el acceso al almacenamiento en la nube subyacente se configura mediante . Los puntos de conexión SQL databricks comparten las mismas credenciales de acceso de almacenamiento en la nube.

Requisitos

  • Azure Databricks cuenta en el plan Premium .
  • Un punto de conexión SQL Databricks.
  • Grupos que representan a los usuarios a los que va a dar acceso a los datos.

Paso 1: (Opcional) Creación de una entidad de servicio para cada cuenta de Azure Data Lake Storage Gen2

Nota

  • Puede reutilizar las entidades de servicio existentes: cualquier entidad de servicio existente usada en un área de trabajo de Ingeniería de ciencia de datos se puede reutilizar para & Databricks SQL. Para esta opción, puede omitir este paso.
  • Databricks recomienda volver a usar las entidades de servicio existentes si están configuradas en el nivel de cuenta de almacenamiento o conceder acceso a las existentes en ese nivel.

Consulte Step 1: (Optional) Create a service principal for each Azure Data Lake Storage Gen2 storage account (Paso 1: (opcional)Creación de una entidad de servicio para cada cuenta de almacenamiento de Azure Data Lake Storage Gen2.

Paso 2: Concesión de acceso de entidad de servicio al almacenamiento en la nube subyacente

Consulte Paso 2: Conceder a las entidades de servicio acceso alas cuentas de Azure Data Lake Storage Gen2.

Además, registre las ACL basadas en archivos por grupo de cada cuenta de almacenamiento para informar de GRANT las instrucciones del paso 4.

Paso 3: Configuración de SQL de conexión para usar la entidad de servicio para el acceso a datos

Consulte Step 3: Configure Databricks SQL use service principals for data access (Paso 3: Configuración de Databricks para usar entidades de servicio para el acceso a datos).

Paso 4: Definición de privilegios de acceso a datos

Consulte Paso 4: Definición de privilegios de acceso a datos mediante el control de acceso a tablas.

Paso 5: Establecimiento de propietarios de objetos

Vea Paso 5: (opcional) Establecer propietario.