Conexión de Power BI a Azure Databricks

Microsoft Power BI es un servicio de análisis empresarial que proporciona visualizaciones interactivas con funcionalidades de autoservicio de inteligencia empresarial, lo que permite a los usuarios finales crear informes y paneles sin tener que depender del personal de la tecnología de la información ni de los administradores de bases de datos.

Cuando se usa Azure Databricks como origen de datos con Power BI, puede proporcionar las ventajas del rendimiento y la tecnología de Azure Databricks a todos los usuarios empresariales, sin depender de los científicos e ingenieros de datos.

Publicación en Power BI Online desde Azure Databricks

Al usar Azure Databricks como origen de datos con Power BI Online, puede crear conjuntos de datos de PowerBI a partir de tablas o esquemas directamente desde la interfaz de usuario de Databricks.

Requisitos

  • Los datos deben estar en el catálogo de Unity y el proceso (clúster) debe estar habilitado en el catálogo de Unity. Actualmente no se admite metastore de Hive.
  • Debe tener una licencia de Power BI premium (capacidad premium o premium por usuario).
  • Debe habilitar “Los usuarios pueden editar modelos de datos en el servicio Power BI (versión preliminar)” en Configuración del área de trabajo y Configuración del modelo de datos para editar el modelo semántico una vez publicado. También puede editar el modelo semántico mediante el Editor tabular si realiza una conexión mediante el punto de conexión XMLA.
  • Si necesita habilitar la escritura XML en el área de trabajo de PowerBI, siga este vínculo para obtener instrucciones.
  • Si el área de trabajo está bajo un vínculo privado, deberá actualizar manualmente las credenciales del origen de datos del conjunto de datos en Power BI.

Cómo usarlo

Publicación de tablas de Azure Databricks en un conjunto de datos de Power BI

  1. Inicie sesión en el área de trabajo de Databricks y vaya al Explorador de catálogos. Seleccione el esquema o las tablas que se van a publicar. No seleccione entre una metastore de Hive ni el catálogo de muestras.
  2. En la lista desplegable proceso, seleccione el almacenamiento de datos que quiere usar en esta publicación de Power BI.
  3. Con la tabla o el esquema deseados que se van a publicar en el Explorador de catálogos, haga clic en el “botón Usar con herramientas” de BI en la esquina superior derecha.
  4. En la lista desplegable que se abre, haga clic en la opción Publicar en el “área de trabajo” de Power BI.

En este momento, se abrirá un menú en el lado derecho de la ventana. Siga las indicaciones dadas por el menú, que se detallan a continuación:

  1. Haga clic en “Conectar con Microsoft Entra ID” para autenticarse con su cuenta Microsoft.
  2. En el menú siguiente, seleccione el área de trabajo deseada en la lista desplegable “Áreas de trabajo de Power BI”. En la lista desplegable "Modo de conjunto de datos", seleccione DirectQuery (seleccionado de manera predeterminada) o Modo de importación.
  3. Haga clic en el botón azul "Publicar en Power BI" en la parte inferior del menú.
  4. Espere a que el conjunto de datos se publique. Normalmente, esto tarda unos 10 a 20 segundos.
  5. Cuando se publique el conjunto de datos, el botón azul tendrá un vínculo con la etiqueta "Abrir Power BI". Haga clic en esta opción para abrir el nuevo conjunto de datos de Power BI en una nueva pestaña.

Características y notas

  • Al publicar un esquema que contiene varias tablas, se publicarán todas las tablas con columnas. Si no hay ninguna columna en ninguna tabla, no se realizará la publicación.
  • Los comentarios sobre las columnas de una tabla de Databricks se copian en las descripciones de las columnas correspondientes de Power BI.
  • Las relaciones de clave externa se conservan en el conjunto de datos publicado. Sin embargo, Power BI solo admite una ruta de acceso de relación activa entre dos tablas. Por lo tanto, cuando hay varias rutas de acceso en el esquema en Databricks, algunas de las relaciones correspondientes en Power BI se establecerán en inactivas. Más adelante, puede cambiar qué relaciones están activas o inactivas en la vista del modelo de datos en Power BI.
  • Se crea un token de acceso personal (PAT) en su nombre para permitir que Power BI acceda al modelo semántico. Este método de autenticación se puede cambiar más adelante en la configuración del origen de datos de Power BI.

Conexión de Power BI Desktop a Azure Databricks

Puede conectar Power BI Desktop a los clústeres de Azure Databricks y a los almacenes de Databricks SQL. También puede publicar informes de Power BI en el servicio Power BI y permitir que los usuarios accedan a los datos subyacentes de Azure Databricks mediante el inicio de sesión único (SSO), y con las mismas credenciales de Microsoft Entra ID (anteriormente Azure Active Directory) que usan para acceder al informe.

Requisitos

  • Power BI Desktop 2.85.681.0 o superior. Para usar datos administrados por el catálogo de Unity con Power BI, debe usar Power BI Desktop 2.98.683.0 o superior (versión de octubre de 2021).

    Nota:

    Power BI Desktop requiere Windows. Una alternativa para otros sistemas operativos es ejecutar Power BI Desktop en un host físico o una máquina virtual basada en Windows y, luego, conectarse a ellos desde el sistema operativo.

    Si usa una versión de Power BI Desktop inferior a 2.85.681.0, también debe instalar el controlador ODBC de Databricks en el mismo entorno que Power BI Desktop.

  • Un token de acceso personal de Azure Databricks o las credenciales de la cuenta de Microsoft Entra ID.

    Nota:

    Como procedimiento recomendado de seguridad, cuando se autentique con tokens de acceso personal, Databricks recomienda usar los tokens de acceso personal pertenecientes a las entidades de servicio en lugar de a los usuarios del área de trabajo. Para crear tókenes para entidades de servicio, consulte Administración de tokens de acceso para una entidad de servicio.

  • Un clúster de Azure Databricks o un almacén de Databricks SQL.

Conexión de Power BI Desktop a Azure Databricks mediante Partner Connect

Puede usar Partner Connect para conectar un clúster o un almacén de Power BI Desktop con tan solo unos clics.

  1. Asegúrese de que la cuenta de Azure Databricks, el área de trabajo y el usuario que ha iniciado sesión cumplen los requisitos de Partner Connect.

  2. En la barra lateral, haga clic en el botón Partner ConnectPartner Connect.

  3. Haga clic en el icono Power BI.

  4. En el cuadro de diálogo Connect to partner (Conectar con un asociado), en Compute (Proceso), elija el nombre del recurso de proceso de Azure Databricks que quiere conectar.

  5. Elija Download connection file (Descargar archivo de conexión).

  6. Abra el archivo de conexión descargado, que inicia Power BI Desktop.

  7. En Power BI Desktop, escriba las credenciales de autenticación:

    • Token de acceso personal: escriba el token de acceso personal de Azure Databricks.
    • Microsoft Entra ID: haga clic en Iniciar sesión y, luego, siga las instrucciones en pantalla.
    • Nombre de usuario y contraseña: no aplicable.
  8. Haga clic en Conectar.

  9. Seleccione los datos de Azure Databricks que desea consultar en el navegador de Power BI.

    Navegador de Power BI

Conexión manual de Power BI Desktop a Azure Databricks

Siga estas instrucciones, según el método de autenticación elegido, para conectarse a un clúster o a un almacén de SQL mediante Power BI Desktop. Se recomiendan almacenes SQL de Databricks al usar Power BI en modo DirectQuery.

Nota:

Para conectarse más rápido con Power BI Desktop, use Partner Connect.

  1. Obtenga el nombre de host del servidor y la ruta de acceso HTTP.

  2. Inicie Power BI Desktop.

  3. Haga clic en Obtener datos o en Archivo > Obtener datos.

  4. Haga clic en Get data to get started (Obtener datos para empezar).

  5. Busque Databricks y haga clic en el conector:

    • Azure Databricks
  6. Haga clic en Conectar.

  7. Escriba el nombre de host del servidor y la ruta de acceso HTTP.

  8. Seleccione el modo de conectividad de datos. Para información sobre la diferencia entre Importar y DirectQuery, consulte Usar DirectQuery en Power BI Desktop.

  9. Haga clic en Aceptar.

  10. Haga clic en el método de autenticación:

    • Token de acceso personal: escriba el token de acceso personal de Azure Databricks.
    • Microsoft Entra ID: haga clic en Iniciar sesión y, luego, siga las instrucciones en pantalla.
    • Nombre de usuario y contraseña: no aplicable.
  11. Haga clic en Conectar.

  12. Seleccione los datos de Azure Databricks que desea consultar en el navegador de Power BI. Si el catálogo de Unity está habilitado para el área de trabajo, seleccione un catálogo antes de seleccionar un esquema y una tabla.

    Navegador de Power BI

Uso de una consulta SQL personalizada

El conector de Databricks proporciona el origen de datos de Databricks.Query que permite a un usuario proporcionar una consulta SQL personalizada.

  1. Siga los pasos que se describen en Conexión con Power BI Desktop mediante Partner Connect para crear una conexión y use Import como modo de conectividad de datos.

  2. En el navegador, haga clic con el botón derecho en el elemento superior que contiene el nombre de host seleccionado y la ruta de acceso HTTP y haga clic en Transform Data para abrir el Editor de Power Query.

    En el navegador, haga clic en Transform Data

  3. En la barra de funciones, reemplace el nombre de función Databricks.Catalogs por Databricks.Query y aplique el cambio. De esta forma se crea una función de Power Query que toma una consulta SQL como parámetro.

  4. Escriba la consulta SQL deseada en el campo de parámetro y haga clic en Invoke. Esto ejecuta la consulta y se crea una nueva tabla cuyo contenido son los resultados de la consulta.

Acceso al origen de datos de Azure Databricks mediante el servicio Power BI

Al publicar un informe en el servicio Power BI, se conecta a Azure Databricks mediante un token de acceso personal. En el servicio Power BI también puede habilitar el inicio de sesión único (SSO) para que los usuarios puedan acceder a los informes creados mediante el modo de almacenamiento de DirectQuery pasando sus credenciales de Microsoft Entra ID a Azure Databricks.

  1. Publique el informe de Power BI de Power BI Desktop en el servicio Power BI.

  2. Habilite el acceso de inicio de sesión único (SSO) al informe y al origen de datos subyacente.

    1. Vaya al conjunto de datos de Azure Databricks subyacente del informe en el servicio Power BI, expanda Credenciales de origen de datos y haga clic en Editar credenciales.
    2. En el cuadro de diálogo de configuración, seleccione Report viewers can only access this data source with their own Power BI identities using Direct Query (Los visores de informes solo pueden acceder a este origen de datos con sus propias identidades de Power BI mediante Direct Query) y haga clic en Iniciar sesión.

    Habilitación del inicio de sesión único para acceso de datos de Databricks

    Con esta opción seleccionada, el acceso al origen de datos se controla mediante DirectQuery y se administra mediante la identidad de Microsoft Entra ID del usuario que accede al informe. Si no selecciona esta opción, solo usted, como usuario que publicó el informe, tiene acceso al origen de datos de Azure Databricks.

Detección automatizada del proxy HTTP

Power BI Desktop, versión 2.104.941.0 y posteriores (versión de mayo de 2022), tiene compatibilidad integrada para detectar la configuración del proxy HTTP en todo el sistema Windows.

Power BI Desktop puede detectar y usar automáticamente la configuración del proxy HTTP en todo el sistema Windows.

Si el servidor proxy no ofrece un punto de distribución CRL (CDP), Power BI podría mostrar este mensaje de error:

Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."

Para corregir este error, siga los pasos a continuación:

  1. Cree el archivo C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.ini si no existe.

  2. Agregue la siguiente configuración al archivo microsoft.sparkodbc.ini:

    [Driver]
    CheckCertRevocation=0
    

Power BI Delta Sharing Connector

Power BI Delta Sharing Connector permite a los usuarios detectar, analizar y visualizar conjuntos de datos compartidos con ellos a través del protocolo abierto Delta Sharing. El protocolo posibilita un intercambio seguro de conjuntos de datos entre productos y plataformas mediante REST y almacenamiento en la nube.

Para obtener instrucciones de conexión, consulte Power BI: Lectura de datos compartidos.

Limitaciones

  • El conector de Azure Databricks admite el proxy web. Sin embargo, no admite configuraciones automáticas del proxy definidas en archivos .pac.
  • En el conector de Azure Databricks, el origen de datos Databricks.Query no se admite en combinación con el modo DirectQuery.
  • Los datos que carga Delta Sharing Connector deben ajustarse a la memoria de la máquina. Para garantizar esto, el conector limita el número de filas importadas al límite de filas que se estableció anteriormente.

Recursos adicionales

Soporte técnico