Spark en HDInsight con DirectQuerySpark on HDInsight with DirectQuery

Spark en HDInsight de Azure con DirectQuery permite crear informes dinámicos basados en los datos y las métricas que ya existen en su grupo de Spark.Spark on Azure HDInsight with DirectQuery allows you to create dynamic reports based on data and metric you already have in your Spark cluster. Con DirectQuery, las consultas se envían al grupo de Spark en HDInsight de Azure a medida que explora los datos en la vista del informe.With DirectQuery, queries are sent back to your Azure HDInsight Spark cluster as you explore the data in the report view. Esta experiencia está recomendada para los usuarios que están familiarizados con las entidades a las que se conectan.This experience is suggested for users who are familiar with the entities they connect to.

Advertencia

La actualización automática del icono se ha deshabilitado para los iconos del panel que tienen como base conjuntos de datos basados en Spark.Automatic tile refresh has been disabled for dashboard tiles built on Spark based datasets. Puede seleccionar Actualizar iconos del panel para actualizar manualmente.You can select Refresh Dashboard Tiles to refresh manually. Los informes no se ven afectados y deberían permanecer actualizados.Reports are not impacted and should remain up-to-date.

Puede usar los siguientes pasos para conectarse a su origen de datos de Spark en Azure HDInsight con DirectQuery en el servicio Power BI.You can use the following steps to connect to your Spark on Azure HDInsight data source using DirectQuery within the Power BI service.

  1. Seleccione Obtener datos en la parte inferior del panel de navegación izquierdo.Select Get Data at the bottom of the left navigation pane.

  2. Seleccione Bases de datos y más.Select Databases & More.

  3. Seleccione el conector Spark en HDInsight y elija Conectar.Select the Spark on HDInsight connector and choose Connect.

  4. Escriba el nombre del servidor al que desea conectarse, así como su nombre de usuario y contraseña.Enter the name of the server you want to connect to, as well as your username and password. El servidor siempre tiene el formato <nombreDeClúster>.azurehdinsight.net. Vea a continuación más información sobre cómo encontrar estos valores.The server is always in the form <clustername>.azurehdinsight.net, see more details about finding these values below.

  5. Una vez conectado, verá un nuevo conjunto de datos con el nombre "SparkDataset".Once connected, you'll see a new dataset with named “SparkDataset”. También se puede acceder al conjunto de datos mediante el icono de marcador de posición que se crea.You can also access the dataset through the placeholder tile that is created.

  6. Explore el conjunto de datos para ver con detalle todas las tablas y columnas de la base de datos.Drilling into the dataset, you can explore all of the tables and columns in your database. Si selecciona una columna enviará una consulta al origen y se creará dinámicamente el objeto visual.Selecting a column will send a query back to the source, dynamically creating your visual. Estos objetos visuales pueden guardarse en un informe nuevo y anclarse de nuevo al panel.These visuals can be saved in a new report, and pinned back to your dashboard.

Buscar los parámetros de Spark en HDInsightFinding your Spark on HDInsight parameters

El servidor siempre tiene el formato <nombreDeClúster>.azurehdinsight.net y puede encontrarse en Azure Portal.The server is always in the form <clustername>.azurehdinsight.net, and can be found in the Azure portal.

El nombre de usuario y la contraseña también se encuentran en Azure Portal.The username and password can also be found in the Azure portal.

LimitacionesLimitations

Estas restricciones y notas pueden cambiar mientras seguimos mejorando las experiencias.These restrictions and notes may change as we continue to improve the experiences. Encontrará documentación adicional en Uso de herramientas de BI con Apache Spark en HDInsight de Azure.Additional documentation can be found at Use BI tools with Apache Spark on Azure HDInsight

  • El servicio Power BI solo admite una configuración de Spark 2.0 y HDInsight 3.5.The Power BI service only supports a configuration of Spark 2.0 and HDInsight 3.5.
  • Cada acción, como seleccionar una columna o agregar un filtro, enviará una consulta a la base de datos. Antes de seleccionar campos muy grandes, considere la posibilidad de elegir un tipo de objeto visual adecuado.Every action such as selecting a column or adding a filter will send a query back to the database – before selecting very large fields, consider choosing an appropriate visual type.
  • Preguntas y respuestas no está disponible para conjuntos de datos de DirectQuery.Q&A is not available for DirectQuery datasets.
  • Los cambios de esquema no se capturan automáticamente.Schema changes are not picked up automatically.
  • Power BI admite 16 000 columnas en todas las tablas dentro de un conjunto de datos.Power BI supports 16,000 columns across all tables within a dataset. Power BI también incluye una columna interna de número de fila para cada tabla.Power BI also includes an internal row number column per table. Esto significa que, si tiene 100 tablas en el conjunto de datos, el número de columnas disponibles sería 15 900.This means if you have 100 tables in the dataset, the available number of columns would be 15,900. Según la cantidad de datos con la que esté trabajando desde el origen de datos de Spark, es posible que encuentre esta limitación.Depending on the amount of data you are working with from your Spark data source, you may encounter this limitation.

Solución de problemasTroubleshooting

Si tiene problemas para ejecutar consultas en el grupo, compruebe que la aplicación se sigue ejecutando y reinicie si es necesario.If you're hitting issues executing queries against your cluster, verify the application is still running and restart if necessary.

También pueden asignar recursos adicionales en Azure Portal en Configuración > Escalar clúster:You can also allocate additional resources within the Azure portal under Configuration > Scale Cluster:

Pasos siguientesNext steps

Introducción: creación de clústeres Apache Spark en HDInsight para Linux y ejecución de consultas interactivas mediante Spark SQLGet started: Create Apache Spark cluster on HDInsight Linux and run interactive queries using Spark SQL
Introducción a Power BIGet started with Power BI
Obtener datos para Power BIGet Data for Power BI
¿Tiene más preguntas?More questions? Pruebe la comunidad de Power BITry the Power BI Community