Spark dans HDInsight avec DirectQuerySpark on HDInsight with DirectQuery

Spark dans Azure HDInsight avec DirectQuery vous permet de créer des rapports dynamiques basés sur les données et les métriques déjà présentes dans votre cluster Spark.Spark on Azure HDInsight with DirectQuery allows you to create dynamic reports based on data and metric you already have in your Spark cluster. Avec DirectQuery, les requêtes sont renvoyées à votre cluster Spark Azure HDInsight pendant que vous explorez les données dans l’affichage du rapport.With DirectQuery, queries are sent back to your Azure HDInsight Spark cluster as you explore the data in the report view. Cette fonctionnalité est conseillée aux utilisateurs qui connaissent bien les entités auxquelles ils se connectent.This experience is suggested for users who are familiar with the entities they connect to.

Avertissement

L’actualisation automatique des vignettes a été désactivée pour les vignettes de tableau de bord basées sur les jeux de données Spark.Automatic tile refresh has been disabled for dashboard tiles built on Spark based datasets. Vous pouvez sélectionner Actualiser les vignettes du tableau de bord pour actualiser manuellement.You can select Refresh Dashboard Tiles to refresh manually. Les rapports ne sont pas affectés et doivent rester à jour.Reports are not impacted and should remain up-to-date.

Suivez cette procédure pour vous connecter à votre source de données Spark dans Azure HDInsight à l’aide de DirectQuery dans le service Power BI.You can use the following steps to connect to your Spark on Azure HDInsight data source using DirectQuery within the Power BI service.

  1. Sélectionnez Obtenir des données en bas du volet de navigation gauche.Select Get Data at the bottom of the left navigation pane.

  2. Sélectionnez Bases de données et plus.Select Databases & More.

  3. Sélectionnez le connecteur Spark sur HDInsight , puis choisissez Connect(Se connecter).Select the Spark on HDInsight connector and choose Connect.

  4. Entrez le nom du serveur auquel vous connecter, ainsi que votre nom d’utilisateur et votre mot de passe.Enter the name of the server you want to connect to, as well as your username and password. Le serveur doit toujours être indiqué au format <nom_cluster>.azurehdinsight.net. Pour savoir comment obtenir ces valeurs, voir ci-dessous.The server is always in the form <clustername>.azurehdinsight.net, see more details about finding these values below.

  5. Une fois connecté, un nouveau jeu de données appelé « SparkDataset » s’affiche.Once connected, you'll see a new dataset with named “SparkDataset”. Ce jeu de données est également accessible via la vignette d’espace réservé qui est créée.You can also access the dataset through the placeholder tile that is created.

  6. L’exploration du jeu de données vous permet d’explorer toutes les tables et colonnes de votre base de données.Drilling into the dataset, you can explore all of the tables and columns in your database. La sélection d’une colonne renvoie une requête à la source, créant ainsi dynamiquement votre élément visuel.Selecting a column will send a query back to the source, dynamically creating your visual. Les éléments visuels peuvent être enregistrés dans un nouveau rapport et épinglés dans votre tableau de bord.These visuals can be saved in a new report, and pinned back to your dashboard.

Recherche de vos paramètres Spark sur HDInsightFinding your Spark on HDInsight parameters

Le serveur doit toujours être indiqué sous la forme <nom_cluster>.azurehdinsight.net. Vous pouvez trouver cette valeur dans le portail Azure.The server is always in the form <clustername>.azurehdinsight.net, and can be found in the Azure portal.

Le nom d’utilisateur et le mot de passe sont également indiqués sur le portail Azure.The username and password can also be found in the Azure portal.

LimitesLimitations

Ces points sont susceptibles de changer, car nous travaillons actuellement à améliorer le produit.These restrictions and notes may change as we continue to improve the experiences. Pour plus d’informations, consultez Utiliser les outils BI avec Apache Spark sur Azure HDInsight.Additional documentation can be found at Use BI tools with Apache Spark on Azure HDInsight

  • Le service Power BI prend uniquement en charge la configuration de Spark 2.0 et HDInsight 3.5.The Power BI service only supports a configuration of Spark 2.0 and HDInsight 3.5.
  • Chaque action, telle que la sélection d’une colonne ou l’ajout d’un filtre, renvoie une requête à la base de données. Avant de sélectionner des champs de très grande taille, songez à choisir un type de visuel approprié.Every action such as selecting a column or adding a filter will send a query back to the database – before selecting very large fields, consider choosing an appropriate visual type.
  • Il n’y a pas de Q&R disponible pour les jeux de données DirectQuery.Q&A is not available for DirectQuery datasets.
  • Les modifications apportées aux schémas ne sont pas sélectionnées automatiquement.Schema changes are not picked up automatically.
  • Power BI prend en charge 16 000 colonnes sur toutes les tables au sein d’un jeu de données.Power BI supports 16,000 columns across all tables within a dataset. Power BI inclut également une colonne de numéro de ligne interne par table.Power BI also includes an internal row number column per table. Cela signifie que si votre jeu de données contient 100 tables, le nombre de colonnes disponibles doit être de 15 900.This means if you have 100 tables in the dataset, the available number of columns would be 15,900. Cette limitation peut survenir selon la quantité de données que vous utilisez à partir de votre source de données Spark.Depending on the amount of data you are working with from your Spark data source, you may encounter this limitation.

Résolution des problèmesTroubleshooting

Si vous rencontrez des problèmes pour exécuter des requêtes sur votre cluster, vérifiez que l’application n’est pas arrêtée et, si c’est le cas, redémarrez-la.If you're hitting issues executing queries against your cluster, verify the application is still running and restart if necessary.

Vous pouvez également allouer des ressources supplémentaires au sein du portail Azure sous Configuration > Mettre le cluster à l’échelle :You can also allocate additional resources within the Azure portal under Configuration > Scale Cluster:

Étapes suivantesNext steps

Bien démarrer : Créer un cluster Apache Spark sur HDInsight Linux et exécuter des requêtes interactives à l’aide de Spark SQLGet started: Create Apache Spark cluster on HDInsight Linux and run interactive queries using Spark SQL
Prise en main de Power BIGet started with Power BI
Obtenir des données pour Power BIGet Data for Power BI
D’autres questions ?More questions? Posez vos questions à la communauté Power BITry the Power BI Community