Scénarios d’utilisation de Power BI : préparation des données en libre-service

Notes

Cet article fait partie de la série d’articles sur la planification de l’implémentation de Power BI. Cette série se concentre principalement sur la charge de travail Power BI au sein de Microsoft Fabric. Pour une introduction à la série, consultez Planification de la mise en œuvre de Power BI.

La préparation des données (parfois appelée ETL, qui est un acronyme pour l’extraction, la transformation et la charge) implique souvent une quantité importante de travail en fonction de la qualité et de la structure des données sources. Le scénario d’utilisation de la préparation des données en libre-service se concentre sur la réutilisation des activités de préparation des données par les analystes métier. Il atteint cet objectif de réutilisation en déplaçant le travail de préparation des données de Power Query (au sein de fichiers Power BI Desktop individuels) vers Power Query Online (à l’aide d’un flux de données Power BI). La centralisation de la logique permet d’obtenir une source unique de la vérité et de réduire le niveau d’effort requis par d’autres créateurs de contenu.

Les flux de données sont créés à l’aide de Power Query Online dans l’un des différents outils suivants : service Power BI, Power Apps ou Dynamics 365 Customer Insights. Un flux de données créé dans Power BI est appelé flux de données analytique. Les flux de données créés dans Power Apps peuvent être l’un des deux types : standard ou analytique. Ce scénario couvre uniquement l’utilisation d’un flux de données Power BI créé et géré dans le service Power BI.

Notes

Le scénario de préparation des données en libre-service est l’un des scénarios du décisionnel en libre-service. Pour obtenir la liste complète des scénarios libre-service, consultez l’article Scénarios d’utilisation de Power BI.

Par souci de concision, certains aspects décrits dans la rubrique Scénarios de collaboration et de distribution de contenu ne sont pas abordés dans cet article. Pour une couverture complète, lisez d’abord ces articles.

Schéma du scénario

Le schéma suivant présente une vue d’ensemble générale des actions utilisateur les plus courantes et des composants Power BI prenant en charge la préparation des données en libre-service. L'objectif principal est de créer un flux de données dans Power Query Online qui devient une source de données pour plusieurs modèles sémantiques (anciennement appelés ensembles de données). L'objectif est que de nombreux modèles sémantiques exploitent la préparation des données effectuée une fois par le flux de données.

Diagram shows self-service data preparation, which is about dataflows for centralizing data cleansing and transformation work. Items in the diagram are described in the table below.

Conseil

Nous vous encourageons à télécharger le diagramme de scénario si vous souhaitez l’incorporer dans votre présentation, documentation ou billet de blog ou encore l’imprimer en tant qu’affiche murale. Étant donné qu’il s’agit d’une image SVG (Scalable Vector Graphics), vous pouvez la mettre à l’échelle vers le haut ou vers le bas sans aucune perte de qualité.

Le diagramme de scénario décrit les actions utilisateur, outils et fonctionnalités qui suivent :

Item Description
Item 1. Le créateur de flux de données développe une collection de tables au sein d’un flux de données Power BI. Pour un flux de données destiné à être réutilisé, il est courant (mais pas obligatoire) que le créateur appartienne à une équipe centralisée qui assiste les utilisateurs au-delà des frontières de l’organisation (comme le service informatique, le décisionnel d’entreprise ou le centre d’excellence).
Item 2. Le modèle de données se connecte aux données d’une ou plusieurs sources de données.
Item 3. Certaines sources de données peuvent nécessiter une passerelle de données locale ou une passerelle de réseau virtuel pour l’actualisation des données, comme celles qui résident dans un réseau d’organisation privé. Ces passerelles sont utilisées à la fois pour créer le flux de données dans Power Query Online, qui est une version web de Power Query et actualiser le flux de données.
Item 4. Les flux de données sont développés à l'aide de Power Query Online. L’interface Power Query familière dans Power Query Online facilite la transition de Power BI Desktop.
Item 5. Le flux de données est enregistré en tant qu’élément dans un espace de travail dédié au stockage et à la sécurisation des flux de données. Une planification d’actualisation du flux de données est nécessaire pour conserver les données actuelles (non représentées dans le diagramme de scénario).
Item 6. Le flux de données peut être réutilisé comme source de données par les créateurs de contenu et par d'autres modèles sémantiques pouvant résider dans différents espaces de travail.
Item 7. Le créateur du modèle sémantique développe un nouveau modèle de données à l'aide de Power BI Desktop. Le créateur du modèle sémantique peut utiliser toutes les fonctionnalités de Power Query dans Power BI Desktop. Il peut éventuellement appliquer d’autres étapes de requête pour transformer davantage les données de flux de données ou fusionner la sortie du flux de données.
Item 8. Une fois prêt, le créateur du modèle sémantique publie le fichier Power BI Desktop (.pbix) qui contient le modèle de données sur le service Power BI. L'actualisation du modèle sémantique est gérée séparément du flux de données (non représenté dans le diagramme de scénario).
Item 9. D'autres créateurs de modèles sémantiques en libre-service peuvent créer de nouveaux modèles de données dans Power BI Desktop en utilisant le flux de données comme source de données.
Item 10. Dans le portail d’administration, les administrateurs Power BI peuvent configurer connexions Azure pour stocker des données de flux de données dans leur compte Azure Data Lake Storage Gen2 (ADLS Gen2). Les paramètres incluent l’attribution d’un compte de stockage au niveau de l’abonné et l’activation des autorisations de stockage au niveau de l’espace de travail.
Item 11. Les administrateurs Power BI gèrent les paramètres dans le portail Administrateur.
Item 12. Par défaut, les flux de données stockent les données à l’aide du stockage interne géré par le service Power BI. Si vous le souhaitez, la sortie des données par le flux de données peut être stockée dans le compte ADLS Gen2 de l’organisation. Ce type de stockage est parfois appelé apporter votre propre lac de données. L’avantage de stocker des données de flux de données dans le lac de données est qu’elle est accessible et consommée par d’autres outils décisionnels.
Item 13. Les données de flux de données dans ADLS Gen2 sont stockées dans un conteneur spécifique à Power BI appelé système de fichiers. Dans ce conteneur, un dossier existe pour chaque espace de travail. Un sous-dossier est créé pour chaque flux de données, ainsi que pour chaque table. Power BI génère un instantané chaque fois que les données de flux de données sont actualisées. Les instantanés sont auto-descriptifs, comprenant des métadonnées et des fichiers de données.
Item 14. Les administrateurs Azure gèrent les autorisations pour le compte ADLS Gen2 de l’organisation.
Item 15. Les administrateurs Power BI supervisent et analysent l’activité du service Power BI.

Conseil

Nous vous recommandons également de passer en revue le scénario d’utilisation de la préparation avancée des données. Celui-ci s’appuie sur les concepts présentés dans ce scénario.

Points clés

Voici quelques points clés à signaler concernant le scénario de préparation des données en libre-service.

Dataflows

Un flux de données comprend une collection de tables (également appelées entités). Tout le travail de création d’un flux de données est effectué dans Power Query Online. Vous pouvez créer des flux de données dans plusieurs produits, notamment Power Apps, Dynamics 365 Customer Insights et Power BI.

Notes

Vous ne pouvez pas créer de flux de données dans un espace de travail personnel dans le service Power BI.

Soutenir les créateurs de modèles sémantiques

Le diagramme de scénario décrit l'utilisation d'un flux de données Power BI pour fournir des données préparées à d'autres créateurs de modèles sémantiques en libre-service.

Remarque

Le modèle sémantique utilise le flux de données comme source de données. Un rapport ne peut pas se connecter directement à un flux de données.

Voici quelques avantages de l’utilisation de flux de données Power BI :

  • Les créateurs de modèles sémantiques utilisent la même interface Power Query familière que celle trouvée dans Power BI Desktop.
  • La logique de préparation et de transformation des données définie par un flux de données peut être réutilisée plusieurs fois, car elle est centralisée.
  • Lorsque des modifications logiques de la préparation des données sont apportées au flux de données, cela peut ne pas nécessiter la mise à jour des modèles de données dépendants. La suppression ou le changement de noms de colonnes ou la modification des types de données de colonne, nécessite la mise à jour des modèles de données dépendants.
  • Les données préparées à l'avance peuvent facilement être mises à la disposition des créateurs de modèles sémantiques Power BI. La réutilisation est particulièrement utile pour les tables couramment utilisées, notamment les tables de dimension, telles que la date, le client et le produit.
  • Le niveau d'effort requis par les créateurs de modèles sémantiques est réduit car le travail de préparation des données a été découplé du travail de modélisation des données.
  • Moins de créateurs de modèles sémantiques ont besoin d’un accès direct aux systèmes sources. Les systèmes sources peuvent être complexes à interroger et nécessiter des autorisations d’accès spécialisées.
  • Le nombre d'actualisations exécutées sur les systèmes sources est réduit car les actualisations du modèle sémantique se connectent aux flux de données, et non aux systèmes sources à partir desquels les flux de données extraient les données.
  • Les données Dataflow représentent un instantané dans le temps et favorisent la cohérence lorsqu'elles sont utilisées par de nombreux modèles sémantiques.
  • Le découplage de la logique de préparation des données dans les flux de données peut contribuer à améliorer le succès de l’actualisation du modèle sémantique. Si une actualisation du flux de données échoue, les modèles sémantiques seront actualisés en utilisant la dernière actualisation réussie du flux de données.

Conseil

Créez des tables de flux de données en appliquant des principes de conception de schéma en étoile. Une conception de schéma en étoile est bien adaptée à la création de modèles sémantiques Power BI. En outre, affinez la sortie du flux de données pour appliquer des noms conviviaux et utiliser des types de données spécifiques. Ces techniques favorisent la cohérence des modèles sémantiques dépendants et contribuent à réduire la quantité de travail que les créateurs de modèles sémantiques doivent effectuer.

Flexibilité du créateur de modèle sémantique

Lorsqu’un créateur de modèle sémantique se connecte à un flux de données dans Power BI Desktop, il n’est pas limité à utiliser la sortie exacte du flux de données. Il dispose toujours des fonctionnalités complètes de Power Query disponibles. Cette fonctionnalité est utile si un travail de préparation des données supplémentaire est nécessaire ou si les données nécessitent une transformation supplémentaire.

Fonctionnalités avancées du flux de données

Il existe de nombreuses techniques, modèles et meilleures pratiques de conception des flux de données, les prenant en charge du libre-service à l’adaptation au monde de l’entreprise. Les flux de données d’un espace de travail dont le mode de licence est défini sur Premium par utilisateur ou Premium par capacité peuvent bénéficier de fonctionnalités avancées.

Notes

L’une des fonctionnalités avancées est l’actualisation incrémentielle pour les flux de données. Bien que l’actualisation incrémentielle des modèles sémantiques soit une fonctionnalité Power BI Pro, l’actualisation incrémentielle des flux de données est une fonctionnalité Premium.

Pour en savoir plus sur les fonctionnalités avancées du flux de données, consultez le scénario d’utilisation de la préparation avancée des données.

Actualisation du flux de données et du modèle sémantique

Comme mentionné précédemment, un flux de données est une source de données pour les modèles sémantiques. Dans la plupart des cas, plusieurs planifications d'actualisation des données sont impliquées : une pour le flux de données et une pour chaque modèle sémantique. Alternativement, il est possible d'utiliser DirectQuery du modèle sémantique vers le dataflow, qui est une fonctionnalité Premium (non représentée dans le diagramme de scénario).

Azure Data Lake Storage Gen2

Dans Microsoft Azure, un compte ADLS Gen2 est un type spécifique de compte de stockage Azure sur lequel l’espace de noms hiérarchique est activé. ADLS Gen2 présente des avantages en matière de performances, de gestion et de sécurité pour l’exploitation des charges de travail analytiques. Par défaut, les flux de données Power BI utilisent un stockage interne, qui est un compte de lac de données intégré géré par le service Power BI. Si vous le souhaitez, les organisations peuvent apporter leur propre lac de données en se connectant au compte ADLS Gen2 de leur organisation.

Voici quelques avantages de l’utilisation du compte Lac de données de l’organisation :

  • Les données stockées par un flux de données Power BI peuvent (éventuellement) être accessibles à partir du lac de données par d’autres utilisateurs ou processus. Cela est utile lorsque la réutilisation du flux de données se produit au-delà de Power BI. Par exemple, les données sont accessibles par Azure Data Factory.
  • Les données du lac de données peuvent (éventuellement) être gérées par d’autres outils ou systèmes. Dans ce cas, Power BI peut consommer les données plutôt que de les gérer (non représentées dans le diagramme de scénario).

Stockage au niveau de l’abonné

La section Connexions Azure du portail Administrateur inclut un paramètre permettant de configurer une connexion à un compte ADLS Gen2. La configuration de ce paramètre permet d’apporter votre propre lac de données. Une fois configuré, vous pouvez définir des espaces de travail pour utiliser ce compte du lac de données.

Important

La définition des connexions Azure ne signifie pas que tous les flux de données de l’abonné Power BI sont stockés dans ce compte par défaut. Pour utiliser un compte de stockage explicite (au lieu du stockage interne), chaque espace de travail doit être spécifiquement connecté.

Il est essentiel de définir les connexions Azure de l’espace de travail avant de créer des flux de données dans l’espace de travail. Le même compte de stockage Azure est utilisé pour les sauvegardes du modèle sémantique Power BI.

Stockage au niveau de l’espace de travail

Un administrateur Power BI peut configurer un paramètre pour autoriser les autorisations de stockage au niveau de l’espace de travail (dans la section Connexions Azure du portail Administrateur). Lorsqu’il est activé, ce paramètre permet aux administrateurs de l’espace de travail d’utiliser un compte de stockage différent de celui défini au niveau de l’abonné. L’activation de ce paramètre est particulièrement utile pour les unités commerciales décentralisées qui gèrent leur propre lac de données dans Azure.

Notes

L’autorisation de stockage au niveau de l’espace de travail dans le portail Administrateur s’applique à tous les espaces de travail de l’abonné Power BI.

Format Common Data Model

Les données d’un compte ADLS Gen2 sont stockées dans la structure CDM (Common Data Model). La structure CDM est un format de métadonnées qui détermine la façon dont le schéma auto-descriptif, ainsi que les données, est stocké. La structure CDM permet la cohérence sémantique dans un format standardisé pour le partage de données entre de nombreuses applications (non représentée dans le diagramme de scénario).

Publier dans des espaces de travail distincts

Il existe plusieurs avantages à publier un flux de données dans un espace de travail distinct de l'endroit où sont stockés les modèles sémantiques dépendants. L’un des avantages est de savoir qui est responsable de la gestion des types de contenu (si des personnes différentes gèrent différentes responsabilités). Un autre avantage est que des autorisations d’espace de travail spécifiques peuvent être attribuées pour chaque type de contenu.

Notes

Vous ne pouvez pas créer de flux de données dans un espace de travail personnel dans le service Power BI.

Le scénario d’utilisation de la préparation avancée des données décrit comment configurer plusieurs espaces de travail pour offrir une meilleure flexibilité lors de la prise en charge des créateurs en libre-service au niveau de l’entreprise.

Configuration de la passerelle

En règle générale, une passerelle de données locale est nécessaire pour se connecter aux sources de données qui résident dans un réseau d’organisation privé ou dans un réseau virtuel.

Une passerelle de données est requise lors de :

  • la création d’un flux de données dans Power Query Online qui se connecte aux données d’organisation privées ;
  • l’actualisation d’un flux de données qui se connecte aux données d’organisation privées.

Conseil

lux de données nécessitent une passerelle de données centralisée en mode standard. Une passerelle en mode personnel n’est pas prise en charge lors de l’utilisation de flux de données.

Supervision du système

Le journal d’activité enregistre les activités utilisateur qui se produisent dans le service Power BI. Les administrateurs de Power BI peuvent utiliser les données du journal d’activité qui sont collectées pour effectuer un audit afin de les aider à comprendre les modèles d’utilisation et l’adoption. Le journal des activités est également précieux pour soutenir les efforts de gouvernance, les audits de sécurité et les exigences de conformité. Avec un scénario de préparation des données en libre-service, il est particulièrement utile de suivre l’utilisation des flux de données.

L’article suivant de la série aborde le scénario d’utilisation de la préparation avancée des données.