Partager via


Bonnes pratiques de traçabilité des données Microsoft Purview

La traçabilité des données est généralement comprise comme le cycle de vie qui couvre l’origine des données et où elles se déplacent au fil du temps dans le patrimoine de données. Microsoft Purview peut capturer la traçabilité des données dans différentes parties du patrimoine de données de votre organization et à différents niveaux de préparation, notamment :

  • Données brutes intermédiaires à partir de différentes plateformes
  • Données transformées et préparées
  • Données utilisées par les plateformes de visualisation

Pourquoi avez-vous besoin d’adopter lignage ?

La traçabilité des données est le processus qui consiste à décrire quelles données existent, où elles sont stockées et comment elles circulent entre les systèmes. Il existe de nombreuses raisons pour lesquelles la traçabilité des données est importante, mais à un niveau élevé, elles peuvent toutes se résumer à trois catégories que nous allons explorer ici :

  • Suivre les données dans les rapports
  • Analyse d’impact
  • Capturer les modifications et l’emplacement où les données se trouvent tout au long du cycle de vie des données

Azure Data Factory bonnes pratiques et considérations relatives à la traçabilité

Azure Data Factory instance

  • La traçabilité des données n’est pas signalée automatiquement au catalogue tant que le status de connexion Data Factory n’est pas connecté. Le reste de status Disconnected et CannotAccess ne peuvent pas capturer la traçabilité.

    Capture d’écran montrant une liste de connexions data factory.

  • Chaque instance Data Factory ne peut se connecter qu’à un seul compte Microsoft Purview. Vous pouvez établir une nouvelle connexion dans un autre compte Microsoft Purview, mais la connexion existante sera alors déconnectée.

    Capture d’écran montrant un avertissement de déconnexion Azure Data Factory.

  • L’identité managée de Data Factory est utilisée pour authentifier les opérations push de traçabilité dans le compte Microsoft Purview. L’identité managée de la fabrique de données a besoin du rôle Conservateur de données sur la collection racine Microsoft Purview.

  • Actuellement, seules 10 fabriques de données peuvent être connectées à la fois. Si vous souhaitez ajouter plus de 10 fabriques de données, ajoutez 10 nouvelles connexions data factory à la fois à l’aide de l’Assistant ou utilisez l’API pour connecter plus de 10 fabriques de données en une seule opération.

activités Azure Data Factory

  • Microsoft Purview capture la traçabilité du runtime à partir des activités Azure Data Factory suivantes :

  • Microsoft Purview supprime la traçabilité si la source ou la destination utilise un système de stockage de données non pris en charge.

  • Microsoft Purview ne peut pas capturer la traçabilité si Azure Data Factory’activité de copie utilise les fonctionnalités de l’activité de copie répertoriées dans Limitations sur la traçabilité de l’activité de copie de Connexion à Azure Data Factory

  • Pour la traçabilité de l’activité de flux de données, Microsoft Purview prend uniquement en charge la source et le récepteur. La traçabilité pour la transformation de flux de données n’est pas encore prise en charge.

  • La traçabilité du flux de données ne s’intègre pas à l’ensemble de ressources Microsoft Purview. Exemple de jeu de ressources :
    Nom qualifié : https://myblob.blob.core.windows.net/sample-data/data{N}.csv Nom d’affichage : « data »

  • Pour la traçabilité de l’activité Exécuter le package SSIS, nous prenons uniquement en charge la source et la destination. La traçabilité de la transformation n’est pas encore prise en charge.

    Capture d’écran de l’exécution de la traçabilité SSIS dans Microsoft Purview.

  • Reportez-vous au guide pas à pas suivant pour envoyer (push) Azure Data Factory traçabilité dans Microsoft Purview.

Prochaines étapes