Superviser une activité de copie

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Cet article décrit comment surveiller l’activité de copie dans Azure Data Factory et les pipelines Synapse. Il s’appuie sur l’article Vue d’ensemble de l’activité de copie. Vous pouvez également surveiller les activités de copie générées avec l’outil Copier des données, ainsi que les activités de suppression à l’aide de la même approche.

Surveiller visuellement

Une fois que vous avez créé et publié un pipeline, vous pouvez l’associer à un déclencheur ou lancer manuellement une exécution ad hoc. Vous pouvez superviser l’ensemble de vos exécutions de pipeline en mode natif dans l’expérience utilisateur. Pour plus d'informations sur la surveillance en général, consultez Surveiller visuellement Azure Data Factory et les pipelines Synapse.

Pour surveiller l’exécution de l’activité de copie, accédez à l’interface utilisateur Data Factory Studio ou Azure Synapse Studio pour votre instance de service. Dans la liste des exécutions de pipeline qui s'affiche sous l'onglet Surveiller, cliquez sur le lien correspondant au nom du pipeline pour accéder à la liste des exécutions d’activités dans l’exécution de pipeline.

À ce niveau, vous pouvez voir des liens pour copier l’entrée, la sortie d'activité et des erreurs (en cas d’échec d’exécution de l’activité de copie), ainsi que des statistiques telles que durée/état. Cliquez sur le bouton Détails (lunettes) en regard du nom de l’activité de copie pour consulter de plus amples informations sur l'exécution de l'activité de copie.

Monitor copy activity run

Dans cette vue de surveillance graphique, le service vous présente les informations d’exécution de l’activité de copie, notamment le volume de données lues/écrites, le nombre de fichiers/lignes de données copiés de la source au récepteur, le débit, les configurations appliquées pour votre scénario de copie, les étapes de l’activité de copie avec les durées et les détails correspondants, et bien plus. Reportez-vous à cette table pour chaque mesure possible et sa description détaillée.

Dans certains scénarios, lorsque vous exécutez une activité de copie, vous voyez des « Conseils sur le réglage des performances » en haut de l'affichage de surveillance de l’activité de copie, comme indiqué dans l’exemple suivant. Les conseils vous indiquent le goulot d’étranglement identifié par le service pour l’exécution de copie spécifique, de même que des suggestions sur ce qui doit être modifié afin d'améliorer le débit de copie. Apprenez-en davantage sur les conseils de réglage automatique des performances.

La partie inférieure Détails et durées d’exécution décrit les étapes clés de l’activité de copie, ce qui est particulièrement utile pour résoudre les problèmes de performances de copie. Le goulot d’étranglement de votre exécution de copie correspond à celui dont la durée est la plus longue. Reportez-vous à Résoudre les problèmes de performances de l’activité de copie pour connaître chaque étape et obtenir des instructions de dépannage détaillées.

Exemple : Copier des données d’Amazon S3 vers Azure Data Lake Storage Gen2

Monitor copy activity run details

Surveiller par programmation

Les détails de l’exécution de l’activité de copie et les caractéristiques de performances sont également retournés dans la section Résultat d’exécution de l’activité de copie>section Sortie, utilisée pour afficher la surveillance IU. Voici une liste complète des propriétés qui peuvent être retournées. Vous ne verrez que les propriétés qui s’appliquent à votre scénario de copie. Pour plus d’informations sur la surveillance des exécutions d’activités par programmation en général, consultez Surveiller par programmation une fabrique de données Azure ou un pipeline Synapse.

Nom de la propriété Description Unité en sortie
dataRead Volume réel de données lues à partir de la source. Valeur Int64, en octets
dataWritten Volume réel des données écrites/validées sur le récepteur. La taille peut être différente de la taille dataRead, car elle indique comment chaque magasin de données stocke les données. Valeur Int64, en octets
filesRead Nombre de fichiers lus à partir de la source basée sur des fichiers. Valeur Int64 (aucune unité)
filesWritten Nombre de fichiers écrits/validés sur le récepteur basé sur des fichiers. Valeur Int64 (aucune unité)
filesSkipped Nombre de fichiers ignorés à partir de la source basée sur des fichiers. Valeur Int64 (aucune unité)
dataConsistencyVerification Détails de la vérification de la cohérence des données où vous pouvez voir si vos données copiées ont été vérifiées pour être cohérentes entre les magasins source et de destination. Apprenez-en plus dans cet article. Array
sourcePeakConnections Nombre maximal de connexions simultanées établies vers le magasin de données source lors de l’exécution de l’activité de copie. Valeur Int64 (aucune unité)
sinkPeakConnections Nombre maximal de connexions simultanées établies vers le magasin de données récepteur lors de l’exécution de l’activité de copie. Valeur Int64 (aucune unité)
rowsRead Nombre de lignes lues à partir de la source. Cette mesure ne s’applique pas lors de la copie de fichiers en l’absence d’analyse, par exemple, lorsque les jeux de données source et de récepteur sont de type binaire, ou d’un autre type de format avec des paramètres identiques. Valeur Int64 (aucune unité)
rowsCopied Nombre de lignes copiées dans le récepteur. Cette mesure ne s’applique pas lors de la copie de fichiers en l’absence d’analyse, par exemple, lorsque les jeux de données source et de récepteur sont de type binaire, ou d’un autre type de format avec des paramètres identiques. Valeur Int64 (aucune unité)
rowsSkipped Nombre de lignes incompatibles qui ont été ignorées. Vous pouvez faire en sorte que les lignes incompatibles soient ignorées en définissant enableSkipIncompatibleRow sur true. Valeur Int64 (aucune unité)
copyDuration Durée de l’exécution de la copie. Valeur Int32, en secondes
throughput Taux de transfert de données, calculé par dataRead divisé par copyDuration. Nombre à virgule flottante, en Kbits/s
sourcePeakConnections Nombre maximal de connexions simultanées établies vers le magasin de données source lors de l’exécution de l’activité de copie. Valeur Int32 (aucune unité)
sinkPeakConnections Nombre maximal de connexions simultanées établies vers le magasin de données récepteur lors de l’exécution de l’activité de copie. Valeur Int32 (aucune unité)
sqlDwPolyBase Indique si PolyBase est utilisé lorsque les données sont copiées dans Azure Synapse Analytics. Boolean
redshiftUnload Indique si UNLOAD est utilisé lorsque les données sont copiées à partir de Redshift. Boolean
hdfsDistcp Indique si DistCp est utilisé lorsque les données sont copiées à partir de HDFS. Boolean
effectiveIntegrationRuntime Runtime d’intégration (IR) ou runtimes utilisés pour alimenter l’exécution de l’activité, au format <IR name> (<region if it's Azure IR>). Texte (chaîne)
usedDataIntegrationUnits Unités d’intégration de données effectives pendant la copie. Valeur Int32
usedParallelCopies Nombre effectif de parallelCopies pendant la copie. Valeur Int32
logPath Chemin d'accès au journal de session des données ignorées dans le stockage d’objets blob. Consultez Tolérance de panne. Texte (chaîne)
executionDetails Détails supplémentaires sur les phases de l’activité de copie et les étapes, durées, configurations, etc. correspondantes. Nous vous déconseillons d’analyser cette section, car elle est susceptible de changer. Pour mieux comprendre combien il est important de bien appréhender et résoudre les problèmes de performances de copie, reportez-vous à la section Surveiller visuellement. Array
perfRecommendation Copier les conseils sur le réglage des performances Pour plus d’informations, consultez Conseils sur le réglage des performances. Array
billingReference Consommation de facturation pour l’exécution donnée. Pour plus d’informations, consultez Superviser la consommation au niveau de l’exécution de l’activité. Object
durationInQueue Durée de mise en file d’attente en secondes avant le début de l’exécution de l’activité de copie. Object

Exemple :

"output": {
    "dataRead": 1180089300500,
    "dataWritten": 1180089300500,
    "filesRead": 110,
    "filesWritten": 110,
    "filesSkipped": 0,
    "sourcePeakConnections": 640,
    "sinkPeakConnections": 1024,
    "copyDuration": 388,
    "throughput": 2970183,
    "errors": [],
    "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)",
    "usedDataIntegrationUnits": 128,
    "billingReference": "{\"activityType\":\"DataMovement\",\"billableDuration\":[{\"Managed\":11.733333333333336}]}",
    "usedParallelCopies": 64,
    "dataConsistencyVerification": 
    { 
        "VerificationResult": "Verified", 
        "InconsistentData": "None" 
    },
    "executionDetails": [
        {
            "source": {
                "type": "AmazonS3"
            },
            "sink": {
                "type": "AzureBlobFS",
                "region": "East US",
                "throttlingErrors": 6
            },
            "status": "Succeeded",
            "start": "2020-03-04T02:13:25.1454206Z",
            "duration": 388,
            "usedDataIntegrationUnits": 128,
            "usedParallelCopies": 64,
            "profile": {
                "queue": {
                    "status": "Completed",
                    "duration": 2
                },
                "transfer": {
                    "status": "Completed",
                    "duration": 386,
                    "details": {
                        "listingSource": {
                            "type": "AmazonS3",
                            "workingDuration": 0
                        },
                        "readingFromSource": {
                            "type": "AmazonS3",
                            "workingDuration": 301
                        },
                        "writingToSink": {
                            "type": "AzureBlobFS",
                            "workingDuration": 335
                        }
                    }
                }
            },
            "detailedDurations": {
                "queuingDuration": 2,
                "transferDuration": 386
            }
        }
    ],
    "perfRecommendation": [
        {
            "Tip": "6 write operations were throttled by the sink data store. To achieve better performance, you are suggested to check and increase the allowed request rate for Azure Data Lake Storage Gen2, or reduce the number of concurrent copy runs and other data access, or reduce the DIU or parallel copy.",
            "ReferUrl": "https://go.microsoft.com/fwlink/?linkid=2102534 ",
            "RuleName": "ReduceThrottlingErrorPerfRecommendationRule"
        }
    ],
    "durationInQueue": {
        "integrationRuntimeQueue": 0
    }
}

Voir les autres articles relatifs à l’activité de copie :

- Vue d’ensemble des activités de copie

- Performances de l’activité de copie