監視複製活動

適用于: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

本文概述如何在 Azure Data Factory 和 Synapse 管線中監視複製活動執行。 它會以 複製活動概觀 一文為基礎,提供複製活動的一般概觀。 您也可以使用相同方法來監視使用 複製資料工具 所產生的複製活動,以及 刪除活動

以視覺化方式監視

建立併發布管線之後,您可以將它與觸發程式產生關聯,或手動啟動臨機操作執行。 您可以在使用者體驗中以原生方式監視所有管線執行。 瞭解從 Visually 監視 Azure Data Factory 和 Synapse 管線 的一般監視。

若要監視複製活動執行,請移至您服務實例的 Data Factory Studio Azure Synapse Studio UI。 在 [ 監視] 索引標籤上,您會看到管線執行清單,按一下 管線名稱 連結以存取管線執行中的活動執行清單。

在此層級中,您可以看到複製活動輸入、輸出和錯誤的連結(如果執行複製活動失敗),以及持續時間/狀態等統計資料。 按一下複製活動名稱旁的 [詳細資料 ] 按鈕(眼鏡),即可讓您深入瞭解複製活動執行。

Monitor copy activity run

在此圖形化監視檢視中,服務會提供複製活動執行資訊,包括資料讀取/寫入磁片區、從來源複製到接收的檔案/資料列數目、輸送量、套用至複製案例的設定、複製活動所經歷的步驟,以及對應的持續時間和詳細資料等等。 請參閱這份表格 ,瞭解每個可能的計量及其詳細描述。

在某些情況下,當您執行複製活動時,您會在複製活動監視檢視頂端看到 「效能微調秘訣」 ,如範例所示。 秘訣會告訴您服務針對特定複製執行所識別的瓶頸,以及要變更哪些專案以提升複製輸送量的建議。 深入瞭解 自動效能微調秘訣

底部 的執行詳細資料和持續時間 會說明複製活動所經歷的關鍵步驟,這對於針對複製效能進行疑難排解特別有用。 複製執行的瓶頸是持續時間最長的。 如需 每個階段所代表的內容,以及詳細的疑難排解指引,請參閱針對複製活動效能 進行疑難排解。

範例:從 Amazon S3 複製到 Azure Data Lake 儲存體 Gen2

Monitor copy activity run details

以程式設計方式監視

複製活動執行詳細資料和效能特性也會在 中 傳回複製活動執行結果 > 輸出 區段,用來轉譯 UI 監視檢視。 以下是可能傳回之屬性的完整清單。 您只會看到適用于複製案例的屬性。 如需如何以程式設計方式監視活動執行的詳細資訊,請參閱 以程式設計方式監視 Azure Data Factory 或 Synapse 管線

屬性名稱 描述 輸出中的單位
dataRead 從來源讀取的實際資料量。 Int64 值,以位元組為單位
dataWritten 寫入/認可至接收的實際資料掛接。 大小可能與大小不同 dataRead ,因為它與每個資料存放區儲存資料的方式有關。 Int64 值,以位元組為單位
filesRead 從檔案型來源讀取的檔案數目。 Int64 值 (無單位)
filesWritten 寫入/認可至檔案型接收的檔案數目。 Int64 值 (無單位)
filesSkipped 從檔案型來源略過的檔案數目。 Int64 值 (無單位)
dataConsistencyVerification 資料一致性驗證的詳細資料,您可以在其中查看複製的資料是否已驗證為來源和目的地存放區之間的一致。 請從 本文 深入瞭解。 陣列
sourcePeak連線ions 在複製活動執行期間,與來源資料存放區建立的並行連線尖峰數目。 Int64 值 (無單位)
sinkPeak連線ions 在複製活動執行期間,與接收資料存放區建立的並行連線尖峰數目。 Int64 值 (無單位)
rowsRead 從來源讀取的資料列數目。 此計量不適用於以原始方式複製檔案而不剖析檔案,例如,當來源和接收資料集是二進位格式類型,或是具有相同設定的其他格式類型時。 Int64 值 (無單位)
rowsCopied 複製到接收的資料列數目。 此計量不適用於以原始方式複製檔案而不剖析檔案,例如,當來源和接收資料集是二進位格式類型,或是具有相同設定的其他格式類型時。 Int64 值 (無單位)
rowsSkipped 略過不相容的資料列數目。 您可以將 設定 enableSkipIncompatibleRow 為 true,讓不相容的資料列略過。 Int64 值 (無單位)
copyDuration 複製執行的持續時間。 Int32 值,以秒為單位
throughput 資料傳輸率,由 dataRead 除以 copyDuration 計算。 KBps 中的浮點數
sourcePeak連線ions 在複製活動執行期間,與來源資料存放區建立的並行連線尖峰數目。 Int32 值 (無單位)
sinkPeak連線ions 在複製活動執行期間,與接收資料存放區建立的並行連線尖峰數目。 Int32 值 (無單位)
sqlDwPolyBase 將資料複製到 Azure Synapse Analytics 時,是否使用 PolyBase。 布林值
redshiftUnload 從 Redshift 複製資料時,是否使用 UNLOAD。 布林值
hdfsDistcp 從 HDFS 複製資料時,是否使用 DistCp。 布林值
effectiveIntegrationRuntime 整合執行時間 (IR) 或用來為活動執行提供動力的執行時間,格式為 <IR name> (<region if it's Azure IR>) 文字(字串)
usedDataIntegrationUnits 複製期間的有效資料整合單位。 Int32 值
usedParallelCopies 複製期間的有效 parallelCopies。 Int32 值
logPath Blob 儲存體中略過資料的會話記錄路徑。 請參閱 容錯 文字(字串)
executionDetails 如需複製活動所經歷階段的詳細資料,以及對應的步驟、持續時間、組態等等。 我們不建議您剖析本節,因為它可能會變更。 若要進一步瞭解其如何協助您瞭解和疑難排解複製效能,請參閱 以視覺化方式 監視一節。 陣列
perfRecommendation 複製效能微調秘訣。 如需詳細資訊,請參閱 效能微調秘訣 陣列
billingReference 指定執行的計費耗用量。 若要深入瞭解,請參閱監視 活動執行層級 的耗用量。 Object
durationInQueue 複製活動開始執行前的第二個佇列持續時間。 Object

範例:

"output": {
    "dataRead": 1180089300500,
    "dataWritten": 1180089300500,
    "filesRead": 110,
    "filesWritten": 110,
    "filesSkipped": 0,
    "sourcePeakConnections": 640,
    "sinkPeakConnections": 1024,
    "copyDuration": 388,
    "throughput": 2970183,
    "errors": [],
    "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)",
    "usedDataIntegrationUnits": 128,
    "billingReference": "{\"activityType\":\"DataMovement\",\"billableDuration\":[{\"Managed\":11.733333333333336}]}",
    "usedParallelCopies": 64,
    "dataConsistencyVerification": 
    { 
        "VerificationResult": "Verified", 
        "InconsistentData": "None" 
    },
    "executionDetails": [
        {
            "source": {
                "type": "AmazonS3"
            },
            "sink": {
                "type": "AzureBlobFS",
                "region": "East US",
                "throttlingErrors": 6
            },
            "status": "Succeeded",
            "start": "2020-03-04T02:13:25.1454206Z",
            "duration": 388,
            "usedDataIntegrationUnits": 128,
            "usedParallelCopies": 64,
            "profile": {
                "queue": {
                    "status": "Completed",
                    "duration": 2
                },
                "transfer": {
                    "status": "Completed",
                    "duration": 386,
                    "details": {
                        "listingSource": {
                            "type": "AmazonS3",
                            "workingDuration": 0
                        },
                        "readingFromSource": {
                            "type": "AmazonS3",
                            "workingDuration": 301
                        },
                        "writingToSink": {
                            "type": "AzureBlobFS",
                            "workingDuration": 335
                        }
                    }
                }
            },
            "detailedDurations": {
                "queuingDuration": 2,
                "transferDuration": 386
            }
        }
    ],
    "perfRecommendation": [
        {
            "Tip": "6 write operations were throttled by the sink data store. To achieve better performance, you are suggested to check and increase the allowed request rate for Azure Data Lake Storage Gen2, or reduce the number of concurrent copy runs and other data access, or reduce the DIU or parallel copy.",
            "ReferUrl": "https://go.microsoft.com/fwlink/?linkid=2102534 ",
            "RuleName": "ReduceThrottlingErrorPerfRecommendationRule"
        }
    ],
    "durationInQueue": {
        "integrationRuntimeQueue": 0
    }
}

請參閱其他複製活動文章:

- 複製活動概觀

- 複製活動效能