對應數據流偵錯模式

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費啟動新的試用版

概觀

Azure Data Factory 和 Synapse Analytics 對應數據流的偵錯模式可讓您在建置和偵錯數據流時,以互動方式監看數據圖形轉換。 偵錯會話可以在數據流設計會話和管線偵錯執行數據流期間使用。 若要開啟偵錯模式,請使用 數據流畫布或管線畫布頂端列中的 [數據流 偵錯] 按鈕,當您有數據流活動時。

顯示 [偵錯] 滑桿位置的螢幕快照 1

顯示 [偵錯] 滑桿 2 位置的螢幕快照

開啟滑桿之後,系統會提示您選取要使用的整合運行時間組態。 如果選擇 AutoResolveIntegrationRuntime,則會啟動具有 8 個核心一般計算的叢集,其預設存留時間為 60 分鐘。 如果您想要在會話逾時之前允許更多閑置小組,您可以選擇較高的 TTL 設定。 如需數據流整合運行時間的詳細資訊,請參閱 Integration Runtime 效能

偵錯 IR 選取專案

偵錯模式開啟時,您將使用作用中的Spark叢集以互動方式建置數據流。 關閉偵錯之後,工作階段就會關閉。 您應該知道 Data Factory 在您開啟偵錯工作階段期間所產生的每小時費用。

在大部分情況下,最好以偵錯模式建置數據流,以便您可以在發佈工作之前驗證商業規則並檢視數據轉換。 使用管線面板上的 [偵錯] 按鈕,在管線中測試數據流。

注意

使用者從瀏覽器 UI 啟動的每個偵錯會話,都是具有自己 Spark 叢集的新會話。 您可以使用上一個影像中顯示的偵錯會話監視檢視來檢視和管理偵錯會話。 您需支付每個偵錯會話執行時,包括 TTL 時間的每小時費用。

這段影片剪輯會討論數據流偵錯模式的秘訣、技巧和良好作法。

叢集狀態

當叢集準備好進行偵錯時,設計介面頂端的叢集狀態指示器會變成綠色。 如果您的叢集已經暖和,則綠色指標幾乎會立即出現。 如果您進入偵錯模式時叢集尚未執行,Spark 叢集會執行冷開機。 指標會旋轉,直到環境準備好進行互動式偵錯為止。

當您完成偵錯時,請關閉 [偵錯] 開關,讓您的Spark叢集能夠終止,而且您不會再針對偵錯活動收費。

偵錯設定

開啟偵錯模式之後,您可以編輯資料流預覽數據的方式。 您可以在 [資料流] 畫布工具列上按兩下 [偵錯 設定] 來編輯偵錯設定。 您可以在這裡選取要用於每個來源轉換的數據列限制或檔案來源。 此設定中的數據列限制僅適用於目前的偵錯會話。 您也可以選取要用於 Azure Synapse Analytics 來源的預備連結服務。

偵錯設定

如果您的數據流或任何參考資料集中有參數,您可以選取 [參數 ] 索引標籤來指定偵錯期間要使用的值。

使用這裡的取樣設定來指向範例檔案或數據範例數據表,因此您不需要變更來源數據集。 在這裡使用範例檔案或數據表,您可以在針對數據子集進行測試時,在數據流中維護相同的邏輯和屬性設定。

偵錯設定參數

數據流中用於偵錯模式的預設 IR 是具有 4 核心單一驅動程式節點的小型 4 核心單一背景工作節點。 在測試數據流邏輯時,這適用於較小的數據範例。 如果您在數據預覽期間展開偵錯設定中的數據列限制,或在管線偵錯期間設定來源中較高的取樣數據列數目,則您可能想要考慮在新 Azure Integration Runtime 中設定較大的計算環境。 然後,您可以使用較大的計算環境重新啟動偵錯會話。

資料預覽

偵錯開啟時,[數據預覽] 索引標籤就會在底部面板上亮起。 若未開啟偵錯模式,數據流只會在 [檢查] 索引標籤中顯示每個轉換的目前元數據。數據預覽只會查詢您在偵錯設定中設定為限制的數據列數目。 選取 [ 重新 整理] 以根據您的目前轉換來更新數據預覽。 如果您的源數據已變更,請從來源選取 [重新 > 整理參考]。

資料預覽

您可以使用拖放來排序資料預覽中的數據行和重新排列數據行。 此外,數據預覽面板頂端還有一個導出按鈕,可用來將預覽數據匯出至 CSV 檔案以進行離線數據探索。 您可以使用此功能匯出最多 1,000 個預覽數據列。

注意

檔案來源只會限制您看到的數據列,而不是讀取的數據列。 對於非常大的數據集,建議您接受該檔案的一小部分,並將其用於測試。 您可以針對檔案數據集類型的每個來源,選取 [偵錯] 設定 中的暫存盤。

在數據流的偵錯模式中執行時,您的數據將不會寫入接收轉換。 偵錯會話旨在做為轉換的測試控管。 偵錯期間不需要接收,而且在您的數據流中會被忽略。 如果您想要測試在接收中寫入數據,請從管線執行數據流,並使用管線的偵錯執行。

數據預覽是使用 Spark 記憶體中資料框架的數據列限制和數據取樣所轉換數據的快照集。 因此,在此案例中不會使用或測試接收驅動程式。

注意

數據預覽會根據瀏覽器的地區設定顯示時間。

測試聯結條件

當單元測試聯結、存在或查閱轉換時,請確定您針對測試使用一小組已知數據。 您可以使用先前所述的 [偵錯 設定] 選項,來設定要用於測試的暫存盤。 這是必要的,因為從大型數據集限制或取樣數據列時,您無法預測哪些數據列和哪些索引鍵會讀取到流程中進行測試。 結果不具決定性,這表示您的聯結條件可能會失敗。

快速動作

當您看到資料預覽之後,您可以產生快速轉換,以在數據行上進行類型轉換、移除或進行修改。 選取數據行標頭,然後從數據預覽工具列中選取其中一個選項。

顯示數據預覽工具列的螢幕快照,其中包含選項:Typecast、Modify、Statistics 和 Remove。

選取修改之後,數據預覽會立即重新整理。 選取右上角的 [ 確認 ] 以產生新的轉換。

顯示 [確認] 按鈕的螢幕快照。

TypecastModify 會產生衍生的數據行轉換,而 Remove 會產生 Select 轉換。

顯示衍生數據行 設定的螢幕快照。

注意

如果您編輯數據流,您必須在新增快速轉換之前重新擷取數據預覽。

數據分析

在數據預覽索引標籤中選取資料行,然後按兩下 [資料預覽] 工具列中的 [統計數據 ] 會在資料方格最右邊彈出圖表,其中包含每個欄位的詳細統計數據。 此服務會根據要顯示之圖表類型的數據取樣進行判斷。 高基數位段預設為 NULL/NOT NULL 圖表,而具有低基數的類別和數值數據會顯示顯示資料值頻率的條形圖。 您也可以在數值欄位、標準開發、百分位數、計數和平均值中看到字串欄位的最大/len 長度、最小值/最大值。

資料行統計資料