轉換 Azure Data Factory 和 Azure Synapse Analytics 中的數據

適用於: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的單一分析解決方案。 Microsoft Fabric 涵蓋從數據移動到數據科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

從 2021 年 12 月 1 日起,您將無法建立新的 機器學習 Studio (傳統) 資源 (工作區和 Web 服務方案)。 到 2024 年 8 月 31 日,您可以繼續使用現有的 機器學習 Studio(傳統版) 實驗和 Web 服務。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

概觀

本文說明 Azure Data Factory 和 Synapse 管線中的數據轉換活動,可讓您用來轉換和處理原始數據,以大規模地將預測和深入解析。 轉換活動會在計算環境中執行,例如 Azure Databricks 或 Azure HDInsight。 它會提供文章的連結,其中包含每個轉換活動的詳細資訊。

服務支援下列數據轉換活動,這些活動可以個別新增至 管線 ,或與另一個活動鏈結。

使用數據流在 Azure Data Factory 和 Azure Synapse Analytics 中原生轉換

對應數據流

對應數據流是在 Azure Data Factory 和 Azure Synapse 中以可視化方式設計的數據轉換。 數據流可讓數據工程師在不撰寫程式代碼的情況下開發圖形化數據轉換邏輯。 產生的數據流會在使用向外延展 Spark 叢集的管線內執行為活動。 數據流活動可以透過服務內現有的排程、控制、流程和監視功能來運作。 如需詳細資訊,請參閱 對應數據流

資料整頓

Azure Data Factory 中的 Power Query 可啟用雲端規模數據整頓,這可讓您反覆執行雲端規模的無程式代碼數據準備。 數據整頓會與 Power Query Online 整合,並讓 Power Query M 函式可透過 Spark 執行,在雲端規模進行數據整頓。 如需詳細資訊,請參閱 Azure Data Factory 中的數據整頓。

注意

Power Query 目前僅在 Azure Data Factory 中受到支援,而不是在 Azure Synapse 中支援。 如需每個服務中支援的特定功能清單,請參閱 Azure Data Factory 和 Azure Synapse Analytics 管線中的可用功能。

外部轉換

或者,您可以自行手動處理程式代碼轉換及管理外部計算環境。

HDInsight Hive 活動

管線中的 HDInsight Hive 活動會在您自己的或隨選 Windows/Linux 型 HDInsight 叢集上執行 Hive 查詢。 如需此活動的詳細資訊,請參閱 Hive活動 文章。

HDInsight Pig 活動

管線中的 HDInsight Pig 活動會在您自己的或隨選 Windows/Linux 型 HDInsight 叢集上執行 Pig 查詢。 如需此活動的詳細資訊,請參閱 Pig 活動 文章。

HDInsight MapReduce 活動

管線中的 HDInsight MapReduce 活動會在您自己的或隨選 Windows/Linux 型 HDInsight 叢集上執行 MapReduce 程式。 如需此活動的詳細資訊,請參閱 MapReduce 活動 文章。

HDInsight 串流活動

管線中的 HDInsight 串流活動會在您自己的或隨選 Windows/Linux 型 HDInsight 叢集上執行 Hadoop 串流程式。 如需此活動的詳細資訊,請參閱 HDInsight 串流活動

HdInsight Spark 活動

管線中的 HDInsight Spark 活動會在您自己的 HDInsight 叢集上執行 Spark 程式。 如需詳細資訊,請參閱 使用 Azure Data Factory 或 Azure Synapse Analytics 叫用 Spark 程式。

ML Studio (傳統) 活動

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

從 2021 年 12 月 1 日起,您將無法建立新的 機器學習 Studio (傳統) 資源 (工作區和 Web 服務方案)。 到 2024 年 8 月 31 日,您可以繼續使用現有的 機器學習 Studio(傳統)實驗和 Web 服務。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

此服務可讓您輕鬆地建立管線,以使用已發佈的 ML Studio(傳統)Web 服務進行預測性分析。 在管線中使用批次執行活動,您可以叫用 Studio (傳統) Web 服務,對批次中的數據進行預測。

經過一段時間后,Studio(傳統)評分實驗中的預測模型必須使用新的輸入數據集重新定型。 完成重新定型之後,您想要使用重新定型的機器學習模型來更新評分 Web 服務。 您可以使用 更新資源活動 ,以新定型的模型來更新 Web 服務。

如需這些 Studio (傳統) 活動的詳細資訊,請參閱 使用 ML Studio (傳統) 活動

預存程序活動

您可以使用 Data Factory 管線中的 SQL Server 預存程式活動,在下列其中一個數據存放區中叫用預存程式:Azure SQL 資料庫、Azure Synapse Analytics、您企業中的 SQL Server 資料庫或 Azure VM。 如需詳細資訊,請參閱 預存程式活動 一文。

Data Lake Analytics U-SQL 活動

Data Lake Analytics U-SQL 活動會在 Azure Data Lake Analytics 叢集上執行 U-SQL 腳本。 如需詳細資訊,請參閱 數據分析U-SQL活動 一文。

Azure Synapse Notebook 活動

Synapse 管線中的 Azure Synapse Notebook 活動會在 Azure Synapse 工作區中執行 Synapse Notebook。 請參閱 執行 Azure Synapse 筆記本來轉換數據。

Databricks Notebook 活動

管線中的 Azure Databricks Notebook 活動會在 Azure Databricks 工作區中執行 Databricks Notebook。 Azure Databricks 是執行 Apache Spark 的受控平臺。 請參閱 執行 Databricks 筆記本來轉換數據。

Databricks Jar 活動

管線中的 Azure Databricks Jar 活動會在 Azure Databricks 叢集中執行 Spark Jar。 Azure Databricks 是執行 Apache Spark 的受控平臺。 請參閱 在 Azure Databricks 中執行 Jar 活動來轉換數據。

Databricks Python 活動

管線中的 Azure Databricks Python 活動會在 Azure Databricks 叢集中執行 Python 檔案。 Azure Databricks 是執行 Apache Spark 的受控平臺。 請參閱 在 Azure Databricks 中執行 Python 活動來轉換數據。

自訂活動

如果您需要以 Data Factory 不支援的方式轉換數據,您可以使用自己的數據處理邏輯建立自定義活動,並使用管線中的活動。 您可以設定自定義 .NET 活動,以使用 Azure Batch 服務或 Azure HDInsight 叢集來執行。 如需詳細資訊,請參閱 使用自定義活動 一文。

您可以建立自定義活動,在已安裝 R 的 HDInsight 叢集上執行 R 腳本。 請參閱 使用 Azure Data Factory 和 Synapse 管線執行 R 腳本。

計算環境

您可以為計算環境建立連結服務,然後在定義轉換活動時使用連結服務。 有兩種支持的計算環境類型。

  • 隨選:在此情況下,運算環境完全由服務管理。 服務會在提交作業以處理數據並在作業完成時移除之前,由服務自動建立。 您可以設定和控制隨選計算環境的細微設定,以進行作業執行、叢集管理和啟動載入動作。
  • 自備:在此情況下,您可以將自己的運算環境(例如 HDInsight 叢集)註冊為鏈接服務。 計算環境是由您管理,服務會使用它來執行活動。

請參閱 計算連結服務 一文,以瞭解支持的計算服務。

如需使用轉換活動的範例,請參閱下列教學課程: 教學課程:使用Spark轉換數據