了解適用於 U-SQL 開發人員的 Apache Spark

重要

Azure Data Lake Analytics 於 2024 年 2 月 29 日淘汰。 使用此公告深入瞭解。

針對數據分析,您的組織可以使用 Azure Synapse AnalyticsMicrosoft Fabric

Microsoft 支持數個分析服務,例如 Azure DatabricksAzure HDInsight 和 Azure Data Lake Analytics。 我們得知開發人員在組建分析管線時,明顯偏好開放原始碼解決方案。 為了協助 U-SQL 開發人員了解 Apache Spark,以及您如何將 U-SQL 指令碼轉換為 Apache Spark,我們建立本指導。

其中包含您可以採取的步驟,以及數個替代方案。

將 U-SQL 轉換為 Apache Spark 的步驟

  1. 轉換作業協調流程管線。

    如果您使用 Azure Data Factory 來協調 Azure Data Lake Analytics 腳本,則必須調整它們以協調新的 Spark 程式。

  2. 瞭解 U-SQL 和 Spark 如何管理資料之間的差異。

    如果您想要將數據從 Azure Data Lake Storage Gen1 移至 Azure Data Lake Storage Gen2,則必須複製檔案資料和目錄維護的數據。 Azure Data Lake Analytics 僅支援 Azure Data Lake Storage Gen1。 如需詳細資訊,請參閱 瞭解Spark數據格式

  3. 將 U-SQL 指令碼轉換為 Spark。

    轉換U-SQL 文稿之前,您必須選擇分析服務。 一些可用的計算服務如下:

    • Azure Data Factory 資料流程 對應資料流程是視覺化設計的資料轉換,可讓資料工程師不需要撰寫程式碼,就能開發圖形化資料轉換邏輯。 雖然不適合執行複雜的使用者程式碼,但可以輕鬆代表傳統類似 SQL 的資料流程轉換
    • Azure HDInsight Hive HDInsight 上的 Apache Hive 適用於擷取、轉換和載入 (ETL) 作業。 這表示您要將U-SQL腳本轉譯為Apache Hive。
    • Apache Spark 引擎,例如 Azure HDInsight SparkAzure Databricks 這表示您要將 U-SQL 腳本轉譯為 Spark。 如需詳細資訊,請參閱了解 Spark 資料格式

警告

Azure DatabricksAzure HDInsight Spark 都是叢集服務,而不是 Azure Data Lake Analytics 之類的無伺服器作業。 您必須考慮如何佈建叢集以獲得適當的成本效益比,以及如何管理其存留期使成本降至最低。 這些服務的效能特性不同於以 .NET 撰寫的使用者程式碼,因此,您必須以支援的語言撰寫包裝函式或重寫程式碼。 如需詳細資訊,請參閱 瞭解 Spark 數據格式瞭解適用於 U-SQL 開發人員的 Apache Spark 程式代碼概念適用於 Apache Spark 的 .NET

下一步