共用方式為


深度學習 (預覽)

Azure Synapse Analytics 中的 Apache Spark 能以巨量資料實現機器學習服務,有能力從大量的結構化、非結構化和快速移動的資料中,取得寶貴的深度見解分析。 在 Azure Synapse Analytics 中使用 Azure Spark 定型機器學習模型時有數個選項:Apache Spark MLlib、Azure Machine Learning,以及各種其他開放原始碼程式庫。

警告

  • GPU 加速預覽僅限於 Apache Spark 3.2(已宣佈終止支援) 運行時間。 已於 2023 年 7 月 8 日宣佈 Azure Synapse Runtime for Apache Spark 3.2 的支持終止。 終止支援宣佈的運行時間不會有 Bug 和功能修正。 安全性修正會根據風險評估進行向後移植。 截至 2024 年 7 月 8 日,Spark 3.2 上的此運行時間和對應的 GPU 加速預覽將會淘汰和停用。
  • Azure Synapse 3.1(不支援)運行時間現在不支援 GPU 加速預覽。 自 2023 年 1 月 26 日起,適用於 Apache Spark 3.1 的 Azure Synapse Runtime 已終止其終止支援,官方支援已於 2024 年 1 月 26 日終止,且無法進一步解決超過此日期的支援票證、錯誤修正或安全性更新。

已啟用 GPU 的 Apache Spark 集區

為了簡化建立和管理集區的流程,Azure Synapse 會負責預先安裝低階程式庫,並設定計算節點之間的所有複雜網路需求。 這種整合可讓使用者在短短幾分鐘內就能開始使用 GPU 加速集區。

注意

  • 您可以在位於美國東部、澳大利亞東部和北歐的工作區中建立 GPU 加速集區。
  • GPU 加速集區僅適用於 Apache Spark 3.1(不支援)和 3.2 運行時間。
  • 您可能必須要求增加限制,才能建立已啟用 GPU 的叢集。

GPU ML 環境

Azure Synapse Analytics 提供深度學習基礎結構的內建支援。 適用於 Apache Spark 3 的 Azure Synapse Analytics 執行階段包括對最常見深度學習程式庫,例如 TensorFlow 和 PyTorch 的支援。 Azure Synapse 執行階段也包含支援通常用於分散式定型的程式庫,例如 Petastorm 和 Horovod。

Tensorflow

TensorFlow 是適用於所有開發人員的開放原始碼機器學習架構。 它用於實作機器學習和深度學習應用程式。

如需 Tensorflow 的詳細資訊,您可以瀏覽 Tensorflow API 文件

PyTorch

PyTorch 是使用 GPU 和 CPU 進行深度學習的最佳化 Tensor 程式庫。

如需 PyTorch 的詳細資訊,您可以瀏覽 PyTorch 文件

Horovod

Horovod 是分散式深度學習定型架構,適用於 TensorFlow、Keras 和 PyTorch。 Horovod 是開發來讓分散式深度學習快速且容易使用。 透過此架構,現有的定型指令碼可以相應增加,只要幾行程式碼就能在數百個 GPU 上執行。 此外,Horovod 可以在 Apache Spark 上執行,以便將資料處理和模型定型整合成單一管線。

若要深入了解如何在 Azure Synapse Analytics 中執行分散式定型作業,您可以瀏覽下列教學課程:- 教學課程:使用 Horovod 和 PyTorch 進行分散式定型 - 教學課程:使用 Horovod 和 Tensorflow 進行分散式定型

如需 Horovod 的詳細資訊,您可以瀏覽 Horovod 文件

Petastorm

Petastorm 是開放原始碼資料存取程式庫,其可啟用深度學習模型的單一節點或分散式定型。 此程式庫可實現直接從 Apache Parquet 格式的資料集和已載入為 Apache Spark DataFrame 的資料集進行定型。 Petastorm 支援熱門的定型架構,例如 Tensorflow 和 PyTorch。

如需 Petastorm 的詳細資訊,您可以瀏覽 Petastorm GitHub 頁面Petastorm API 文件

下一步

本文將概述在 Azure Synapse Analytics 的 Apache Spark 集區中訓練機器學習模型的各種選項。 您可以依照下列教學課程來深入瞭解模型定型: