建立 Azure Machine Learning 計算叢集

發行項
03/28/2024

適用於：Azure CLI ml 延伸模組 v2 (目前)Python SDK azure-ai-ml v2 (目前)

本文說明如何在您的 Azure Machine Learning 工作區中建立和管理計算叢集。

您可以使用 Azure Machine Learning 計算叢集，將定型或批次推斷程序散發到雲端中 CPU 或 GPU 計算節點的叢集。如需包含 GPU 的 VM 大小有關的詳細資訊，請參閱 GPU 最佳化虛擬機器大小。

了解如何：

建立計算叢集。
以低優先順序的 VM 降低計算叢集成本。
為叢集設定受控識別。

注意

請勿建立計算叢集，而是使用無伺服器計算將計算生命週期管理卸載至 Azure Machine Learning。

必要條件

Azure Machine Learning 工作區。如需詳細資訊，請參閱管理 Azure Machine Learning 工作區。
適用於 Machine Learning 服務 (v2) 的 Azure CLI 延伸模組、Azure Machine Learning Python SDK 或 Azure Machine Learning Visual Studio Code 延伸模組。
如果使用 Python SDK，請使用工作區設定您的開發環境。設定環境之後，連結至您的 Python 指令碼中的工作區：

適用於：Python SDK azure-ai-ml v2 (目前)

執行此程式碼以連線至您的 Azure ML 工作區。

在下方的程式碼中替換為您的訂閱識別碼、資源群組名稱和工作區名稱。若要尋找這些值：
1. 登入 Azure Machine Learning Studio。
2. 開啟您要使用的工作區。
3. 在右上方的 Azure Machine Learning 工作室工具列中，選取您的工作區名稱。
4. 將工作區、資源群組和訂閱識別碼的值複製到程式碼。
5. 如果您使用 Studio 中的筆記本，則須複製值、關閉區域並貼上，然後返回複製下一個值。
```
# Enter details of your AML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"
```
```
# get a handle to the workspace
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)
```
ml_client 是工作區的處理常式，用來管理其他資源和作業。

什麼是計算叢集？

Azure Machine Learning 計算叢集是一種受控的計算基礎結構，可讓您輕鬆建立單一或多重節點計算。計算叢集是可以與您工作區中的其他使用者共用的資源。計算會在提交作業時自動相應增加，而且可以放在 Azure 虛擬網路中。計算叢集在虛擬網路中也不支援公用 IP 部署。計算會在容器化環境中執行，並在 Docker 容器中封裝模型的相依性。

計算叢集可在受控虛擬網路環境或 Azure 虛擬網路中安全地執行作業，而無須企業開啟 SSH 連接埠。作業會在容器化環境中執行，並在 Docker 容器中封裝模型的相依性。

限制

您可以在工作區以外的不同區域中建立計算叢集。這項功能目前僅適用於計算叢集，而非計算執行個體。

警告

在與您的工作區或資料存放區不同區域中使用計算叢集時，您可能會看到網路延遲和資料傳輸成本增加。建立叢集以及在叢集上執行作業時，可能會產生延遲和成本。
Azure Machine Learning Compute 有預設限制，例如可配置的核心數目。如需詳細資訊，請參閱管理和要求 Azure 資源的配額。
Azure 可讓您對資源施加鎖定，使其無法被刪除，或處於唯讀狀態。 請勿將資源鎖定套用至包含您工作區的資源群組。將鎖定套用至包含您工作區的資源群組，可防止 Azure Machine Learning 計算叢集的調整作業。如需鎖定資源的詳細資訊，請參閱鎖定資源以防止非預期的變更。

建立

估計時間：約五分鐘。

注意

如果您使用無伺服器計算，則不需要建立計算叢集。

Azure Machine Learning Compute 可以跨回合重複使用。計算可與工作區中的其他使用者共用，並在回合之間保留，且會根據所提交的回合數目以及叢集上設定的 max_nodes 自動擴大或縮小節點。 min_nodes 設定可以控制可用的節點數目下限。

適用於計算叢集建立的專用核心每個區域、VM 系列配額與總計區域配額會統一，並與 Azure Machine Learning 定型計算叢集配額共用。

重要

若要避免在未執行作業時產生費用，請將節點數下限設定為 0。這項設定可讓 Azure Machine Learning 將未使用的節點解除配置。任何大於 0 的值都會保持執行該數量的節點，即使不使用節點也一樣。

未使用時，計算會自動向下調整為零節點。視需要建立專用的虛擬機器以執行您的作業。

使用下列範例建立計算叢集：

若要使用 Python 建立持續性 Azure Machine Learning Compute 資源，請指定 size 和 max_instances 屬性。 Azure Machine Learning 接著會對於其他屬性使用智慧型預設值。

size：Azure Machine Learning Compute 建立的 VM 系列節點。
max_instances：在 Azure Machine Learning Compute 上執行作業時，自動擴大的節點數上限。

適用於：Python SDK azure-ai-ml v2 (目前)

from azure.ai.ml.entities import AmlCompute

cluster_basic = AmlCompute(
    name="basic-example",
    type="amlcompute",
    size="STANDARD_DS3_v2",
    location="westus",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
)
ml_client.begin_create_or_update(cluster_basic).result()

建立 Azure Machine Learning Compute 時，您也可以設定多個進階屬性。這些屬性可讓您建立固定大小的持續性叢集，也可以在您訂用帳戶中現有的 Azure 虛擬網路內建立。如需詳細資料，請參閱 AmlCompute 類別。

警告

設定 location 參數時，如果其在與您的工作區或資料存放區不同的區域，您可能會看到網路延遲和資料傳輸成本增加。建立叢集以及在叢集上執行作業時，可能會產生延遲和成本。

適用於：Azure CLI ml 延伸模組 v2 (目前)

az ml compute create -f create-cluster.yml

其中 create-cluster.yml 檔案為：

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: location-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
location: westus

警告

當您在與您的工作區或資料存放區不同區域中使用計算叢集時，您可能會看到網路延遲和資料傳輸成本增加。建立叢集以及在叢集上執行作業時，可能會產生延遲和成本。

為您的定型、批次推斷或強化學習工作負載，建立單一或多節點計算叢集。

瀏覽至 Azure Machine Learning Studio。
在 [管理] 底下選取 [計算]。
若您沒有任何計算資源，請選取頁面中間的 [建立]。
若顯示計算資源的清單，請選取清單上方的 [新增]。
在頂端的索引標籤中，選取 [計算叢集]。

填寫表單，如下所示：

欄位	描述
Location	計算叢集將在 Azure 區域中建立。根據預設，其與工作區位於相同位置。如果您在預設區域中沒有足夠的配額，請切換至不同的區域以取得更多選項。當使用與您的工作區或資料存放區不同的區域時，您可能會看到網路延遲和資料傳輸成本增加。建立叢集以及在叢集上執行作業時，可能會產生延遲和成本。
虛擬機器類型	選擇 CPU 或 GPU。此類型一經建立即無法變更。
虛擬機器優先順序	選擇 [專用] 或 [低優先順序]。雖然低優先順序的虛擬機器較便宜，但無法保證計算節點。您的作業可能會遭到優先佔用。
虛擬機器大小	受支援的虛擬機器大小可能會在您的區域中受到限制。檢查可用性清單

選取 [下一步] 後繼續進行 [進階設定]，然後再填寫表單，如下所示：

欄位	描述
計算名稱	* 必須具有名稱，且長度必須介於 3 到 24 個字元之間。 * 有效的字元為大寫和小寫字母、數字及 - 符號字元。 * 名稱必須以字母開頭。 * 在 Azure 區域內的所有現有計算中，名稱不得重複。如果所選名稱並非唯一，您將會看到警示。 * 如果使用 - 字元，則名稱後面必須至少接續一個字母。
節點數目下限	您要佈建的節點數目下限。若您要具有專屬數目的節點，請在此處設定該計數。將最小值設定為 0 即可節省成本，因此當叢集閒置時，您無須支付任何節點的費用。
節點數目上限	您要佈建的節點數目上限。當提交工作時，計算會自動調整為此節點計數的最大值。
縮小之前的閒置秒數	將叢集調整至最小節點計數之前的閒置時間。
啟用 SSH 存取	針對計算執行個體，使用與啟用 SSH 存取相同的指示。
進階設定	選擇性。設定網路設定。 * 若為 Azure 虛擬網路，請指定資源群組、虛擬網路，以及子網路，以在網路內建立計算執行個體。如需詳細資訊，請參閱網路需求。 * 若為 Azure Machine Learning 受控網路，則計算叢集會自動位於受控網路中。如需詳細資訊，請參閱使用受控網路的受控計算。 * 無公用 IP 可設定計算叢集在網路中是否有公用 IP 位址。 * 指派受控識別以授與資源存取權。

選取建立。

啟用 SSH 存取

SSH 存取預設為停用狀態。 SSH 存取一經建立即無法變更。若您規劃以互動方式使用 VS Code 遠端執行偵錯，請務必啟用存取。

選取 [下一步: 進階設定] 之後：

開啟 [啟用 SSH 存取]。
在 [SSH 公開金鑰來源] 中，從下拉式清單選取其中一個選項：
- 若您產生新的金鑰組：
  1. 在 [金鑰組名稱] 中輸入金鑰的名稱。
  2. 選取建立。
  3. 選取 [下載私密金鑰並建立計算]。金鑰通常會下載至 [下載] 資料夾。
- 若您選取 [使用儲存於 Azure 的現有公開金鑰]，請搜尋並選取 [已儲存金鑰] 中的金鑰。
- 若您選取 [使用現有的公開金鑰]，請以單行格式或多行 PEM 格式提供 RSA 公開金鑰 (開頭為 "ssh-rsa")。您可以使用 Linux 和 OS X 上的 ssh-keygen，或是 Windows 上的 PuTTYGen 來產生 SSH 金鑰。

使用 SSH 存取連線

建立已啟用 SSH 存取的計算之後，請使用下列步驟進行存取。

在您的工作區資源中尋找計算：
1. 在左側，選取 [計算]。
2. 使用頂端的索引標籤來選取 [計算執行個體] 或 [計算叢集]，以尋找您的電腦。
在資源清單中選取計算名稱。
尋找連接字串：
- 針對計算執行個體，選取 [詳細資訊] 區段頂端的 [連線]。
- 針對計算叢集，選取頂端的 [節點]，然後在資料表中為您的節點選取 [連接字串]。
複製連接字串。
針對 Windows，開啟 PowerShell 或命令提示字元：
1. 移至金鑰儲存所在的目錄或資料夾
2. 將 -i 旗標新增至連接字串，以找出私密金鑰並指向其儲存位置：
  
  ssh -i <keyname.pem> azureuser@... (rest of connection string)
針對 Linux 使用者，請遵循在 Azure 中建立和使用 Linux vm 的 SSH 金鑰組中的步驟
若為 SCP，請使用：

scp -i key.pem -P {port} {fileToCopyFromLocal } azureuser@yourComputeInstancePublicIP:~/{destination}

以低優先順序的 VM 降低計算叢集成本

您也可以選擇使用低優先順序的 VM 來執行部分或所有的工作負載。這些 VM 沒有保證可用性，可能會在使用時被佔用。您必須重新啟動先佔作業。

使用 Azure 低優先順序的虛擬機器可讓您使用 Azure 未使用的容量，大幅節省成本。任何時候只要 Azure 需要這些容量，Azure 基礎結構就會收回 Azure 低優先順序的虛擬機器。因此，Azure 低優先順序的虛擬機器非常適合可處理中斷的工作負載使用。可用容量的數量會根據大小、區域和當日時間等等而有所不同。部署 Azure 低優先順序的虛擬機器時，如果有可用的容量，則 Azure 將會配置 VM，但這些 VM 沒有服務等級協定 (SLA)。 Azure 低優先順序的虛擬機器不提供高可用性保證。任何時候只要 Azure 需要這些容量，Azure 基礎結構就會收回 Azure 低優先順序的虛擬機器。

使用下列任何一種方式來指定低優先順序的 VM：

適用於：Python SDK azure-ai-ml v2 (目前)

from azure.ai.ml.entities import AmlCompute

cluster_low_pri = AmlCompute(
    name="low-pri-example",
    size="STANDARD_DS3_v2",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
    tier="low_priority",
)
ml_client.begin_create_or_update(cluster_low_pri).result()

適用於：Azure CLI ml 延伸模組 v2 (目前)

設定 vm-priority：

az ml compute create -f create-cluster.yml

其中 create-cluster.yml 檔案為：

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: low-pri-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
tier: low_priority

注意

如果您使用無伺服器計算，則不需要建立計算叢集。若要指定低優先順序的無伺服器計算，請在佇列設定中將 job_tier 設定為 Spot。

設定受控身分識別

如需如何使用計算叢集設定受控識別的資訊，請參閱設定 Azure Machine Learning 與其他服務之間的驗證。

疑難排解

在 GA 發行之前就從 Azure 入口網站建立 Azure Machine Learning 工作區的部分使用者，可能會無法在該工作區上建立 AmlCompute。您可以對該服務提出支援要求，或透過入口網站或 SDK 來建立新的工作區，以立即自行解除鎖定。

重要

如果您的計算執行個體或計算叢集是以上述任一系列為基礎，請在淘汰日期之前以另一個 VM 大小重新建立，以避免服務中斷。

這些系列將於 2023 年 8 月 31 日淘汰：

這些系列將於 2024 年 8 月 31 日淘汰：

停滯在調整大小

如果您的 Azure Machine Learning 計算叢集出現停滯調整大小 (0 -> 0) 的節點狀態，這可能是因為 Azure 資源鎖定所致。

Azure 可讓您對資源施加鎖定，使其無法被刪除，或處於唯讀狀態。 鎖定資源可能會導致非預期的結果。 某些看似不會修改資源的作業，實際上需要會被鎖定封鎖的動作。

有了 Azure Machine Learning，將刪除鎖定套用至工作區的資源群組，將會防止 Azure ML 計算叢集的調整作業。若要解決此問題，建議您從資源群組中移除鎖定，並改為將其套用至群組中的個別項目。

重要

請勿將鎖定套用至下列資源：

資源名稱	資源類型
`<GUID>-azurebatch-cloudservicenetworksecurityggroup`	網路安全性群組
`<GUID>-azurebatch-cloudservicepublicip`	公用 IP 位址
`<GUID>-azurebatch-cloudserviceloadbalancer`	負載平衡器

這些資源是用來與計算叢集進行通訊及執行調整規模等作業。從這些資源中移除資源鎖定應該會允許您的計算叢集進行自動調整。

如需資源鎖定的詳細資訊，請參閱鎖定資源以防止非預期的變更。

後續步驟

使用您的計算叢集，以便：