針對 Azure Stack Edge Pro GPU 中的 VM 部署進行疑難排解

適用于: 適用于 pro GPU SKU Azure Stack Edge pro-gpu  是 PRO r Sku Azure Stack Edge Pro R  是迷你 R sku Azure Stack Edge 迷你 r                             

本文說明在 Azure Stack Edge Pro GPU 裝置上部署虛擬機器時,如何針對常見的錯誤進行疑難排解。 本文提供的指引可讓您調查在網路介面和 VM 建立期間造成 VM 布建超時和問題的最常見問題。

若要診斷任何 VM 布建失敗,您將會檢查失敗虛擬機器的來賓記錄。 如需收集 VM 來賓記錄,並將它們包含在支援套件中的步驟,請參閱Azure Stack Edge Pro 上收集 vm 的來賓記錄檔。

如需在 vm 部署之前無法成功上傳 vm 映射之問題的指引,請參閱Azure Stack Edge Pro GPU 中的虛擬機器映射上傳疑難排解。

VM 布建超時

本節提供 VM 布建超時最常見原因的疑難排解。

當 VM 布建超時時,您會看到下列錯誤:

VM 布建超時時所顯示 Azure 入口網站錯誤的螢幕擷取畫面。

下列問題是 VM 布建超時的主要原因:

  • 您指派給 VM 的 IP 位址已在使用中。 深入了解
  • 您用來部署 VM 的 VM 映射未正確備妥。 深入了解
  • 無法從來賓 VM 連線到預設閘道和 DNS 伺服器。 深入了解
  • cloud init 安裝期間, cloud init 可能是未執行,或在執行時發生問題。 僅 (Linux Vm) 深入瞭解
  • 針對使用自訂 VM 映射部署的 Linux VM,/etc/waagent.conf 檔中的布建旗標不正確。 僅 (Linux Vm) 深入瞭解

指派給 VM 的 IP 已在使用中

錯誤描述: 已將已在使用中的靜態 IP 位址指派給 VM,且 VM 布建失敗。 當在部署 VM 的子網中使用 IP 位址時,就會發生此錯誤。 當您透過 Azure 入口網站部署 VM 時,此程式會檢查裝置內是否有現有的 IP 位址,但無法檢查您的子網上其他服務或虛擬機器的 IP 位址。

建議的解決方案: 使用非使用中的靜態 IP 位址,或使用 DHCP 伺服器提供的動態 IP 位址。

若要檢查是否有重複的 IP 位址:

  • ping tnc 從相同網路上的任何設備,執行下列命令並 Test-NetConnection () 命令:

    ping <IP address>
    tnc <IP address>
    tnc <IP address> -CommonTCPPort “RDP”
    

如果您收到回應,則指派給新 VM 的 IP 位址已在使用中。

VM 映射未正確備妥

錯誤描述: 若要準備要在 Azure Stack Edge Pro GPU 裝置上使用的 VM 映射,您必須遵循特定的工作流程。 您必須在 Azure 中建立 gen1 虛擬機器、自訂 VM、將 VHD 一般化,然後下載該虛擬機器的 OS VHD。 備妥的映射必須是具有「VHD」副檔名和固定類型的 gen1 VHD。

如需需求的總覽,請參閱建立 Azure Stack Edge Pro GPU 裝置的自訂 VM 映射。 如需解決 VM 映射問題的指引,請參閱針對Azure Stack Edge Pro GPU 中的虛擬機器映射上傳進行疑難排解

建議的解決方案: 完成準備 VM 映射的工作流程。 如需指引,請參閱下列其中一篇文章:

閘道,無法從來賓 VM 連線到 DNS 伺服器

錯誤描述: 如果在 VM 部署期間無法連線到預設閘道和 DNS 伺服器,VM 布建將會超時,而 VM 部署將會失敗。

建議的解決方案: 確認可以從 VM 連線到預設閘道和 DNS 伺服器。 然後重複 VM 部署。

若要確認可以從 VM 連線到預設閘道和 DNS 伺服器,請執行下列步驟:

  1. 連線至 VM

  2. 執行下列命令:

    ping <default gateway IP address>
    ping <DNS server IP address>
    

    若要找出預設閘道和 DNS 伺服器的 IP 位址,請移至您裝置的本機 UI。 選取您感興趣的埠,並查看網路設定。

    Azure Stack Edge Pro GPU 裝置上端口的預設閘道和 DNS 伺服器設定的螢幕擷取畫面。

cloud init (Linux Vm) 的問題

錯誤描述: cloud init 未執行,或在執行時發生問題 cloud initcloud-init 用於在 VM 第一次開機時自訂 Linux VM。 如需詳細資訊,請參閱 Azure 中虛擬機器的雲端初始支援

建議的解決方案: 若要找出執行時所發生的問題 cloud init

  1. 連線至 VM

  2. 檢查 cloud init 下列記錄檔中的錯誤:

    • /var/log/cloud-init-output.log
    • /var/log/cloud-init.log
    • /var/log/waagent/log

若要查看導致無法順利執行的一些最常見問題 cloud init ,請執行下列步驟:

  1. 請確定 VM 映射是以為基礎 cloud init 。 執行以下命令:

    cloud-init --version

    此命令應該會傳回 cloud init 版本號碼。 如果映射不是 cloud init 基礎,則命令不會傳回版本資訊。

    若要取得有關 cloud init 選項的說明,請執行下列命令:

    cloud-init --help

  2. 請確定 cloud init 實例可以成功執行,並將資料來源設定為 Azure

    當資料來源設定為 Azure 時, cloud init 記錄檔中的專案看起來會像下面這樣。

    將資料來源設定為 Azure 的 VM 映射之雲端初始記錄專案的圖片。

    如果資料來源未設定為 Azure,您可能需要修改 cloud init 腳本。 如需詳細資訊,請參閱深入瞭解 雲端初始化

布建旗標 (Linux Vm 的設定不正確)

錯誤描述: 若要在 Azure 中成功部署 Linux VM,必須在映射上停用布建,而且 cloud init 必須啟用使用布建。 設定這些值的布建旗標會針對標準 VM 映射正確設定。 如果您使用自訂 VM 映射,您必須確定它們正確無誤。

建議的解決方案: 請確定 /etc/waagent.conf 檔案中的布建旗標具有下列值:

功能 必要值
啟用佈建 Provisioning.Enabled=n
依賴雲端初始布建 Provisioning.UseCloudInit=y

網路介面建立問題

本節提供在 VM 部署期間導致網路介面建立失敗的問題指引。

NIC 建立超時

錯誤描述: VM 上的網路介面建立未在允許的超時期間內完成。 此失敗可能是您環境中的 DHCP 伺服器問題所造成。

若要確認是否已成功建立網路介面,請執行下列步驟:

  1. 在 Azure 入口網站中,移至您裝置的 Azure Stack Edge 資源 (移至 [ Edge 服務 > 虛擬機器]) 。 然後選取 [ 部署],並流覽至 VM 部署。

  2. 如果未成功建立網路介面,您將會看到下列錯誤。

    當網路介面建立失敗時,入口網站中所顯示錯誤的螢幕擷取畫面。

建議的解決方案: 再次建立 VM,並為其指派靜態 IP 位址。

VM 建立問題

本節涵蓋 VM 建立期間發生的常見問題。

記憶體不足,無法建立 VM

錯誤描述: 當 VM 建立因為記憶體不足而失敗時,您將會看到下列錯誤。

當 VM 建立失敗時,入口網站中所顯示錯誤的螢幕擷取畫面。

建議的解決方案: 檢查裝置上的可用記憶體,並據以選擇 VM 大小。 如需詳細資訊,請參閱 Azure Stack Edge 上支援的虛擬機器大小

適用于 VM 部署的可用記憶體受限於數個因素:

建議的解決方案:

  • 使用需要較少記憶體的 VM 大小。
  • 在您部署新的 VM 之前,請先從入口網站停止任何未使用的 Vm。
  • 刪除不再使用的任何 Vm。

Gpu 數目不足,無法建立 GPU VM

如果您嘗試在已啟用 Kubernetes 的 GPU 裝置上部署 VM,則沒有可用的 Gpu,VM 布建將會失敗,並出現下列錯誤:

當 GPU VM 建立失敗時,入口網站中所顯示錯誤的螢幕擷取畫面,因為沒有可用的 Gpu。

可能的原因: 如果在建立 VM 之前啟用 Kubernetes,Kubernetes 將會使用所有可用的 Gpu,而您將無法建立任何 GPU 大小的 Vm。 您可以建立多個 GPU 大小的 Vm 作為可用 Gpu 的數目。 您的 Azure Stack Edge 裝置可配備1或2個 Gpu。

建議的解決方案: 針對已設定 Kubernetes 的1個 GPU 或 2 GPU 裝置上的 VM 部署選項,請參閱 GPU vm 和 Kubernetes

下一步