快速入門:在您自己的 虛擬網絡 中建立 Azure Databricks 工作區

Azure Databricks 的預設部署會建立由 Databricks 管理的新虛擬網路。 本快速入門示範如何改為在您自己的虛擬網路中建立 Azure Databricks 工作區。 您也可以在該工作區內建立 Apache Spark 叢集。

如需為何選擇在您自己的虛擬網路中建立 Azure Databricks 工作區的詳細資訊,請參閱在 Azure 虛擬網絡 (VNet Injection) 中部署 Azure Databricks。

必要條件

  • 如果您沒有 Azure 訂閱,請建立免費帳戶。 本教學課程無法使用 Azure 免費試用訂用 帳戶來執行。 如果您有免費帳戶,請移至您的配置檔,並將訂用帳戶變更為 隨用隨付。 如需詳細資訊,請參閱 Azure 免費帳戶。 然後,為您所在區域的 vCPU 移除消費限制要求增加配額。 當您建立 Azure Databricks 工作區時,您可以選取試用版 (進階版 - 14 天免費 DBU) 定價層,讓工作區能夠存取 Azure Databricks DBU 14 天的免費 進階版。

  • 您必須是 Azure 參與者或擁有者,或 必須在訂用帳戶中註冊 Microsoft.ManagedIdentity 資源提供者。 如需指示,請遵循 註冊資源提供者

登入 Azure 入口網站

登入 Azure 入口網站

注意

如果您想要在保存 FedRAMP High 等美國政府合規性認證的 Azure 商業雲端中建立 Azure Databricks 工作區,請連絡您的 Microsoft 或 Databricks 帳戶小組以取得此體驗的存取權。

建立虛擬網路

  1. 從 Azure 入口網站功能表選取 [建立資源]。 然後選取 [ 網络 > 虛擬網络]。

    在 Azure 入口網站 上建立虛擬網路

  2. 在 [建立虛擬網络] 底下,套用下列設定:

    設定 建議的值 描述
    訂用帳戶 <您的訂用帳戶> 選取您要使用的 Azure 訂用帳戶。
    資源群組 databricks-quickstart 選取 [ 新建 ],然後輸入帳戶的新資源組名。
    名稱 databricks-quickstart 選取虛擬網路的名稱。
    區域 <選取最接近使用者的區域> 選取可裝載虛擬網路的地理位置。 使用最靠近您的使用者的位置。

    Azure 入口網站 上虛擬網路的基本概念

  3. 選取 [ 下一步:IP 位址 > ],並套用下列設定。 然後,選取 [檢閱 + 建立]

    設定 建議的值 描述
    IPv4 位址空間 10.2.0.0/16 虛擬網路的位址範圍,以 CIDR 表示法表示。 CIDR 範圍必須介於 /16 和 /24
    子網路名稱 預設值 選取虛擬網路中預設子網的名稱。
    子網路位址範圍 10.2.0.0/24 使用 CIDR 標記法的子網路位址範圍。 其必須包含在虛擬網路的位址空間中。 無法使用之子網的位址範圍無法編輯。

    在 Azure 入口網站 上設定虛擬網路的IP組態

  4. 在 [ 檢閱 + 建立] 索引標籤上,選取 [ 建立 ] 以部署虛擬網路。 部署完成後,流覽至您的虛擬網路,然後選取 [設定 下的 [位址空間]。 在顯示 [新增其他位址範圍] 的方塊中,插入 10.179.0.0/16 並選取 [ 儲存]。

    Azure 虛擬網路位址空間

建立 Azure Databricks 工作區

  1. 從 Azure 入口網站功能表選取 [建立資源]。 然後選取 [分析 > Databricks]。

    在 Azure 入口網站 上建立 Azure Databricks 工作區

  2. 在 [Azure Databricks 服務] 底下,套用下列設定:

    設定 建議的值 描述
    工作區名稱 databricks-quickstart 選取 Azure Databricks 工作區的名稱。
    訂用帳戶 <您的訂用帳戶> 選取您要使用的 Azure 訂用帳戶。
    資源群組 databricks-quickstart 選取您用於虛擬網路的相同資源群組。
    Location <選取最接近使用者的區域> 選擇與虛擬網路相同的位置。
    定價層 選擇 [標準] 或 [進階版]。 如需定價層的詳細資訊,請參閱 Databricks 定價頁面

    建立 Azure Databricks 工作區基本概念

  3. 完成在 [基本] 頁面上輸入設定之後,請選取 [下一步:網络] > 並套用下列設定:

    設定 建議的值 描述
    在您的 虛擬網絡 中部署 Azure Databricks 工作區 (VNet) Yes 此設定可讓您在虛擬網路中部署 Azure Databricks 工作區。
    虛擬網路 databricks-quickstart 選取您在上一節中建立的虛擬網路。
    公用子網路名稱 public-subnet 使用預設公用子網名稱。
    公用子網 CIDR 範圍 10.179.64.0/18 使用最多和包含 /26 的 CIDR 範圍。
    私人子網路名稱 private-subnet 使用預設的私人子網名稱。
    私人子網 CIDR 範圍 10.179.0.0/18 使用最多和包含 /26 的 CIDR 範圍。

    在 Azure 入口網站 上將 VNet 資訊新增至 Azure Databricks 工作區

  4. 部署完成後,請流覽至 Azure Databricks 資源。 請注意,虛擬網路對等互連已停用。 另請注意概觀頁面中的資源群組和受控資源群組。

    Azure 入口網站 中的 Azure Databricks 概觀

    受控資源群組無法修改,而且不會用來建立虛擬機。 您只能在您管理的資源群組中建立虛擬機。

    Azure Databricks 受控資源群組

    當工作區部署失敗時,工作區仍會處於失敗狀態。 刪除失敗的工作區,並建立可解決部署錯誤的新工作區。 當您刪除失敗的工作區時,也會刪除受控資源群組和任何成功部署的資源。

建立叢集

注意

若要使用免費帳戶來建立 Azure Databricks 叢集,請在建立叢集之前,移至您的配置檔,並將訂用帳戶變更為 隨用隨付。 如需詳細資訊,請參閱 Azure 免費帳戶

  1. 返回您的 Azure Databricks 服務,然後選取 [概觀] 頁面上的 [啟動工作區]。

  2. 選取 [>叢集+ 建立叢集]。 然後建立叢集名稱,例如 databricks-quickstart-cluster,並接受其餘的默認設定。 選取 [建立叢集]

    建立 Azure Databricks 叢集

  3. 叢集執行之後,返回 Azure 入口網站 中的受控資源群組。 請注意新的虛擬機、磁碟、IP 位址和網路介面。 網路介面會在每個具有IP位址的公用和私人子網中建立。

    建立叢集之後的 Azure Databricks 受控資源群組

  4. 返回您的 Azure Databricks 工作區,然後選取您建立的叢集。 然後流覽至 Spark UI 頁面上的 [執行程式] 索引標籤。 請注意,驅動程式和執行程式位址位於私人子網範圍中。 在此範例中,驅動程式是 10.179.0.6,執行程式是 10.179.0.4 和 10.179.0.5。 您的IP位址可能不同。

    Azure Databricks Spark UI 執行程式

清除資源

完成本文之後,您可以終止叢集。 若要這樣做,請從 Azure Databricks 工作區,從左窗格選取 [叢集]。 針對您想要終止的叢集,將游標移至 [動作] 資料行底下的省略號上方,然後選取 [終止] 圖示。 這會停止叢集。

如果您未手動終止叢集,它會自動停止,前提是您在建立叢集時選取 了 [在閑置 后的 __ 分鐘後終止] 複選框。 在這種情況下,如果叢集在指定時間內處於非使用中狀態,叢集就會自動停止。

如果您不想重複使用叢集,可以刪除您在 Azure 入口網站 中建立的資源群組。

下一步

在本文中,您已在部署至虛擬網路的 Azure Databricks 中建立 Spark 叢集。 前進到下一篇文章,瞭解如何從 Azure Databricks Notebook 使用 JDBC 查詢虛擬網路中的 SQL Server Linux Docker 容器。