Guia de início rápido: criar um espaço de trabalho do Azure Databricks em sua própria Rede Virtual

A implantação padrão do Azure Databricks cria uma nova rede virtual que é gerenciada pelo Databricks. Este guia de início rápido mostra como criar um espaço de trabalho do Azure Databricks em sua própria rede virtual. Você também cria um cluster Apache Spark dentro desse espaço de trabalho.

Para obter mais informações sobre por que você pode optar por criar um espaço de trabalho do Azure Databricks em sua própria rede virtual, consulte Implantar o Azure Databricks em sua Rede Virtual do Azure (Injeção de VNet).

Pré-requisitos

  • Se não tiver uma subscrição do Azure, crie uma conta gratuita. Este tutorial não pode ser realizado usando uma Assinatura de Avaliação Gratuita do Azure. Se tiver uma conta gratuita, aceda ao seu perfil e altere a sua subscrição para pagamento consoante a utilização. Para obter mais informações, veja Conta gratuita do Azure. Em seguida, remova o limite de gastos e solicite um aumento de quota para vCPUs na sua região. Ao criar seu espaço de trabalho do Azure Databricks, você pode selecionar a camada de preço de Avaliação (Premium - DBUs gratuitas de 14 dias) para dar ao espaço de trabalho acesso a DBUs Premium Databricks Premium gratuitas por 14 dias.

  • Você deve ser um Colaborador ou Proprietário do Azure ou o provedor de recursos Microsoft.ManagedIdentity deve estar registrado em sua assinatura. Para obter instruções, siga Registrar provedor de recursos.

Inicie sessão no portal do Azure

Inicie sessão no portal do Azure.

Nota

Se você quiser criar um espaço de trabalho do Azure Databricks na Nuvem Comercial do Azure que possui certificações de conformidade do governo dos EUA, como o FedRAMP High, entre em contato com sua equipe de conta Microsoft ou Databricks para obter acesso a essa experiência.

Criar uma rede virtual

  1. No menu do portal do Azure, selecione Criar um recurso. Em seguida, selecione Rede virtual de rede>.

    Create a virtual network on Azure portal

  2. Em Criar rede virtual, aplique as seguintes configurações:

    Definição Valor sugerido Descrição
    Subscrição <A sua subscrição> Selecione a subscrição do Azure que pretende utilizar.
    Grupo de recursos Databricks-Guia de início rápido Selecione Criar novo e insira um novo nome de grupo de recursos para sua conta.
    Nome Databricks-Guia de início rápido Selecione um nome para a sua rede virtual.
    Região <Selecione a região mais próxima dos seus utilizadores> Selecione uma localização geográfica onde possa alojar a sua rede virtual. Use o local mais próximo de seus usuários.

    Basics for a virtual network on Azure portal

  3. Selecione Next: IP Addresses > e aplique as seguintes configurações. Em seguida, selecione Rever + criar.

    Definição Valor sugerido Descrição
    Espaço de endereçamento IPv4 10.2.0.0/16 O intervalo de endereços da rede virtual na notação CIDR. O intervalo CIDR deve estar entre /16 e /24
    Nome da sub-rede default Selecione um nome para a sub-rede padrão em sua rede virtual.
    Intervalo de Endereços da Sub-rede 10.2.0.0/24 O intervalo de endereços da sub-rede na notação CIDR. Ele deve ser contido pelo espaço de endereço da rede virtual. O intervalo de endereços de uma sub-rede que está em uso não pode ser editado.

    Set IP configurations for a virtual network on Azure portal

  4. Na guia Revisar + criar, selecione Criar para implantar a rede virtual. Quando a implantação estiver concluída, navegue até sua rede virtual e selecione Espaço de endereço em Configurações. Na caixa que diz Adicionar intervalo de endereços adicional, insira 10.179.0.0/16 e selecione Salvar.

    Azure virtual network address space

Criar uma área de trabalho do Azure Databricks

  1. No menu do portal do Azure, selecione Criar um recurso. Em seguida, selecione Analytics > Databricks.

    Create an Azure Databricks workspace on Azure portal

  2. Em Serviço Azure Databricks, aplique as seguintes configurações:

    Definição Valor sugerido Descrição
    Nome da área de trabalho Databricks-Guia de início rápido Selecione um nome para seu espaço de trabalho do Azure Databricks.
    Subscrição <A sua subscrição> Selecione a subscrição do Azure que pretende utilizar.
    Grupo de recursos Databricks-Guia de início rápido Selecione o mesmo grupo de recursos usado para a rede virtual.
    Localização <Selecione a região mais próxima dos seus utilizadores> Escolha o mesmo local da sua rede virtual.
    Escalão de Preço Escolha entre Standard ou Premium. Para obter mais informações sobre níveis de preços, consulte a página de preços do Databricks.

    Create an Azure Databricks workspace basics

  3. Quando terminar de inserir as configurações na página Noções básicas , selecione Avançar: Rede > e aplique as seguintes configurações:

    Definição Valor sugerido Descrição
    Implantar o espaço de trabalho do Azure Databricks em sua Rede Virtual (VNet) Sim Essa configuração permite implantar um espaço de trabalho do Azure Databricks em sua rede virtual.
    Rede Virtual Databricks-Guia de início rápido Selecione a rede virtual que você criou na seção anterior.
    Nome da sub-rede pública sub-rede pública Use o nome da sub-rede pública padrão.
    Gama CIDR da sub-rede pública 10.179.64.0/18 Utilize um intervalo CIDR até /26, inclusive.
    Nome da sub-rede privada sub-rede privada Use o nome da sub-rede privada padrão.
    Gama CIDR da sub-rede privada 10.179.0.0/18 Utilize um intervalo CIDR até /26, inclusive.

    Add VNet information to Azure Databricks workspace on Azure portal

  4. Quando a implantação estiver concluída, navegue até o recurso Azure Databricks. Observe que o emparelhamento de rede virtual está desativado. Observe também o grupo de recursos e o grupo de recursos gerenciados na página de visão geral.

    Azure Databricks overview in Azure portal

    O grupo de recursos gerenciados não é modificável e não é usado para criar máquinas virtuais. Você só pode criar máquinas virtuais no grupo de recursos gerenciado.

    Azure Databricks managed resource group

    Quando uma implantação de espaço de trabalho falha, o espaço de trabalho ainda é criado em um estado de falha. Exclua o espaço de trabalho com falha e crie um novo espaço de trabalho que resolva os erros de implantação. Quando você exclui o espaço de trabalho com falha, o grupo de recursos gerenciados e todos os recursos implantados com êxito também são excluídos.

Criar um cluster

Nota

Para utilizar uma conta gratuita para criar o cluster do Azure Databricks, antes de criar o cluster, aceda ao seu perfil e altere a subscrição para pay as you go. Para obter mais informações, veja Conta gratuita do Azure.

  1. Retorne ao seu serviço Azure Databricks e selecione Iniciar espaço de trabalho na página Visão geral .

  2. Selecione Clusters+ Create Cluster.> Em seguida, crie um nome de cluster, como databricks-quickstart-cluster, e aceite as configurações padrão restantes. Selecione Criar cluster.

    Create Azure Databricks cluster

  3. Quando o cluster estiver em execução, retorne ao grupo de recursos gerenciados no portal do Azure. Observe as novas máquinas virtuais, discos, endereço IP e interfaces de rede. Uma interface de rede é criada em cada uma das sub-redes públicas e privadas com endereços IP.

    Azure Databricks managed resource group after cluster creation

  4. Retorne ao seu espaço de trabalho do Azure Databricks e selecione o cluster que você criou. Em seguida, navegue até a guia Executores na página Spark UI . Observe que os endereços do driver e dos executores estão no intervalo de sub-rede privada. Neste exemplo, o driver é 10.179.0.6 e os executores são 10.179.0.4 e 10.179.0.5. Os seus endereços IP podem ser diferentes.

    Azure Databricks Spark UI executors

Clean up resources (Limpar recursos)

Depois de ler o artigo, pode terminar o cluster. Para tal, na área de trabalho do Azure Databricks, no painel esquerdo, selecione Clusters. Para o cluster que quer terminar, mova o cursor sobre o botão de reticências na coluna Ações e selecione o ícone Terminar. Isso interrompe o cluster.

Se não terminar manualmente o cluster, este irá parar automaticamente, desde que tenha selecionado a caixa de verificação Terminar após __ minutos de inatividade ao criar o cluster. Nesse caso, o cluster para automaticamente se tiver estado inativo durante o período de tempo especificado.

Se não desejar reutilizar o cluster, você poderá excluir o grupo de recursos criado no portal do Azure.

Próximos passos

Neste artigo, você criou um cluster do Spark no Azure Databricks implantado em uma rede virtual. Avance para o próximo artigo para saber como consultar um contêiner do SQL Server Linux Docker na rede virtual usando JDBC de um bloco de anotações do Azure Databricks.