Início Rápido: Implementar um Cluster do Apache Spark Gerido com o Azure Databricks

O Azure Managed Instance para Apache Cassandra fornece operações automatizadas de implementação e dimensionamento para datacenters do Apache Cassandra open source geridos. Esta funcionalidade acelera os cenários híbridos e reduz a manutenção contínua.

Este início rápido demonstra como utilizar o portal do Azure para criar um cluster do Apache Spark totalmente gerido no Azure Rede Virtual do cluster do Azure Managed Instance para Apache Cassandra. Crie o cluster do Spark no Azure Databricks. Mais tarde, pode criar ou anexar blocos de notas ao cluster, ler dados de diferentes origens de dados e analisar informações.

Também pode saber mais com instruções detalhadas sobre Como Implementar o Azure Databricks no seu Rede Virtual do Azure (injeção de Rede Virtual).

Pré-requisitos

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Criar um cluster do Azure Databricks

Siga estes passos para criar um cluster do Azure Databricks num Rede Virtual que tenha o Azure Managed Instance para Apache Cassandra:

  1. Inicie sessão no Portal do Azure.

  2. No painel de navegação esquerdo, localize Grupos de recursos. Navegue para o grupo de recursos que contém o Rede Virtual onde a instância gerida é implementada.

  3. Abra o recurso Rede Virtual e anote o Espaço de endereços:

    Captura de ecrã a mostrar onde obter o espaço de endereços do seu Rede Virtual.

  4. No grupo de recursos, selecione Adicionar e procure Azure Databricks no campo de pesquisa:

    Captura de ecrã a mostrar uma pesquisa do Azure Databricks.

  5. Selecione Criar para criar uma conta do Azure Databricks:

    Captura de ecrã a mostrar a oferta do Azure Databricks com o botão Criar selecionado.

  6. Introduza os seguintes valores:

    • Nome da área de trabalho Forneça um nome para a área de trabalho do Databricks.
    • Região Certifique-se de que seleciona a mesma região que a sua Rede Virtual.
    • Escalão de Preço Escolha entre Standard, Premium ou Versão de Avaliação. Para obter mais informações sobre estes escalões, veja Página de preços do Databricks.

    Captura de ecrã a mostrar uma caixa de diálogo onde pode introduzir o nome, a região e o escalão de preço da área de trabalho para a conta do Databricks.

  7. Em seguida, selecione o separador Rede e introduza os seguintes detalhes:

    • Implementar a área de trabalho do Azure Databricks no seu Rede Virtual (VNet) Selecione Sim.
    • Rede Virtual Na lista pendente, selecione o Rede Virtual onde existe a instância gerida.
    • Nome da Sub-rede Pública Introduza um nome para a sub-rede pública.
    • Intervalo CIDR da Sub-rede Pública Introduza um intervalo de IP para a sub-rede pública.
    • Nome da Sub-rede Privada Introduza um nome para a sub-rede privada.
    • Intervalo CIDR da Sub-rede Privada Introduza um intervalo de IP para a sub-rede privada.

    Para evitar colisões entre intervalos, certifique-se de que seleciona intervalos mais elevados. Se necessário, utilize uma calculadora de sub-rede visual para dividir os intervalos:

    Captura de ecrã a mostrar a Calculadora de Sub-rede Visual com dois endereços de rede idênticos realçados.

    A seguinte captura de ecrã mostra detalhes de exemplo no painel de rede:

    Captura de ecrã a mostrar nomes de sub-redes públicas e privadas especificados.

  8. Selecione Rever e criar e, em seguida , Criar para implementar a área de trabalho.

  9. Inicie a Área de Trabalho depois de ser criada.

  10. É redirecionado para o portal do Azure Databricks. No portal, selecione Novo Cluster.

  11. No painel Novo cluster , aceite valores predefinidos para todos os campos que não os seguintes campos:

    • Nome do Cluster Introduza um nome para o cluster.
    • Versão do Databricks Runtime Recomendamos que selecione Databricks runtime versão 7.5 ou superior para suporte do Spark 3.x.

    Captura de ecrã a mostrar a caixa de diálogo Novo Cluster com uma Versão do Databricks Runtime selecionada.

  12. Expanda Opções Avançadas e adicione a seguinte configuração. Certifique-se de que substitui os IPs e as credenciais do nó:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Adicione a biblioteca do Conector para Cassandra do Apache Spark ao cluster para se ligar aos pontos finais nativos e do Cassandra do Azure Cosmos DB. No seu cluster, selecione Bibliotecas>Instalar Novo>Maven e, em seguida, adicione com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 as coordenadas do Maven.

Captura de ecrã que mostra a pesquisa de pacotes maven no Databricks.

Limpar os recursos

Se não pretender continuar a utilizar este cluster de instância gerida, elimine-o com os seguintes passos:

  1. No menu esquerdo do portal do Azure, selecione Grupos de recursos.
  2. Na lista, selecione o grupo de recursos que criou para este início rápido.
  3. No painel Descrição Geral do grupo de recursos, selecione Eliminar grupo de recursos.
  4. Na janela seguinte, introduza o nome do grupo de recursos a eliminar e, em seguida, selecione Eliminar.

Passos seguintes

Neste início rápido, aprendeu a criar um cluster do Apache Spark totalmente gerido dentro do Rede Virtual do cluster do Azure Managed Instance para Apache Cassandra. Em seguida, pode aprender a gerir os recursos do cluster e do datacenter: