Quickstart: Implementar um Cluster de Faíscas Apache Gerido (Pré-visualização) com Azure Databricks

A azure Managed Instance for Apache Cassandra fornece operações automatizadas de implantação e escala para centros de dados apache cassandra geridos de código aberto, acelerando cenários híbridos e reduzindo a manutenção contínua.

Importante

Azure Managed Instance for Apache Cassandra está atualmente em pré-visualização pública. Esta versão de pré-visualização é disponibiliza sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Este quickstart demonstra como usar o portal Azure para criar um cluster Apache Spark totalmente gerido dentro da Rede Virtual Azure do seu Azure Managed Instance para o aglomerado Apache Cassandra. Irá criar o cluster Spark em Azure Databricks. Mais tarde pode criar ou anexar cadernos ao cluster, ler dados de diferentes fontes de dados e analisar insights.

Também pode aprender mais com instruções detalhadas sobre a implementação de databricks Azure na sua Rede Virtual Azure (Injeção de Rede Virtual).

Criar um cluster Azure Databricks

Siga estes passos para criar um cluster Azure Databricks numa Rede Virtual que tem a Azure Managed Instance para Apache Cassandra:

  1. Inicie sessão no portal do Azure.

  2. No navegador esquerdo, localize grupos de recursos e navegue para o seu grupo de recursos que contém a Rede Virtual onde a sua instância gerida é implantada.

  3. Abra o recurso rede virtual e tome nota do espaço Address:

    Obtenha o espaço de endereço da sua Rede Virtual.

  4. A partir do grupo de recursos, selecione Adicionar e procure por Azure Databricks no campo de pesquisa:

    Procure por Azure Databricks.

  5. Selecione Criar para criar uma conta Azure Databricks:

    Crie uma conta Azure Databricks.

  6. Preencha os seguintes valores:

    • Nome do espaço de trabalho - Forneça um nome para o seu espaço de trabalho Databricks.
    • Região - Certifique-se de selecionar a mesma região que a sua Rede Virtual.
    • Nível de Preços - Escolha entre Standard, Premium ou Trial. Para obter mais informações sobre estes escalões, veja Página de preços do Databricks.

    Preencha o nome do espaço de trabalho, região e nível de preços para a conta Databricks.

  7. Em seguida, selecione o separador 'Rede' e preencha os seguintes detalhes:

    • Implementar espaço de trabalho Azure Databricks na sua Rede Virtual (VNet) - Selecione Sim.
    • Rede Virtual - A partir do dropdown, escolha a Rede Virtual onde existe a sua instância gerida.
    • Nome da sub-rede pública - Introduza um nome para a sub-rede pública.
    • Gama CIDR sub-rede pública - Introduza um intervalo IP para a sub-rede pública.
    • Nome da sub-rede privada - Introduza um nome para a sub-rede privada.
    • Gama PRIVADA SUB-Rede CIDR - Introduza um intervalo IP para a sub-rede privada.

    Para evitar colisões de alcance, certifique-se de que seleciona gamas mais altas. Se necessário, utilize uma calculadora de sub-redes visual para dividir os intervalos:

    Utilize a calculadora de sub-rede virtual.

    A imagem que se segue mostra detalhes de exemplo no painel de rede:

    Especificar nomes de sub-redes públicas e privadas.

  8. Selecione Rever e criar e, em seguida, criar para implantar o espaço de trabalho.

  9. Lançar espaço de trabalho depois de criado.

  10. Será redirecionado para o portal do Azure Databricks. A partir do portal, selecione Novo Cluster.

  11. No painel de aglomerados Novo, aceite valores predefinidos para todos os campos que não os seguintes campos:

    • Nome do Cluster - Introduza um nome para o cluster.
    • Databricks Versão runtime - Recomendamos selecionar a versão de execução de Databricks 7.5 ou superior, para suporte Spark 3.x.

    Selecione a versão de tempo de execução databricks e o Cluster de Faíscas.

  12. Expandir Opções Avançadas e adicionar a seguinte configuração. Certifique-se de substituir os IPs e credenciais do nó:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Adicione a biblioteca Apache Spark Cassandra Connector ao seu cluster para ligar aos pontos finais nativos e Azure Cosmos DB Cassandra. No seu cluster, selecione Bibliotecas > Instale New > Maven e adicione com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 as coordenadas Maven.

Screenshot que mostra a procura de pacotes Maven em Databricks.

Limpar os recursos

Se não continuar a utilizar este agrupamento de instâncias gerido, elimine-o com os seguintes passos:

  1. A partir do menu à esquerda do portal Azure, selecione Grupos de Recursos.
  2. A partir da lista, selecione o grupo de recursos que criou para este arranque rápido.
  3. No painel de visão geral do grupo de recursos, selecione Delete resource group.
  4. Na janela seguinte, insira o nome do grupo de recursos para eliminar e, em seguida, selecione Delete.

Passos seguintes

Neste quickstart, aprendeu a criar um cluster Apache Spark totalmente gerido dentro da Rede Virtual do seu aglomerado Azure Managed Instance para Apache Cassandra. Em seguida, pode aprender a gerir os recursos do cluster e datacenter: