Guida introduttiva: Distribuire un cluster Apache Spark gestito con Azure Databricks

Il servizio Istanza gestita di Azure per Apache Cassandra consente operazioni di distribuzione e ridimensionamento automatizzate per i data center Apache Cassandra open source gestiti. Questa funzionalità accelera gli scenari ibridi e riduce la manutenzione in corso.

Questa guida introduttiva illustra come usare il portale di Azure per creare un cluster Apache Spark completamente gestito all'interno del Rete virtuale di Azure del cluster Azure Istanza gestita for Apache Cassandra. Il cluster Spark viene creato in Azure Databricks. Successivamente, è possibile creare o collegare notebook al cluster, leggere i dati da origini dati diverse e analizzare informazioni dettagliate.

È anche possibile ottenere altre informazioni con istruzioni dettagliate sulla distribuzione di Azure Databricks in Azure Rete virtuale (Rete virtuale injection).

Prerequisiti

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Creare un cluster di Azure Databricks

Seguire questa procedura per creare un cluster Azure Databricks in un Rete virtuale con Azure Istanza gestita per Apache Cassandra:

  1. Accedere al portale di Azure.

  2. Nel riquadro di spostamento sinistro individuare Gruppi di risorse. Passare al gruppo di risorse che contiene il Rete virtuale in cui viene distribuita l'istanza gestita.

  3. Aprire la risorsa Rete virtuale e prendere nota dello spazio indirizzi:

    Screenshot che mostra dove ottenere lo spazio indirizzi della Rete virtuale.

  4. Nel gruppo di risorse selezionare Aggiungi e cercare Azure Databricks nel campo di ricerca:

    Screenshot che mostra una ricerca di Azure Databricks.

  5. Selezionare Crea per creare un account Azure Databricks:

    Screenshot che mostra l'offerta di Azure Databricks con il pulsante Crea selezionato.

  6. Immettere i valori seguenti:

    • Nome dell'area di lavoro Specificare un nome per l'area di lavoro di Databricks.
    • Regione Assicurarsi di selezionare la stessa area del Rete virtuale.
    • Piano tariffario Scegliere tra Standard, Premium o Versione di valutazione. Per altre informazioni su questi piani tariffari, vedere la pagina dei prezzi di Databricks.

    Screenshot che mostra una finestra di dialogo in cui è possibile immettere il nome, l'area e il piano tariffario dell'area di lavoro per l'account Databricks.

  7. Selezionare quindi la scheda Rete e immettere i dettagli seguenti:

    • Distribuire l'area di lavoro di Azure Databricks nella Rete virtuale (rete virtuale) selezionare .
    • Rete virtuale Dall'elenco a discesa scegliere il Rete virtuale in cui è presente l'istanza gestita.
    • Nome subnet pubblica Immettere un nome per la subnet pubblica.
    • Intervallo CIDR subnet pubblica Immettere un intervallo IP per la subnet pubblica.
    • Nome subnet privato Immettere un nome per la subnet privata.
    • Intervallo CIDR della subnet privata Immettere un intervallo IP per la subnet privata.

    Per evitare conflitti di intervallo, assicurarsi di selezionare intervalli più elevati. Se necessario, usare una calcolatrice subnet visiva per dividere gli intervalli:

    Screenshot che mostra visual Subnet Calculator con due indirizzi di rete identici evidenziati.

    Lo screenshot seguente mostra i dettagli di esempio nel riquadro di rete:

    Screenshot che mostra i nomi di subnet pubblici e privati specificati.

  8. Selezionare Rivedi e crea e quindi Crea per distribuire l'area di lavoro.

  9. Avviare l'area di lavoro dopo la creazione.

  10. Si verrà reindirizzati al portale di Azure Databricks. Nel portale selezionare New Cluster (Nuovo cluster).

  11. Nel riquadro Nuovo cluster accettare i valori predefiniti per tutti i campi diversi dai campi seguenti:

    • Nome cluster Immettere un nome per il cluster.
    • Versione di Databricks Runtime È consigliabile selezionare databricks runtime versione 7.5 o successiva per il supporto di Spark 3.x.

    Screenshot che mostra la finestra di dialogo Nuovo cluster con una versione del runtime di Databricks selezionata.

  12. Espandere Opzioni avanzate e aggiungere la configurazione seguente. Assicurarsi di sostituire gli indirizzi IP e le credenziali del nodo:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Aggiungere la libreria del connettore Cassandra apache Spark al cluster per connettersi agli endpoint Cassandra nativi e di Azure Cosmos DB. Nel cluster selezionare Librerie>Installa nuovo>Maven e quindi aggiungere com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 le coordinate Maven.

Screenshot che mostra la ricerca di pacchetti Maven in Databricks.

Pulire le risorse

Se non si intende continuare a usare questo cluster di istanza gestita, eliminarlo con la procedura seguente:

  1. Nel menu a sinistra di portale di Azure selezionare Gruppi di risorse.
  2. Selezionare nell'elenco il gruppo di risorse creato in questa guida di avvio rapido.
  3. Nel riquadro Panoramica del gruppo di risorse selezionare Elimina gruppo di risorse.
  4. Nella finestra successiva immettere il nome del gruppo di risorse da eliminare e quindi selezionare Elimina.

Passaggi successivi

In questa guida introduttiva si è appreso come creare un cluster Apache Spark completamente gestito all'interno del Rete virtuale del cluster Azure Istanza gestita for Apache Cassandra. Successivamente, è possibile apprendere come gestire le risorse del cluster e del data center: