Guida introduttiva: Distribuire un cluster Apache Spark gestito con Azure Databricks

Articolo
06/01/2023

Il servizio Istanza gestita di Azure per Apache Cassandra consente operazioni di distribuzione e ridimensionamento automatizzate per i data center Apache Cassandra open source gestiti. Questa funzionalità accelera gli scenari ibridi e riduce la manutenzione in corso.

Questa guida introduttiva illustra come usare il portale di Azure per creare un cluster Apache Spark completamente gestito all'interno del Rete virtuale di Azure del cluster Azure Istanza gestita for Apache Cassandra. Il cluster Spark viene creato in Azure Databricks. Successivamente, è possibile creare o collegare notebook al cluster, leggere i dati da origini dati diverse e analizzare informazioni dettagliate.

È anche possibile ottenere altre informazioni con istruzioni dettagliate sulla distribuzione di Azure Databricks in Azure Rete virtuale (Rete virtuale injection).

Prerequisiti

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Creare un cluster di Azure Databricks

Seguire questa procedura per creare un cluster Azure Databricks in un Rete virtuale con Azure Istanza gestita per Apache Cassandra:

Accedere al portale di Azure.
Nel riquadro di spostamento sinistro individuare Gruppi di risorse. Passare al gruppo di risorse che contiene il Rete virtuale in cui viene distribuita l'istanza gestita.
Aprire la risorsa Rete virtuale e prendere nota dello spazio indirizzi:
Nel gruppo di risorse selezionare Aggiungi e cercare Azure Databricks nel campo di ricerca:
Selezionare Crea per creare un account Azure Databricks:
Immettere i valori seguenti:
- Nome dell'area di lavoro Specificare un nome per l'area di lavoro di Databricks.
- Regione Assicurarsi di selezionare la stessa area del Rete virtuale.
- Piano tariffario Scegliere tra Standard, Premium o Versione di valutazione. Per altre informazioni su questi piani tariffari, vedere la pagina dei prezzi di Databricks.
Selezionare quindi la scheda Rete e immettere i dettagli seguenti:
- Distribuire l'area di lavoro di Azure Databricks nella Rete virtuale (rete virtuale) selezionare Sì.
- Rete virtuale Dall'elenco a discesa scegliere il Rete virtuale in cui è presente l'istanza gestita.
- Nome subnet pubblica Immettere un nome per la subnet pubblica.
- Intervallo CIDR subnet pubblica Immettere un intervallo IP per la subnet pubblica.
- Nome subnet privato Immettere un nome per la subnet privata.
- Intervallo CIDR della subnet privata Immettere un intervallo IP per la subnet privata.
Per evitare conflitti di intervallo, assicurarsi di selezionare intervalli più elevati. Se necessario, usare una calcolatrice subnet visiva per dividere gli intervalli:

Lo screenshot seguente mostra i dettagli di esempio nel riquadro di rete:
Selezionare Rivedi e crea e quindi Crea per distribuire l'area di lavoro.
Avviare l'area di lavoro dopo la creazione.
Si verrà reindirizzati al portale di Azure Databricks. Nel portale selezionare New Cluster (Nuovo cluster).
Nel riquadro Nuovo cluster accettare i valori predefiniti per tutti i campi diversi dai campi seguenti:
- Nome cluster Immettere un nome per il cluster.
- Versione di Databricks Runtime È consigliabile selezionare databricks runtime versione 7.5 o successiva per il supporto di Spark 3.x.

Espandere Opzioni avanzate e aggiungere la configurazione seguente. Assicurarsi di sostituire gli indirizzi IP e le credenziali del nodo:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

Aggiungere la libreria del connettore Cassandra apache Spark al cluster per connettersi agli endpoint Cassandra nativi e di Azure Cosmos DB. Nel cluster selezionare Librerie>Installa nuovo>Maven e quindi aggiungere com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 le coordinate Maven.

Pulire le risorse

Se non si intende continuare a usare questo cluster di istanza gestita, eliminarlo con la procedura seguente:

Nel menu a sinistra di portale di Azure selezionare Gruppi di risorse.
Selezionare nell'elenco il gruppo di risorse creato in questa guida di avvio rapido.
Nel riquadro Panoramica del gruppo di risorse selezionare Elimina gruppo di risorse.
Nella finestra successiva immettere il nome del gruppo di risorse da eliminare e quindi selezionare Elimina.

Passaggi successivi

In questa guida introduttiva si è appreso come creare un cluster Apache Spark completamente gestito all'interno del Rete virtuale del cluster Azure Istanza gestita for Apache Cassandra. Successivamente, è possibile apprendere come gestire le risorse del cluster e del data center:

Gestire le risorse di Azure Istanza gestita per Apache Cassandra usando l'interfaccia della riga di comando di Azure

Guida introduttiva: Distribuire un cluster Apache Spark gestito con Azure Databricks

Prerequisiti

Creare un cluster di Azure Databricks

Pulire le risorse

Passaggi successivi

Risorse aggiuntive