Guida introduttiva: Distribuire un cluster Apache Spark gestito (anteprima) con Azure Databricks

Azure Istanza gestita per Apache Cassandra offre operazioni automatizzate di distribuzione e ridimensionamento per data center Apache Cassandra open source gestiti, accelerando gli scenari ibridi e riducendo la manutenzione continua.

Importante

Azure Istanza gestita per Apache Cassandra è attualmente in anteprima pubblica. Questa versione di anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Questa guida introduttiva illustra come usare il portale di Azure per creare un cluster Apache Spark completamente gestito all'interno della rete virtuale di Azure del cluster azure Istanza gestita per Apache Cassandra. Si creerà il cluster Spark in Azure Databricks. In un secondo momento è possibile creare o collegare notebook al cluster, leggere dati da origini dati diverse e analizzare le informazioni dettagliate.

Per altre informazioni, vedere Deploying Azure Databricks in Azure Virtual Network (Virtual Network Injection) (Distribuzionedi Azure Databricks nella rete virtuale di Azure ( Inserimento di reti virtuali).

Creare un cluster di Azure Databricks

Seguire questa procedura per creare un cluster Azure Databricks in una rete virtuale con azure Istanza gestita per Apache Cassandra:

  1. Accedere al portale di Azure.

  2. Nel riquadro di spostamento a sinistra individuare Gruppi di risorse e passare al gruppo di risorse che contiene la rete virtuale in cui è distribuita l'istanza gestita.

  3. Aprire la risorsa Rete virtuale e prendere nota dello spazio indirizzi:

    Ottenere lo spazio indirizzi della rete virtuale.

  4. Nel gruppo di risorse selezionare Aggiungi e cercare Azure Databricks nel campo di ricerca:

    Cercare Azure Databricks.

  5. Selezionare Crea per creare un account Azure Databricks account:

    Creare un account Azure Databricks servizio.

  6. Inserire i valori seguenti:

    • Nome area di lavoro: specificare un nome per l'area di lavoro di Databricks.
    • Area: assicurarsi di selezionare la stessa area della rete virtuale.
    • Piano tariffario: scegliere tra Standard, Premium o Versione di valutazione. Per altre informazioni su questi piani tariffari, vedere la pagina dei prezzi di Databricks.

    Compilare il nome dell'area di lavoro, l'area e il piano tariffario per l'account Databricks.

  7. Selezionare quindi la scheda Rete e specificare i dettagli seguenti:

    • Distribuire Azure Databricks area di lavoro nella rete virtuale ( VNet) - Selezionare Sì.
    • Rete virtuale: nell'elenco a discesa scegliere la rete virtuale in cui si trova l'istanza gestita.
    • Nome subnet pubblica: immettere un nome per la subnet pubblica.
    • Intervallo CIDR subnet pubblica: immettere un intervallo IP per la subnet pubblica.
    • Nome subnet privata: immettere un nome per la subnet privata.
    • Intervallo CIDR subnet privata: immettere un intervallo IP per la subnet privata.

    Per evitare conflitti di intervalli, assicurarsi di selezionare intervalli più elevati. Se necessario, usare un calcolatore di subnet visivo per dividere gli intervalli:

    Usare il calcolatore della subnet della rete virtuale.

    Lo screenshot seguente mostra i dettagli di esempio nel riquadro rete:

    Specificare i nomi di subnet pubblica e privata.

  8. Selezionare Rivedi e crea e quindi Crea per distribuire l'area di lavoro.

  9. Avviare l'area di lavoro dopo che è stata creata.

  10. Si verrà reindirizzati al portale di Azure Databricks. Nel portale selezionare New Cluster (Nuovo cluster).

  11. Nel riquadro Nuovo cluster accettare i valori predefiniti per tutti i campi diversi da quelli seguenti:

    • Nome cluster: immettere un nome per il cluster.
    • Databricks Runtime versione: è consigliabile selezionare Databricks Runtime versione 7.5 o successiva per il supporto di Spark 3.x.

    Selezionare la versione del runtime di Databricks e il cluster Spark.

  12. Espandere Opzioni avanzate e aggiungere la configurazione seguente. Assicurarsi di sostituire gli IP e le credenziali del nodo:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Aggiungere la Apache Spark del connettore Cassandra al cluster per connettersi agli endpoint nativi Azure Cosmos DB e Cassandra. Nel cluster selezionare Libraries Install > New Maven (Librerie - Installa nuovo > Maven) e quindi aggiungere nelle coordinate di com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 Maven.

Screenshot che mostra la ricerca di pacchetti Maven in Databricks.

Pulire le risorse

Se non si continuerà a usare questo cluster di istanza gestita, eliminarlo seguendo questa procedura:

  1. Nel menu a sinistra di portale di Azure selezionare Gruppi di risorse.
  2. Selezionare nell'elenco il gruppo di risorse creato in questa guida di avvio rapido.
  3. Nel riquadro Panoramica del gruppo di risorse selezionare Elimina gruppo di risorse.
  4. Nella finestra successiva immettere il nome del gruppo di risorse da eliminare e quindi selezionare Elimina.

Passaggi successivi

In questa guida introduttiva si è appreso come creare un cluster Apache Spark completamente gestito all'interno della rete virtuale del cluster azure Istanza gestita per Apache Cassandra. Successivamente, è possibile apprendere come gestire le risorse del cluster e del data center: