Schnellstart: Bereitstellen eines verwalteten Apache Spark-Clusters mit Azure Databricks

Azure Managed Instance for Apache Cassandra verfügt über automatisierte Bereitstellungs- und Skalierungsvorgänge für verwaltete Open-Source-basierte Apache Cassandra-Rechenzentren. Diese Funktion trägt zur Beschleunigung von Hybridszenarien sowie zur Verringerung laufender Wartungsmaßnahmen bei.

In dieser Schnellstartanleitung erfahren Sie, wie Sie über das Azure-Portal einen vollständig verwalteten Apache Spark-Cluster innerhalb des virtuellen Azure-Netzwerks Ihres Clusters vom Typ „Azure Managed Instance for Apache Cassandra“ erstellen. Der Spark-Cluster wird in Azure Databricks erstellt. Später können Sie Notebooks erstellen oder an den Cluster anfügen, Daten aus verschiedenen Datenquellen lesen und Erkenntnisse analysieren.

Weitere Informationen sowie eine ausführliche Anleitung finden Sie unter Bereitstellen von Azure Databricks in Ihrem virtuellen Azure-Netzwerk (VNET-Einschleusung).

Voraussetzungen

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Erstellen eines Azure Databricks-Clusters

Gehen Sie wie folgt vor, um einen Azure Databricks-Cluster in einem virtuellen Netzwerk zu erstellen, in dem sich Azure Managed Instance for Apache Cassandra befindet:

  1. Melden Sie sich beim Azure-Portal an.

  2. Suchen Sie im linken Navigationsbereich nach Ressourcengruppen. Navigieren Sie zur Ressourcengruppe, die das virtuelle Netzwerk mit Ihrer bereitgestellten verwalteten Instanz enthält.

  3. Öffnen Sie die Ressource Virtual Network, und notieren Sie sich den Adressraum:

    Screenshot: Wo sich der Adressraum Ihres virtuellen Netzwerks abrufen lässt.

  4. Wählen Sie in der Ressourcengruppe die Option Hinzufügen aus, und suchen Sie im Suchfeld nach Azure Databricks:

    Screenshot einer Suche nach Azure Databricks.

  5. Wählen Sie Erstellen aus, um ein Azure Databricks-Konto zu erstellen:

    Screenshot eines Azure Databricks-Angebots mit ausgewählter Schaltfläche „Erstellen“.

  6. Geben Sie die folgenden Werte ein:

    • Arbeitsbereichsname: Geben Sie einen Namen für Ihren Databricks-Arbeitsbereich an.
    • Region: Wählen Sie die Region aus, in der sich Ihr virtuelles Netzwerk befindet.
    • Tarif: Wählen Sie zwischen Standard, Premium und Testversion. Weitere Informationen zu diesen Tarifen, finden Sie unter Azure Databricks – Preise.

    Screenshot eines Dialogfelds, in dem Sie den Arbeitsbereichsnamen, die Region und den Tarif für das Databricks-Konto eingeben können.

  7. Wählen Sie als Nächstes die Registerkarte Netzwerk aus, und geben Sie Folgendes ein:

    • Azure Databricks-Arbeitsbereich in Ihrem eigenen virtuellen Netzwerk bereitstellen: Wählen Sie Ja aus.
    • Virtuelles Netzwerk: Wählen Sie in der Dropdownliste das virtuelle Netzwerk aus, in dem sich Ihre verwaltete Instanz befindet.
    • Name des öffentlichen Subnetzes: Geben Sie einen Namen für das öffentliche Subnetz ein.
    • CIDR-Bereich des öffentlichen Subnetzes: Geben Sie einen IP-Adressbereich für das öffentliche Subnetz ein.
    • Name des privaten Subnetzes: Geben Sie einen Namen für das private Subnetz ein.
    • CIDR-Bereich für privates Subnetz: Geben Sie einen IP-Adressbereich für das private Subnetz ein.

    Wählen Sie höhere Bereiche aus, um Bereichskonflikte zu vermeiden. Verwenden Sie bei Bedarf einen visuellen Subnetzrechner, um die Bereiche zu unterteilen:

    Screenshot des Visual-Subnetzrechners mit zwei hervorgehobenen identischen Netzwerkadressen.

    Der folgende Screenshot zeigt den Bereich „Netzwerk“ mit Beispielangaben:

    Screenshot der angegebenen öffentlichen und privaten Subnetznamen.

  8. Wählen Sie Überprüfen und erstellen und anschließend Erstellen aus, um den Arbeitsbereich bereitzustellen.

  9. Wählen Sie nach Abschluss der Erstellung die Option Arbeitsbereich starten aus.

  10. Sie werden zum Azure Databricks-Portal weitergeleitet. Wählen Sie im Portal Neuer Cluster aus.

  11. Passen Sie im Bereich Neuer Cluster nur die folgenden Felder an, und übernehmen Sie ansonsten die Standardwerte:

    • Clustername: Geben Sie einen Namen für den Cluster ein.
    • Databricks Runtime-Version: Es wird empfohlen, mindestens die Databricks-Runtimeversion 7.5 auszuwählen, um Spark 3.x-Unterstützung zu erhalten.

    Screenshot des Dialogfelds „Neuer Cluster“ mit ausgewählter Databricks-Runtimeversion.

  12. Erweitern Sie Erweiterte Optionen, und fügen Sie die folgende Konfiguration hinzu. Ersetzen Sie dabei die IP-Adressen der Knoten sowie die Anmeldeinformationen:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Fügen Sie dem Cluster die Apache Spark-Cassandra-Connectorbibliothek hinzu, um eine Verbindung mit nativen Endpunkten sowie mit Azure Cosmos DB-Cassandra-Endpunkten herzustellen. Wählen Sie in Ihrem Cluster Bibliotheken>Neue>Maveninstallieren und fügen Sie dann com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 in Maven-Koordinaten hinzu.

Screenshot, der zeigt, wie Maven-Pakete in Databricks gesucht werden.

Bereinigen von Ressourcen

Falls Sie diesen Managed Instance-Cluster nicht mehr benötigen, löschen Sie ihn wie folgt:

  1. Wählen Sie im linken Menü des Azure-Portals die Option Ressourcengruppen aus.
  2. Wählen Sie in der Liste die Ressourcengruppe aus, die Sie für diesen Schnellstart erstellt haben.
  3. Wählen Sie im Ressourcengruppenbereich Übersicht die Option Ressourcengruppe löschen aus.
  4. Geben Sie in dem nächsten Fenster den Namen der zu löschenden Ressourcengruppe ein, und wählen Sie dann Löschen aus.

Nächste Schritte

In dieser Schnellstartanleitung haben Sie gelernt, wie Sie einen vollständig verwalteten Apache Spark-Cluster innerhalb des virtuellen Netzwerks Ihres Clusters vom Typ „Azure Managed Instance for Apache Cassandra“ erstellen. Im nächsten Artikel erfahren Sie, wie Sie die Cluster- und Rechenzentrumsressourcen verwalten: