Quickstart: Een beheerd Apache Spark implementeren met Azure Databricks

Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde opensource Apache Cassandra-datacenters, waardoor hybride scenario's worden versneld en doorlopend onderhoud wordt verkleind.

In deze quickstart wordt gedemonstreerd hoe u de Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in de Azure Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of aan het cluster koppelen, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.

U kunt ook meer informatie krijgen met gedetailleerde instructies voor het implementeren van Azure Databricks in uw Azure Virtual Network (Virtual Network Injection).

Een Azure Databricks-cluster maken

Volg deze stappen om een cluster Azure Databricks maken in een Virtual Network met het Azure Managed Instance voor Apache Cassandra:

  1. Meld u aan bij de Azure-portal.

  2. Zoek resourcegroepen in het linkernavigatiebalk en navigeer naar de resourcegroep die de Virtual Network waar uw beheerde exemplaar is geïmplementeerd.

  3. Open de Virtual Network resource en noteer de adresruimte:

    Haal de adresruimte van uw Virtual Network.

  4. Selecteer toevoegen in de resourcegroep en zoek naar Azure Databricks in het zoekveld:

    Zoek naar Azure Databricks.

  5. Selecteer Maken om een Azure Databricks maken:

    Maak een Azure Databricks account.

  6. Vul de volgende waarden in:

    • Werkruimtenaam: geef een naam op voor uw Databricks-werkruimte.
    • Regio: zorg ervoor dat u dezelfde regio selecteert als uw Virtual Network.
    • Prijscategorie: kies tussen Standard, Premium of Proefversie. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën.

    Vul de naam, regio en prijscategorie van de werkruimte in voor het Databricks-account.

  7. Selecteer vervolgens het tabblad Netwerken en vul de volgende gegevens in:

    • Implementeer Azure Databricks werkruimte in uw Virtual Network (VNet) - selecteer Ja.
    • Virtual Network: kies in de vervolgkeuzekeuze Virtual Network waar uw beheerde exemplaar zich bevindt.
    • Openbare subnetnaam: voer een naam in voor het openbare subnet.
    • CIDR-bereik van openbaar subnet: voer een IP-bereik in voor het openbare subnet.
    • Naam van privésubnet: voer een naam in voor het privésubnet.
    • PRIVÉ-SUBNET-CIDR-bereik: voer een IP-adresbereik in voor het privésubnet.

    Zorg ervoor dat u hogere reeksen selecteert om bereik-aanrijdingen te voorkomen. Gebruik indien nodig een visualsubnetcalculator om de reeksen te delen:

    Gebruik de Virtual Network subnetcalculator.

    In de volgende schermopname ziet u voorbeelddetails in het deelvenster Netwerken:

    Geef namen van openbare en privé-subnetten op.

  8. Selecteer Controleren en maken en vervolgens Maken om de werkruimte te implementeren.

  9. Start werkruimte nadat deze is gemaakt.

  10. U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.

  11. Accepteer in het deelvenster Nieuw cluster de standaardwaarden voor alle andere velden dan de volgende velden:

    • Clusternaam: voer een naam in voor het cluster.
    • Databricks Runtime versie: het is raadzaam dat u Databricks Runtime versie 7.5 of hoger selecteert voor ondersteuning voor Spark 3.x.

    Selecteer de Runtime-versie van Databricks en het Spark-cluster.

  12. Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de knooppunt-IP's en referenties vervangt:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Voeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel native als Azure Cosmos DB Cassandra-eindpunten. Selecteer in uw cluster Bibliotheken > Nieuwe > Maven installeren en voeg vervolgens com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 Maven-coördinaten toe.

Schermopname van het zoeken naar Maven-pakketten in Databricks.

Resources opschonen

Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, verwijdert u het met de volgende stappen:

  1. Selecteer resourcegroepen in Azure Portal menu aan de linkerkant.
  2. Selecteer de resourcegroep die u eerder voor deze quickstart hebt gemaakt uit de lijst.
  3. Selecteer resourcegroep verwijderen in het deelvenster Overzicht van de resourcegroep.
  4. Selecteer in het volgende venster de naam van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.

Volgende stappen

In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in de Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. Hierna leert u hoe u de cluster- en datacenterbronnen beheert: