Quickstart: Een beheerd Apache Spark implementeren met Azure Databricks
Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde opensource Apache Cassandra-datacenters, waardoor hybride scenario's worden versneld en doorlopend onderhoud wordt verkleind.
In deze quickstart wordt gedemonstreerd hoe u de Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in de Azure Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of aan het cluster koppelen, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.
U kunt ook meer informatie krijgen met gedetailleerde instructies voor het implementeren van Azure Databricks in uw Azure Virtual Network (Virtual Network Injection).
Een Azure Databricks-cluster maken
Volg deze stappen om een cluster Azure Databricks maken in een Virtual Network met het Azure Managed Instance voor Apache Cassandra:
Meld u aan bij de Azure-portal.
Zoek resourcegroepen in het linkernavigatiebalk en navigeer naar de resourcegroep die de Virtual Network waar uw beheerde exemplaar is geïmplementeerd.
Open de Virtual Network resource en noteer de adresruimte:
Selecteer toevoegen in de resourcegroep en zoek naar Azure Databricks in het zoekveld:
Selecteer Maken om een Azure Databricks maken:
Vul de volgende waarden in:
- Werkruimtenaam: geef een naam op voor uw Databricks-werkruimte.
- Regio: zorg ervoor dat u dezelfde regio selecteert als uw Virtual Network.
- Prijscategorie: kies tussen Standard, Premium of Proefversie. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën.
Selecteer vervolgens het tabblad Netwerken en vul de volgende gegevens in:
- Implementeer Azure Databricks werkruimte in uw Virtual Network (VNet) - selecteer Ja.
- Virtual Network: kies in de vervolgkeuzekeuze Virtual Network waar uw beheerde exemplaar zich bevindt.
- Openbare subnetnaam: voer een naam in voor het openbare subnet.
- CIDR-bereik van openbaar subnet: voer een IP-bereik in voor het openbare subnet.
- Naam van privésubnet: voer een naam in voor het privésubnet.
- PRIVÉ-SUBNET-CIDR-bereik: voer een IP-adresbereik in voor het privésubnet.
Zorg ervoor dat u hogere reeksen selecteert om bereik-aanrijdingen te voorkomen. Gebruik indien nodig een visualsubnetcalculator om de reeksen te delen:
In de volgende schermopname ziet u voorbeelddetails in het deelvenster Netwerken:
Selecteer Controleren en maken en vervolgens Maken om de werkruimte te implementeren.
Start werkruimte nadat deze is gemaakt.
U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.
Accepteer in het deelvenster Nieuw cluster de standaardwaarden voor alle andere velden dan de volgende velden:
- Clusternaam: voer een naam in voor het cluster.
- Databricks Runtime versie: het is raadzaam dat u Databricks Runtime versie 7.5 of hoger selecteert voor ondersteuning voor Spark 3.x.
Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de knooppunt-IP's en referenties vervangt:
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP> spark.cassandra.auth.password cassandra spark.cassandra.connection.port 9042 spark.cassandra.auth.username cassandra spark.cassandra.connection.ssl.enabled trueVoeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel native als Azure Cosmos DB Cassandra-eindpunten. Selecteer in uw cluster Bibliotheken > Nieuwe > Maven installeren en voeg vervolgens
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0Maven-coördinaten toe.
Resources opschonen
Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, verwijdert u het met de volgende stappen:
- Selecteer resourcegroepen in Azure Portal menu aan de linkerkant.
- Selecteer de resourcegroep die u eerder voor deze quickstart hebt gemaakt uit de lijst.
- Selecteer resourcegroep verwijderen in het deelvenster Overzicht van de resourcegroep.
- Selecteer in het volgende venster de naam van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.
Volgende stappen
In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in de Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. Hierna leert u hoe u de cluster- en datacenterbronnen beheert: