Snabbstart: Distribuera ett hanterat Apache Spark-kluster med Azure Databricks
Azure Managed Instance för Apache Cassandra tillhandahåller automatiserade distributions- och skalningsåtgärder för hanterade Apache Cassandra-datacenter med öppen källkod, vilket påskyndar hybridscenarier och minskar pågående underhåll.
Den här snabbstarten visar hur du använder Azure Portal för att skapa ett fullständigt hanterat Apache Spark-kluster i Azure Virtual Network för ditt Azure Managed Instance for Apache Cassandra-kluster. Du skapar Spark-klustret i Azure Databricks. Senare kan du skapa eller koppla notebook-filer till klustret, läsa data från olika datakällor och analysera insikter.
Du kan också läsa mer med detaljerade instruktioner om hur du distribuerar Azure Databricks i Azure Virtual Network (Virtual Network Injection).
Skapa ett Azure Databricks kluster
Följ de här stegen för att Azure Databricks ett kluster i Virtual Network som har Azure Managed Instance för Apache Cassandra:
Logga in på Azure-portalen.
I det vänstra navigeringsfältet letar du upp Resursgrupper och går till den resursgrupp som innehåller Virtual Network där den hanterade instansen distribueras.
Öppna Virtual Network resurs och anteckna adressutrymmet:
Från resursgruppen väljer du Lägg till och söker efter Azure Databricks i sökfältet:
Välj Skapa för att skapa Azure Databricks konto:
Fyll i följande värden:
- Namn på arbetsyta – Ange ett namn för Databricks-arbetsytan.
- Region – Se till att välja samma region som Virtual Network.
- Prisnivå – Välj mellan Standard, Premium eller Utvärderingsversion. Mer information om de här nivåerna finns på prissättningssidan för Databricks.
Välj sedan fliken Nätverk och fyll i följande information:
- Distribuera Azure Databricks arbetsyta i ditt Virtual Network (VNet) – Välj Ja.
- Virtual Network – I listrutan väljer du den Virtual Network där den hanterade instansen finns.
- Namn på offentligt undernät – Ange ett namn för det offentliga undernätet.
- CIDR-intervall för offentligt undernät – Ange ett IP-intervall för det offentliga undernätet.
- Namn på privat undernät – Ange ett namn för det privata undernätet.
- CIDR-intervall för privat undernät – Ange ett IP-intervall för det privata undernätet.
Se till att du väljer högre intervall för att undvika intervallkollisioner. Använd vid behov en visuell undernätskalkylator för att dela upp intervallen:
Följande skärmbild visar exempelinformation i nätverksfönstret:
Välj Granska och skapa och sedan Skapa för att distribuera arbetsytan.
Starta Arbetsytan när den har skapats.
Du omdirigeras till Azure Databricks-portalen. Välj Nytt kluster i portalen.
Acceptera standardvärdena för alla fält förutom följande fält i fönstret Nytt kluster:
- Klusternamn – Ange ett namn för klustret.
- Databricks Runtime Version – Vi rekommenderar att du väljer Databricks Runtime version 7.5 eller senare för Spark 3.x-stöd.
Expandera Avancerade alternativ och lägg till följande konfiguration. Ersätt nodens IP-adresser och autentiseringsuppgifter:
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP> spark.cassandra.auth.password cassandra spark.cassandra.connection.port 9042 spark.cassandra.auth.username cassandra spark.cassandra.connection.ssl.enabled trueLägg till Apache Spark Cassandra Connector-biblioteket i klustret för att ansluta till både interna och Azure Cosmos DB Cassandra-slutpunkter. I klustret väljer du Bibliotek Installera > ny > Maven och lägger sedan till
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0i Maven-koordinater.
Rensa resurser
Om du inte tänker fortsätta att använda det här hanterade instansklustret tar du bort det med följande steg:
- På den vänstra menyn i Azure Portal väljer du Resursgrupper.
- I listan väljer du den resursgrupp som du skapade för den här snabbstarten.
- I fönstret Översikt för resursgruppen väljer du Ta bort resursgrupp.
- I nästa fönster anger du namnet på den resursgrupp som ska tas bort och väljer sedan Ta bort.
Nästa steg
I den här snabbstarten har du lärt dig hur du skapar ett fullständigt hanterat Apache Spark-kluster i Virtual Network i ditt Azure Managed Instance för Apache Cassandra-kluster. Därefter kan du lära dig hur du hanterar kluster- och datacenterresurser: