Snabbstart: Distribuera ett hanterat Apache Spark-kluster med Azure Databricks

Azure Managed Instance för Apache Cassandra tillhandahåller automatiserade distributions- och skalningsåtgärder för hanterade Apache Cassandra-datacenter med öppen källkod, vilket påskyndar hybridscenarier och minskar pågående underhåll.

Den här snabbstarten visar hur du använder Azure Portal för att skapa ett fullständigt hanterat Apache Spark-kluster i Azure Virtual Network för ditt Azure Managed Instance for Apache Cassandra-kluster. Du skapar Spark-klustret i Azure Databricks. Senare kan du skapa eller koppla notebook-filer till klustret, läsa data från olika datakällor och analysera insikter.

Du kan också läsa mer med detaljerade instruktioner om hur du distribuerar Azure Databricks i Azure Virtual Network (Virtual Network Injection).

Skapa ett Azure Databricks kluster

Följ de här stegen för att Azure Databricks ett kluster i Virtual Network som har Azure Managed Instance för Apache Cassandra:

  1. Logga in på Azure-portalen.

  2. I det vänstra navigeringsfältet letar du upp Resursgrupper och går till den resursgrupp som innehåller Virtual Network där den hanterade instansen distribueras.

  3. Öppna Virtual Network resurs och anteckna adressutrymmet:

    Hämta adressutrymmet för Virtual Network.

  4. Från resursgruppen väljer du Lägg till och söker efter Azure Databricks i sökfältet:

    Sök efter Azure Databricks.

  5. Välj Skapa för att skapa Azure Databricks konto:

    Skapa ett Azure Databricks konto.

  6. Fyll i följande värden:

    • Namn på arbetsyta – Ange ett namn för Databricks-arbetsytan.
    • Region – Se till att välja samma region som Virtual Network.
    • Prisnivå – Välj mellan Standard, Premium eller Utvärderingsversion. Mer information om de här nivåerna finns på prissättningssidan för Databricks.

    Fyll i arbetsytans namn, region och prisnivå för Databricks-kontot.

  7. Välj sedan fliken Nätverk och fyll i följande information:

    • Distribuera Azure Databricks arbetsyta i ditt Virtual Network (VNet) – Välj Ja.
    • Virtual Network – I listrutan väljer du den Virtual Network där den hanterade instansen finns.
    • Namn på offentligt undernät – Ange ett namn för det offentliga undernätet.
    • CIDR-intervall för offentligt undernät – Ange ett IP-intervall för det offentliga undernätet.
    • Namn på privat undernät – Ange ett namn för det privata undernätet.
    • CIDR-intervall för privat undernät – Ange ett IP-intervall för det privata undernätet.

    Se till att du väljer högre intervall för att undvika intervallkollisioner. Använd vid behov en visuell undernätskalkylator för att dela upp intervallen:

    Använd Virtual Network undernätskalkylatorn.

    Följande skärmbild visar exempelinformation i nätverksfönstret:

    Ange namn på offentliga och privata undernät.

  8. Välj Granska och skapa och sedan Skapa för att distribuera arbetsytan.

  9. Starta Arbetsytan när den har skapats.

  10. Du omdirigeras till Azure Databricks-portalen. Välj Nytt kluster i portalen.

  11. Acceptera standardvärdena för alla fält förutom följande fält i fönstret Nytt kluster:

    • Klusternamn – Ange ett namn för klustret.
    • Databricks Runtime Version – Vi rekommenderar att du väljer Databricks Runtime version 7.5 eller senare för Spark 3.x-stöd.

    Välj Databricks-körningsversionen och Spark-klustret.

  12. Expandera Avancerade alternativ och lägg till följande konfiguration. Ersätt nodens IP-adresser och autentiseringsuppgifter:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Lägg till Apache Spark Cassandra Connector-biblioteket i klustret för att ansluta till både interna och Azure Cosmos DB Cassandra-slutpunkter. I klustret väljer du Bibliotek Installera > ny > Maven och lägger sedan till com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 i Maven-koordinater.

Skärmbild som visar sökning efter Maven-paket i Databricks.

Rensa resurser

Om du inte tänker fortsätta att använda det här hanterade instansklustret tar du bort det med följande steg:

  1. På den vänstra menyn i Azure Portal väljer du Resursgrupper.
  2. I listan väljer du den resursgrupp som du skapade för den här snabbstarten.
  3. I fönstret Översikt för resursgruppen väljer du Ta bort resursgrupp.
  4. I nästa fönster anger du namnet på den resursgrupp som ska tas bort och väljer sedan Ta bort.

Nästa steg

I den här snabbstarten har du lärt dig hur du skapar ett fullständigt hanterat Apache Spark-kluster i Virtual Network i ditt Azure Managed Instance för Apache Cassandra-kluster. Därefter kan du lära dig hur du hanterar kluster- och datacenterresurser: