Rychlý start: Nasazení spravovaného clusteru Apache Spark s Azure Databricks

Spravovaná instance Azure pro Apache Cassandra poskytuje automatizované operace nasazení a škálování pro spravovaná datacentra Apache Cassandra s otevřeným zdrojem, zrychluje hybridní scénáře a snižuje průběžnou údržbu.

Tento rychlý start ukazuje použití Azure Portal k vytvoření plně spravovaného clusteru Apache Spark v rámci Azure Virtual Network vašeho clusteru Azure Managed Instance for Apache Cassandra. Cluster Spark vytvoříte v Azure Databricks. Později můžete vytvářet nebo připojovat poznámkové bloky ke clusteru, číst data z různých zdrojů dat a analyzovat přehledy.

Další informace najdete také v podrobných pokynech k nasazení Azure Databricks ve službě Azure Virtual Network (Virtual Network injection).

Vytvoření Azure Databricks clusteru

Postupujte podle těchto kroků a vytvořte Azure Databricks clusteru v Virtual Network, který má spravovanou instanci Azure pro Apache Cassandra:

  1. Přihlaste se k webu Azure Portal.

  2. V levém navigačním panelu vyhledejte Skupiny prostředků a přejděte do vaší skupiny prostředků, která obsahuje Virtual Network, kde je vaše spravovaná instance nasazená.

  3. Otevřete prostředek Virtual Network a poznamenejte si adresní prostor:

    Získejte adresní prostor vašeho Virtual Network.

  4. Ve skupině prostředků vyberte Přidat a vyhledejte Azure Databricks do vyhledávacího pole:

    Vyhledejte Azure Databricks.

  5. Výběrem možnosti Vytvořit vytvořte Azure Databricks účet:

    Vytvořte Azure Databricks účet.

  6. Vyplňte následující hodnoty:

    • Název pracovního prostoru – Zadejte název pracovního prostoru Databricks.
    • Oblast – Nezapomeňte vybrat stejnou oblast jako pro Virtual Network.
    • Cenová úroveň – Zvolte mezi standardem, Premium nebo zkušební verzí. Další informace o těchto úrovních najdete na stránce s cenami za Databricks.

    Vyplňte název pracovního prostoru, oblast a cenovou úroveň pro účet Databricks.

  7. Dále vyberte kartu Sítě a vyplňte následující podrobnosti:

    • Nasazení Azure Databricks pracovního prostoru ve vaší Virtual Network (VNet) – Vyberte Ano.
    • Virtual Network – V rozevíracím seznamu vyberte Virtual Network, kde vaše spravovaná instance existuje.
    • Název veřejné podsítě – Zadejte název veřejné podsítě.
    • Rozsah CIDR veřejné podsítě – Zadejte rozsah IP adres pro veřejnou podsíť.
    • Název privátní podsítě – Zadejte název privátní podsítě.
    • Rozsah CIDR privátní podsítě – Zadejte rozsah IP adres pro privátní podsíť.

    Pokud se chcete vyhnout kolizím v rozsahu, ujistěte se, že vybíráte vyšší rozsahy. V případě potřeby rozdělte rozsahy pomocí kalkulačky podsítě vizuálu:

    Použijte kalkulačku Virtual Network podsítě.

    Následující snímek obrazovky ukazuje podrobnosti příkladu v podokně sítě:

    Zadejte názvy veřejných a privátních podsítí.

  8. Vyberte Zkontrolovat a vytvořit a pak Vytvořit. Pracovní prostor se nasadí.

  9. Po vytvoření spusťte pracovní prostor.

  10. Budete přesměrováni na portál Azure Databricks. Na portálu vyberte Nový cluster.

  11. V podokně Nový cluster přijměte výchozí hodnoty pro všechna jiná pole, než jsou následující:

    • Název clusteru – Zadejte název clusteru.
    • Databricks Runtime verze – Pro podporu Sparku 3.x doporučujeme vybrat Modul runtime Databricks verze 7.5 nebo novější.

    Vyberte verzi modulu runtime Databricks a cluster Spark.

  12. Rozbalte Upřesnit možnosti a přidejte následující konfiguraci. Nezapomeňte nahradit IP adresy a přihlašovací údaje uzlu:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Přidejte do Apache Spark knihovnu konektoru Cassandra pro připojení k nativním koncovým bodům a koncovým bodům Cassandra služby Azure Cosmos DB. V clusteru vyberte Libraries > Install New Maven (Knihovny – nainstalovat > nový Maven) a pak přidejte souřadnice com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 Mavenu.

Snímek obrazovky znázorňuje hledání balíčků Maven v Databricks

Vyčištění prostředků

Pokud tento cluster spravovaných instancí nadále používat nadále, odstraňte ho pomocí následujících kroků:

  1. V nabídce vlevo v části Azure Portal vyberte Skupiny prostředků.
  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili pro tento rychlý start.
  3. V podokně Přehled skupiny prostředků vyberte Odstranit skupinu prostředků.
  4. V dalším okně zadejte název skupiny prostředků, která se má odstranit, a pak vyberte Odstranit.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit plně spravovaný cluster Apache Spark v rámci Virtual Network vaší spravované instance Azure pro cluster Apache Cassandra. Dále se dozvíte, jak spravovat prostředky clusteru a datacentra: