Szybki start: wdrażanie zarządzanego klastra Apache Spark przy użyciu usługi Azure Databricks

Usługa Azure Managed Instance for Apache Cassandra udostępnia zautomatyzowane operacje wdrażania i skalowania dla zarządzanych centrów danych Apache Cassandra typu open source. Ta funkcja przyspiesza scenariusze hybrydowe i zmniejsza ciągłą konserwację.

W tym przewodniku Szybki start pokazano, jak za pomocą Azure Portal utworzyć w pełni zarządzany klaster Apache Spark w usłudze Azure Virtual Network wystąpienia zarządzanego platformy Azure dla klastra Apache Cassandra. Klaster Spark jest tworzony w usłudze Azure Databricks. Później można tworzyć lub dołączać notesy do klastra, odczytywać dane z różnych źródeł danych i analizować szczegółowe informacje.

Aby dowiedzieć się więcej, zapoznaj się ze szczegółowymi instrukcjami dotyczącymi wdrażania usługi Azure Databricks w usłudze Azure Virtual Network (Virtual Network iniekcja).

Wymagania wstępne

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Tworzenie klastra usługi Azure Databricks

Wykonaj następujące kroki, aby utworzyć klaster usługi Azure Databricks w Virtual Network z wystąpieniem zarządzanym platformy Azure dla usługi Apache Cassandra:

  1. Zaloguj się do Azure portal.

  2. W okienku nawigacji po lewej stronie znajdź pozycję Grupy zasobów. Przejdź do grupy zasobów zawierającej Virtual Network, w której jest wdrażane wystąpienie zarządzane.

  3. Otwórz zasób Virtual Network i zanotuj przestrzeń adresową:

    Zrzut ekranu pokazuje, gdzie uzyskać przestrzeń adresową Virtual Network.

  4. W grupie zasobów wybierz pozycję Dodaj i wyszukaj usługę Azure Databricks w polu wyszukiwania:

    Zrzut ekranu przedstawia wyszukiwanie usługi Azure Databricks.

  5. Wybierz pozycję Utwórz, aby utworzyć konto usługi Azure Databricks:

    Zrzut ekranu przedstawia ofertę usługi Azure Databricks z wybranym przyciskiem Utwórz.

  6. Podaj następujące wartości:

    • Nazwa obszaru roboczego Podaj nazwę obszaru roboczego usługi Databricks.
    • Region Pamiętaj, aby wybrać ten sam region co Virtual Network.
    • Warstwa cenowa Wybierz opcję Standardowa, Premium lub Wersja próbna. Aby uzyskać więcej informacji o tych warstwach, zobacz stronę usługi Databricks.

    Zrzut ekranu przedstawia okno dialogowe, w którym można wprowadzić nazwę obszaru roboczego, region i warstwę cenową dla konta usługi Databricks.

  7. Następnie wybierz kartę Sieć i wprowadź następujące szczegóły:

    • Wdróż obszar roboczy usługi Azure Databricks w Virtual Network (sieć wirtualna) wybierz pozycję Tak.
    • Virtual Network z listy rozwijanej wybierz Virtual Network, w którym istnieje wystąpienie zarządzane.
    • Nazwa podsieci publicznej Wprowadź nazwę podsieci publicznej.
    • Zakres ciDR podsieci publicznej Wprowadź zakres adresów IP dla podsieci publicznej.
    • Nazwa podsieci prywatnej Wprowadź nazwę podsieci prywatnej.
    • Zakres ciDR podsieci prywatnej Wprowadź zakres adresów IP dla podsieci prywatnej.

    Aby uniknąć kolizji zakresu, upewnij się, że wybrano wyższe zakresy. W razie potrzeby użyj kalkulatora podsieci wizualizacji , aby podzielić zakresy:

    Zrzut ekranu przedstawia kalkulator podsieci wizualizacji z dwoma wyróżnionymi identycznymi adresami sieciowymi.

    Poniższy zrzut ekranu przedstawia przykładowe szczegóły okienka sieci:

    Zrzut ekranu przedstawia określone nazwy podsieci publicznej i prywatnej.

  8. Wybierz pozycję Przejrzyj i utwórz, a następnie pozycję Utwórz , aby wdrożyć obszar roboczy.

  9. Uruchom obszar roboczy po jego utworzeniu.

  10. Nastąpi przekierowanie do portalu usługi Azure Databricks. W portalu wybierz pozycję Nowy klaster.

  11. W okienku Nowy klaster zaakceptuj wartości domyślne dla wszystkich pól innych niż następujące pola:

    • Nazwa klastra Wprowadź nazwę klastra.
    • Wersja środowiska uruchomieniowego usługi Databricks Zalecamy wybranie środowiska Uruchomieniowego usługi Databricks w wersji 7.5 lub nowszej dla obsługi platformy Spark 3.x.

    Zrzut ekranu przedstawia okno dialogowe Nowy klaster z wybraną wersją środowiska uruchomieniowego usługi Databricks.

  12. Rozwiń węzeł Opcje zaawansowane i dodaj następującą konfigurację. Pamiętaj o zastąpieniu adresów IP i poświadczeń węzła:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Dodaj bibliotekę łącznika Apache Spark Cassandra do klastra, aby nawiązać połączenie z punktami końcowymi natywnymi i punktami końcowymi cassandra usługi Azure Cosmos DB. W klastrze wybierz pozycję Biblioteki>Zainstaluj nowy>program Maven, a następnie dodaj współrzędne com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 narzędzia Maven.

Zrzut ekranu przedstawiający wyszukiwanie pakietów Maven w usłudze Databricks.

Czyszczenie zasobów

Jeśli nie zamierzasz nadal korzystać z tego klastra wystąpień zarządzanych, usuń go, wykonując następujące czynności:

  1. W menu po lewej stronie Azure Portal wybierz pozycję Grupy zasobów.
  2. Z listy wybierz grupę zasobów utworzoną na potrzeby tego przewodnika Szybki start.
  3. W okienku Przegląd grupy zasobów wybierz pozycję Usuń grupę zasobów.
  4. W następnym oknie wprowadź nazwę grupy zasobów do usunięcia, a następnie wybierz pozycję Usuń.

Następne kroki

W tym przewodniku Szybki start przedstawiono sposób tworzenia w pełni zarządzanego klastra Apache Spark w Virtual Network wystąpienia zarządzanego platformy Azure dla klastra Apache Cassandra. Następnie dowiesz się, jak zarządzać zasobami klastra i centrum danych: