Szybki start: tworzenie bezserwerowej puli platformy Apache Spark przy użyciu programu Synapse Studio

Usługa Azure Synapse Analytics oferuje różne aparaty analityczne, które ułatwiają pozyskiwanie, przekształcanie, modelowanie, analizowanie i obsługiwanie danych. Pula platformy Apache Spark oferuje możliwości obliczeń big data typu open source. Po utworzeniu puli platformy Apache Spark w obszarze roboczym usługi Synapse można ładować, modelować, przetwarzać i obsługiwać dane w celu uzyskania szczegółowych informacji.

W tym przewodniku Szybki start opisano kroki tworzenia puli platformy Apache Spark w obszarze roboczym usługi Synapse przy użyciu programu Synapse Studio.

Ważne

Rozliczenia wystąpień platformy Spark są naliczane proporcjonalnie na minutę, niezależnie od tego, czy są używane. Pamiętaj, aby zamknąć wystąpienie platformy Spark po zakończeniu korzystania z niego lub ustawić krótki limit czasu. Aby uzyskać więcej informacji, zobacz sekcję Czyszczenie zasobów w tym artykule.

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Wymagania wstępne

Zaloguj się do witryny Azure Portal.

Zaloguj się do witryny Azure Portal.

  1. Przejdź do obszaru roboczego usługi Synapse, w którym zostanie utworzona pula platformy Apache Spark, wpisując nazwę usługi (lub nazwę zasobu bezpośrednio) na pasku wyszukiwania. Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. Z listy obszarów roboczych wpisz nazwę (lub część nazwy) obszaru roboczego do otwarcia. W tym przykładzie używamy obszaru roboczego o nazwie contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Uruchamianie programu Synapse Studio

Z przeglądu obszaru roboczego wybierz internetowy adres URL obszaru roboczego, aby otworzyć program Synapse Studio.

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

Tworzenie puli platformy Apache Spark w programie Synapse Studio

Ważne

Środowisko Uruchomieniowe usługi Azure Synapse dla platformy Apache Spark 2.4 zostało wycofane i oficjalnie nie jest obsługiwane od września 2023 r. Biorąc pod uwagę, że platforma Spark 3.1 i platforma Spark 3.2 są również ogłaszane jako koniec wsparcia technicznego, zalecamy przeprowadzenie migracji klientów do platformy Spark 3.3.

  1. Na stronie głównej programu Synapse Studio przejdź do centrum zarządzania w lewym obszarze nawigacyjnym, wybierając ikonę Zarządzaj . Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. Po przejściu do sekcji Pule platformy Apache Spark w centrum zarządzania przejdź do bieżącej listy pul platformy Apache Spark dostępnych w obszarze roboczym. Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. Wybierz pozycję + Nowy , a zostanie wyświetlony nowy kreator tworzenia puli platformy Apache Spark.

  4. Wprowadź następujące szczegóły na karcie Podstawy :

    Ustawienie Sugerowana wartość Opis
    Nazwa puli platformy Apache Spark Prawidłowa nazwa puli, na przykład contosospark Jest to nazwa, którą będzie miała pula platformy Apache Spark.
    Rozmiar węzła Mały (4 procesory wirtualne / 32 GB) Ustaw ten rozmiar na najmniejszy, aby zmniejszyć koszty dla tego przewodnika Szybki start
    Skalowanie automatyczne Disabled W tym przewodniku Szybki start nie będziemy potrzebować automatycznego skalowania
    Liczba węzłów 8 Użyj małego rozmiaru, aby ograniczyć koszty w tym przewodniku Szybki start
    Dynamiczne przydzielanie funkcji wykonawczych Disabled To ustawienie mapuje na właściwość alokacji dynamicznej w konfiguracji platformy Spark dla alokacji funkcji wykonawczych aplikacji platformy Spark. W tym przewodniku Szybki start nie będziemy potrzebować automatycznego skalowania.

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    Ważne

    Istnieją określone ograniczenia dotyczące nazw, których mogą używać pule platformy Apache Spark. Nazwy muszą zawierać tylko litery lub cyfry, muszą zawierać co najmniej 15 znaków, muszą zaczynać się literą, nie zawierać wyrazów zarezerwowanych i być unikatowe w obszarze roboczym.

  5. Na następnej karcie Ustawienia dodatkowe pozostaw wartości domyślne dla wszystkich ustawień.

  6. Wybierz pozycję Tagi. Rozważ użycie tagów platformy Azure. Na przykład tag "Właściciel" lub "CreatedBy", aby zidentyfikować, kto utworzył zasób, oraz tag "Środowisko", aby określić, czy ten zasób znajduje się w środowisku produkcyjnym, programistycznym itp. Aby uzyskać więcej informacji, zobacz Develop your naming and tagging strategy for Azure resources (Opracowywanie strategii nazewnictwa i tagowania zasobów platformy Azure). Gdy wszystko będzie gotowe, wybierz pozycję Przejrzyj i utwórz.

  7. Na karcie Przeglądanie + tworzenie upewnij się, że szczegóły wyglądają poprawnie na podstawie tego, co zostało wcześniej wprowadzone, i naciśnij przycisk Utwórz.

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Pula platformy Apache Spark rozpocznie proces aprowizacji.

  9. Po zakończeniu aprowizacji nowa pula platformy Apache Spark zostanie wyświetlona na liście.

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Czyszczenie zasobów puli platformy Apache Spark przy użyciu programu Synapse Studio

Poniższe kroki usuwają pulę platformy Apache Spark z obszaru roboczego przy użyciu programu Synapse Studio.

Ostrzeżenie

Usunięcie puli platformy Spark spowoduje usunięcie aparatu analizy z obszaru roboczego. Połączenie z pulą nie będzie już możliwe, a wszystkie zapytania, potoki i notesy korzystające z tej puli platformy Spark nie będą już działać.

Jeśli chcesz usunąć pulę platformy Apache Spark, wykonaj następujące kroki:

  1. Przejdź do pul platformy Apache Spark w centrum zarządzania w programie Synapse Studio.

  2. Wybierz wielokropek obok puli Apache, która ma zostać usunięta (w tym przypadku contosospark), aby wyświetlić polecenia dla puli platformy Apache Spark.

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. Wybierz Usuń.

  4. Potwierdź usunięcie i naciśnij przycisk Usuń .

  5. Po pomyślnym zakończeniu procesu pula platformy Apache Spark nie będzie już wyświetlana w zasobach obszaru roboczego.