Wybieranie technologii przetwarzania wsadowego na platformie Azure

Rozwiązania do obsługi danych big data często używają długotrwałych zadań wsadowych do filtrowania, agregowania i przygotowywania danych do analizy. Zazwyczaj te zadania obejmują odczytywanie plików źródłowych ze skalowalnego magazynu (takiego jak HDFS, Azure Data Lake Store i Azure Storage), ich przetwarzanie i zapisywanie danych wyjściowych do nowych plików w skalowalnym magazynie.

Podstawowym wymaganiem takich aparatów przetwarzania wsadowego jest skalowanie obliczeń w poziomie w celu obsługi dużej ilości danych. W przeciwieństwie do przetwarzania w czasie rzeczywistym oczekuje się, że przetwarzanie wsadowe ma opóźnienia (czas między pozyskiwaniem danych i obliczaniem wyniku), które mierzy się w ciągu kilku minut do godzin.

Wybór technologii do przetwarzania wsadowego

Azure Synapse Analytics

Usługa Azure Synapse to rozproszony system przeznaczony do przeprowadzania analiz na dużych danych. Obsługuje równoległe przetwarzanie ogromnej ilości danych (MPP), dzięki czemu pozwala na uruchamianie analiz o wysokiej wydajności. Rozważ użycie usługi Azure Synapse, jeśli masz duże ilości danych (więcej niż 1 TB) i uruchamiasz obciążenie analityczne, które będzie korzystać z równoległości.

Azure Data Lake Analytics

Data Lake Analytics to usługa zadań analizy na żądanie. Jest ona zoptymalizowana pod kątem rozproszonego przetwarzania dużych zestawów danych przechowywanych w usłudze Azure Data Lake Store.

  • Języki: U-SQL (w tym rozszerzenia języka Python, R i C#).
  • Integruje się z usługą Azure Data Lake Store, obiektami blob usługi Azure Storage, usługą Azure SQL Database i usługą Azure Synapse.
  • Model cen jest modelem na zadanie.

HDInsight

HDInsight to zarządzana usługa Hadoop. Służy do wdrażania klastrów Hadoop i zarządzania nimi na platformie Azure. W przypadku przetwarzania wsadowego można użyć platform Spark, Hive, Hive LLAP, MapReduce.

  • Języki: R, Python, Java, Scala, SQL
  • Uwierzytelnianie Kerberos za pomocą usługi Active Directory, kontroli dostępu opartej na platformie Apache Ranger
  • Zapewnia pełną kontrolę nad klastrem Hadoop

Azure Databricks

Azure Databricks to platforma analizy oparta na platformie Apache Spark. Możesz traktować ją jako "Spark jako usługę". Jest to najprostszy sposób korzystania z platformy Spark na platformie Azure.

  • Języki: R, Python, Java, Scala, Spark SQL
  • Szybkie czasy uruchamiania klastra, autoterminacja, skalowanie automatyczne.
  • Zarządza klastrem Spark.
  • Wbudowana integracja z usługami Azure Blob Storage, Azure Data Lake Storage (ADLS), Azure Synapse i innymi usługami. Zobacz Źródła danych.
  • Uwierzytelnianie użytkownika za pomocą identyfikatora Entra firmy Microsoft.
  • Notesy internetowe do współpracy i eksploracji danych.
  • Obsługuje klastry z obsługą procesora GPU

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

  • Czy chcesz zarządzać usługą zarządzaną zamiast zarządzać własnymi serwerami?

  • Czy chcesz utworzyć logikę przetwarzania wsadowego deklaratywnie lub imperatywnie?

  • Czy wykonasz przetwarzanie wsadowe w seriach? Jeśli tak, rozważ opcje, które umożliwiają automatyczne zakończenie klastra lub którego model cenowy jest zadaniem wsadowym.

  • Czy należy wykonywać zapytania dotyczące relacyjnych magazynów danych wraz z przetwarzaniem wsadowym, na przykład w celu wyszukania danych referencyjnych? Jeśli tak, rozważ opcje, które umożliwiają wykonywanie zapytań dotyczących zewnętrznych magazynów relacyjnych.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Możliwość Azure Data Lake Analytics Azure Synapse HDInsight Azure Databricks
Jest usługą zarządzaną Tak Tak Tak 1 Tak
Relacyjny magazyn danych Tak Tak Nie Tak
Model cen Zadanie wsadowe Według godziny klastra Według godziny klastra Jednostka2 usługi Databricks i godzina klastra

[1] Z ręczną konfiguracją.

[2] Jednostka usługi Databricks (DBU) to jednostka możliwości przetwarzania na godzinę.

Funkcje

Możliwość Azure Data Lake Analytics Azure Synapse Usługa HDInsight z platformą Spark Usługa HDInsight z programem Hive Usługa HDInsight z usługą Hive LLAP Azure Databricks
Skalowanie automatyczne Nie Nie. Tak Tak Tak Tak
Stopień szczegółowości skalowania w poziomie Za zadanie Na klaster Na klaster Na klaster Na klaster Na klaster
Buforowanie danych w pamięci Nie. Tak Tak Nie Tak Tak
Wykonywanie zapytań z relacyjnych magazynów zewnętrznych Tak Nie Tak Nie. Nie. Tak
Uwierzytelnianie Tożsamość Microsoft Entra SQL/ Microsoft Entra ID Nie. Microsoft Entra ID1 Microsoft Entra ID1 Tożsamość Microsoft Entra
Inspekcja Tak Tak Nie. Tak 1 Tak 1 Tak
Zabezpieczenia na poziomie wiersza Nie. Tak2 Nie Tak 1 Tak 1 Tak
Obsługuje zapory Tak Tak Tak Tak 3 Tak 3 Tak
Dynamiczne maskowanie danych Nie. Tak Nie. Tak 1 Tak 1 Tak

[1] Wymaga użycia przyłączonego do domeny klastra usługi HDInsight.

[2] Tylko predykaty filtru. Zobacz Zabezpieczenia na poziomie wiersza

[3] Obsługiwane w przypadku użycia w sieci wirtualnej platformy Azure.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki