Wybieranie technologii przetwarzania wsadowego na platformie Azure

Artykuł
10/20/2023

Rozwiązania do obsługi danych big data często używają długotrwałych zadań wsadowych do filtrowania, agregowania i przygotowywania danych do analizy. Zazwyczaj te zadania obejmują odczytywanie plików źródłowych ze skalowalnego magazynu (takiego jak HDFS, Azure Data Lake Store i Azure Storage), ich przetwarzanie i zapisywanie danych wyjściowych do nowych plików w skalowalnym magazynie.

Podstawowym wymaganiem takich aparatów przetwarzania wsadowego jest skalowanie obliczeń w poziomie w celu obsługi dużej ilości danych. W przeciwieństwie do przetwarzania w czasie rzeczywistym oczekuje się, że przetwarzanie wsadowe ma opóźnienia (czas między pozyskiwaniem danych i obliczaniem wyniku), które mierzy się w ciągu kilku minut do godzin.

Wybór technologii do przetwarzania wsadowego

Azure Synapse Analytics

Usługa Azure Synapse to rozproszony system przeznaczony do przeprowadzania analiz na dużych danych. Obsługuje równoległe przetwarzanie ogromnej ilości danych (MPP), dzięki czemu pozwala na uruchamianie analiz o wysokiej wydajności. Rozważ użycie usługi Azure Synapse, jeśli masz duże ilości danych (więcej niż 1 TB) i uruchamiasz obciążenie analityczne, które będzie korzystać z równoległości.

Azure Data Lake Analytics

Data Lake Analytics to usługa zadań analizy na żądanie. Jest ona zoptymalizowana pod kątem rozproszonego przetwarzania dużych zestawów danych przechowywanych w usłudze Azure Data Lake Store.

Języki: U-SQL (w tym rozszerzenia języka Python, R i C#).
Integruje się z usługą Azure Data Lake Store, obiektami blob usługi Azure Storage, usługą Azure SQL Database i usługą Azure Synapse.
Model cen jest modelem na zadanie.

HDInsight

HDInsight to zarządzana usługa Hadoop. Służy do wdrażania klastrów Hadoop i zarządzania nimi na platformie Azure. W przypadku przetwarzania wsadowego można użyć platform Spark, Hive, Hive LLAP, MapReduce.

Języki: R, Python, Java, Scala, SQL
Uwierzytelnianie Kerberos za pomocą usługi Active Directory, kontroli dostępu opartej na platformie Apache Ranger
Zapewnia pełną kontrolę nad klastrem Hadoop

Azure Databricks

Azure Databricks to platforma analizy oparta na platformie Apache Spark. Możesz traktować ją jako "Spark jako usługę". Jest to najprostszy sposób korzystania z platformy Spark na platformie Azure.

Języki: R, Python, Java, Scala, Spark SQL
Szybkie czasy uruchamiania klastra, autoterminacja, skalowanie automatyczne.
Zarządza klastrem Spark.
Wbudowana integracja z usługami Azure Blob Storage, Azure Data Lake Storage (ADLS), Azure Synapse i innymi usługami. Zobacz Źródła danych.
Uwierzytelnianie użytkownika za pomocą identyfikatora Entra firmy Microsoft.
Notesy internetowe do współpracy i eksploracji danych.
Obsługuje klastry z obsługą procesora GPU

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

Czy chcesz zarządzać usługą zarządzaną zamiast zarządzać własnymi serwerami?
Czy chcesz utworzyć logikę przetwarzania wsadowego deklaratywnie lub imperatywnie?
Czy wykonasz przetwarzanie wsadowe w seriach? Jeśli tak, rozważ opcje, które umożliwiają automatyczne zakończenie klastra lub którego model cenowy jest zadaniem wsadowym.
Czy należy wykonywać zapytania dotyczące relacyjnych magazynów danych wraz z przetwarzaniem wsadowym, na przykład w celu wyszukania danych referencyjnych? Jeśli tak, rozważ opcje, które umożliwiają wykonywanie zapytań dotyczących zewnętrznych magazynów relacyjnych.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Możliwość	Azure Data Lake Analytics	Azure Synapse	HDInsight	Azure Databricks
Jest usługą zarządzaną	Tak	Tak	Tak ¹	Tak
Relacyjny magazyn danych	Tak	Tak	Nie	Tak
Model cen	Zadanie wsadowe	Według godziny klastra	Według godziny klastra	Jednostka² usługi Databricks i godzina klastra

[1] Z ręczną konfiguracją.

[2] Jednostka usługi Databricks (DBU) to jednostka możliwości przetwarzania na godzinę.

Funkcje

Możliwość	Azure Data Lake Analytics	Azure Synapse	Usługa HDInsight z platformą Spark	Usługa HDInsight z programem Hive	Usługa HDInsight z usługą Hive LLAP	Azure Databricks
Skalowanie automatyczne	Nie	Nie.	Tak	Tak	Tak	Tak
Stopień szczegółowości skalowania w poziomie	Za zadanie	Na klaster	Na klaster	Na klaster	Na klaster	Na klaster
Buforowanie danych w pamięci	Nie.	Tak	Tak	Nie	Tak	Tak
Wykonywanie zapytań z relacyjnych magazynów zewnętrznych	Tak	Nie	Tak	Nie.	Nie.	Tak
Uwierzytelnianie	Tożsamość Microsoft Entra	SQL/ Microsoft Entra ID	Nie.	Microsoft Entra ID¹	Microsoft Entra ID¹	Tożsamość Microsoft Entra
Inspekcja	Tak	Tak	Nie.	Tak ¹	Tak ¹	Tak
Zabezpieczenia na poziomie wiersza	Nie.	Tak²	Nie	Tak ¹	Tak ¹	Tak
Obsługuje zapory	Tak	Tak	Tak	Tak ³	Tak ³	Tak
Dynamiczne maskowanie danych	Nie.	Tak	Nie.	Tak ¹	Tak ¹	Tak

[1] Wymaga użycia przyłączonego do domeny klastra usługi HDInsight.

[2] Tylko predykaty filtru. Zobacz Zabezpieczenia na poziomie wiersza

[3] Obsługiwane w przypadku użycia w sieci wirtualnej platformy Azure.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Zoiner Tejada | Dyrektor generalny i architekt

Wybieranie technologii przetwarzania wsadowego na platformie Azure

Wybór technologii do przetwarzania wsadowego

Azure Synapse Analytics

Azure Data Lake Analytics

HDInsight

Azure Databricks

Kluczowe kryteria wyboru

Macierz możliwości

Ogólne możliwości

Funkcje

Współautorzy

Następne kroki

Opinia

Opinia

Dodatkowe zasoby

Wybieranie technologii przetwarzania wsadowego na platformie Azure

Wybór technologii do przetwarzania wsadowego

Azure Synapse Analytics

Azure Data Lake Analytics

HDInsight

Azure Databricks

Kluczowe kryteria wyboru

Macierz możliwości

Ogólne możliwości

Funkcje

Współautorzy

Następne kroki

Powiązane zasoby

Opinia

Opinia

Dodatkowe zasoby