Wybieranie technologii przetwarzania wsadowego na platformie Azure
Rozwiązania do obsługi danych big data często używają długotrwałych zadań wsadowych do filtrowania, agregowania i przygotowywania danych do analizy. Zazwyczaj te zadania obejmują odczytywanie plików źródłowych ze skalowalnego magazynu (takiego jak HDFS, Azure Data Lake Store i Azure Storage), ich przetwarzanie i zapisywanie danych wyjściowych do nowych plików w skalowalnym magazynie.
Podstawowym wymaganiem takich aparatów przetwarzania wsadowego jest skalowanie obliczeń w poziomie w celu obsługi dużej ilości danych. W przeciwieństwie do przetwarzania w czasie rzeczywistym oczekuje się, że przetwarzanie wsadowe ma opóźnienia (czas między pozyskiwaniem danych i obliczaniem wyniku), które mierzy się w ciągu kilku minut do godzin.
Wybór technologii do przetwarzania wsadowego
Azure Synapse Analytics
Usługa Azure Synapse to rozproszony system przeznaczony do przeprowadzania analiz na dużych danych. Obsługuje równoległe przetwarzanie ogromnej ilości danych (MPP), dzięki czemu pozwala na uruchamianie analiz o wysokiej wydajności. Rozważ użycie usługi Azure Synapse, jeśli masz duże ilości danych (więcej niż 1 TB) i uruchamiasz obciążenie analityczne, które będzie korzystać z równoległości.
Azure Data Lake Analytics
Data Lake Analytics to usługa zadań analizy na żądanie. Jest ona zoptymalizowana pod kątem rozproszonego przetwarzania dużych zestawów danych przechowywanych w usłudze Azure Data Lake Store.
- Języki: U-SQL (w tym rozszerzenia języka Python, R i C#).
- Integruje się z usługą Azure Data Lake Store, obiektami blob usługi Azure Storage, usługą Azure SQL Database i usługą Azure Synapse.
- Model cen jest modelem na zadanie.
HDInsight
HDInsight to zarządzana usługa Hadoop. Służy do wdrażania klastrów Hadoop i zarządzania nimi na platformie Azure. W przypadku przetwarzania wsadowego można użyć platform Spark, Hive, Hive LLAP, MapReduce.
- Języki: R, Python, Java, Scala, SQL
- Uwierzytelnianie Kerberos za pomocą usługi Active Directory, kontroli dostępu opartej na platformie Apache Ranger
- Zapewnia pełną kontrolę nad klastrem Hadoop
Azure Databricks
Azure Databricks to platforma analizy oparta na platformie Apache Spark. Możesz traktować ją jako "Spark jako usługę". Jest to najprostszy sposób korzystania z platformy Spark na platformie Azure.
- Języki: R, Python, Java, Scala, Spark SQL
- Szybkie czasy uruchamiania klastra, autoterminacja, skalowanie automatyczne.
- Zarządza klastrem Spark.
- Wbudowana integracja z usługami Azure Blob Storage, Azure Data Lake Storage (ADLS), Azure Synapse i innymi usługami. Zobacz Źródła danych.
- Uwierzytelnianie użytkownika za pomocą identyfikatora Entra firmy Microsoft.
- Notesy internetowe do współpracy i eksploracji danych.
- Obsługuje klastry z obsługą procesora GPU
Kluczowe kryteria wyboru
Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:
Czy chcesz zarządzać usługą zarządzaną zamiast zarządzać własnymi serwerami?
Czy chcesz utworzyć logikę przetwarzania wsadowego deklaratywnie lub imperatywnie?
Czy wykonasz przetwarzanie wsadowe w seriach? Jeśli tak, rozważ opcje, które umożliwiają automatyczne zakończenie klastra lub którego model cenowy jest zadaniem wsadowym.
Czy należy wykonywać zapytania dotyczące relacyjnych magazynów danych wraz z przetwarzaniem wsadowym, na przykład w celu wyszukania danych referencyjnych? Jeśli tak, rozważ opcje, które umożliwiają wykonywanie zapytań dotyczących zewnętrznych magazynów relacyjnych.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Ogólne możliwości
Możliwość | Azure Data Lake Analytics | Azure Synapse | HDInsight | Azure Databricks |
---|---|---|---|---|
Jest usługą zarządzaną | Tak | Tak | Tak 1 | Tak |
Relacyjny magazyn danych | Tak | Tak | Nie | Tak |
Model cen | Zadanie wsadowe | Według godziny klastra | Według godziny klastra | Jednostka2 usługi Databricks i godzina klastra |
[1] Z ręczną konfiguracją.
[2] Jednostka usługi Databricks (DBU) to jednostka możliwości przetwarzania na godzinę.
Funkcje
Możliwość | Azure Data Lake Analytics | Azure Synapse | Usługa HDInsight z platformą Spark | Usługa HDInsight z programem Hive | Usługa HDInsight z usługą Hive LLAP | Azure Databricks |
---|---|---|---|---|---|---|
Skalowanie automatyczne | Nie | Nie. | Tak | Tak | Tak | Tak |
Stopień szczegółowości skalowania w poziomie | Za zadanie | Na klaster | Na klaster | Na klaster | Na klaster | Na klaster |
Buforowanie danych w pamięci | Nie. | Tak | Tak | Nie | Tak | Tak |
Wykonywanie zapytań z relacyjnych magazynów zewnętrznych | Tak | Nie | Tak | Nie. | Nie. | Tak |
Uwierzytelnianie | Tożsamość Microsoft Entra | SQL/ Microsoft Entra ID | Nie. | Microsoft Entra ID1 | Microsoft Entra ID1 | Tożsamość Microsoft Entra |
Inspekcja | Tak | Tak | Nie. | Tak 1 | Tak 1 | Tak |
Zabezpieczenia na poziomie wiersza | Nie. | Tak2 | Nie | Tak 1 | Tak 1 | Tak |
Obsługuje zapory | Tak | Tak | Tak | Tak 3 | Tak 3 | Tak |
Dynamiczne maskowanie danych | Nie. | Tak | Nie. | Tak 1 | Tak 1 | Tak |
[1] Wymaga użycia przyłączonego do domeny klastra usługi HDInsight.
[2] Tylko predykaty filtru. Zobacz Zabezpieczenia na poziomie wiersza
[3] Obsługiwane w przypadku użycia w sieci wirtualnej platformy Azure.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Tworzenie bazy danych lake w usłudze Azure Synapse Analytics
- Tworzenie obszaru roboczego usługi Azure Databricks
- Eksplorowanie usługi Azure Databricks
- Rozpoczynanie pracy z usługą Azure Data Lake Analytics przy użyciu witryny Azure Portal
- Wprowadzenie do usługi Azure Synapse Analytics
- Co to jest usługa Azure Databricks?
- Co to jest usługa Azure Synapse Analytics?
Powiązane zasoby
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla