Volba technologie dávkového zpracování v Azure

Řešení pro velké objemy dat často využívají dlouhodobě běžící dávkové úlohy k filtrování, agregaci a další přípravě dat pro analýzu. tyto úlohy obvykle zahrnují čtení zdrojových souborů z škálovatelného úložiště (jako HDFS, Azure Data Lake Store a Azure Storage), jejich zpracování a zápis výstupu do nových souborů v škálovatelném úložišti.

Klíčovým požadavkem těchto modulů pro dávkové zpracování je schopnost škálovat výpočetní prostředky, aby bylo možné zpracovávat velké objemy dat. Na rozdíl od zpracování v reálném čase se ale očekává, že dávkové zpracování bude mít latenci (čas mezi příjmem dat a výpočetem výsledku), který měří v řádu minut až hodin.

Volby technologie pro dávkové zpracování

Azure Synapse Analytics

Azure synapse je distribuovaný systém navržený tak, aby prováděl analýzy velkých objemů dat. Podporuje obrovský paralelní zpracování (MPP), které je vhodné pro spouštění vysoce výkonných analýz. Vezměte v úvahu Azure synapse, když máte velké objemy dat (více než 1 TB) a že máte spuštěnou úlohu analýzy, která bude výhodná pro paralelismus.

Azure Data Lake Analytics

Data Lake Analytics je služba analytických úloh na vyžádání. Je optimalizovaný pro distribuované zpracování velmi rozsáhlých datových sad uložených v Azure Data Lake Store.

  • jazyky: U-SQL (včetně rozšíření Python, R a C#).
  • integruje se s Azure Data Lake Store, Azure Storage objektů blob, Azure SQL Database a Azure Synapse.
  • Cenový model je na úlohu.

HDInsight

HDInsight je spravovaná služba Hadoop. Použijte k tomu nasazení a správu clusterů Hadoop v Azure. pro dávkové zpracování můžete použít Spark, podregistr, LLAP podregistru, MapReduce.

  • Jazyky: R, Python, Java, Scala, SQL
  • Ověřování protokolem Kerberos se službou Active Directory, řízení přístupu na základě Apache Ranger
  • Poskytuje plnou kontrolu nad clusterem Hadoop.

Azure Databricks

Azure Databricks je analytická platforma založená na Apache Spark. Můžete si ho představit jako službu jako Spark. Je to nejjednodušší způsob, jak použít Spark na platformě Azure.

  • Jazyky: R, Python, Java, Scala, Spark SQL
  • Rychlé časy spuštění clusteru, automatické ukončení, automatické škálování.
  • Spravuje cluster Spark za vás.
  • integrovaná integrace s azure Blob Storage, Azure Data Lake Storage (ADLS), azure Synapse a dalšími službami. Zobrazit zdroje dat.
  • Ověřování uživatelů pomocí Azure Active Directory.
  • Webové poznámkové bloky pro spolupráci a zkoumání dat.
  • Podporuje clustery s podporou GPU .

Toolkit pro strojírenství distribuovaných dat v Azure

AZTK ( distributed Data Engineering Toolkit ) je nástroj pro zřizování prostředí Spark na vyžádání pro prostředí docker v Azure.

AZTK není služba Azure. Místo toho se jedná o nástroj na straně klienta s rozhraním CLI a Python SDK, které je postavené na Azure Batch. Tato možnost poskytuje největší kontrolu nad infrastrukturou při nasazování clusteru Spark.

  • Využijte vlastní image Docker.
  • Pro 80% slevu použijte virtuální počítače s nízkou prioritou.
  • Clustery se smíšeným režimem, které používají virtuální počítače s nízkou a vyhrazenou prioritou.
  • integrovaná podpora pro Azure Blob Storage a připojení Azure Data Lake.

Kritéria výběru klíče

Pokud chcete zúžit možnosti, začněte tím, že odpovíte na tyto otázky:

  • Chcete místo správy vlastních serverů používat spravovanou službu?

  • Chcete vytvořit logiku dávkového zpracování deklarativně nebo imperativně?

  • Budete provádět dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které vám umožní automaticky ukončit cluster nebo jehož cenový model je na úlohu služby Batch.

  • Potřebujete dotazovat se na relační úložiště dat společně se zpracováním dávek, například pro vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazování externích relačních úložišť.

Matice schopností

V následujících tabulkách jsou shrnuté klíčové rozdíly ve funkcích.

Obecné možnosti

Schopnost Azure Data Lake Analytics Azure Synapse HDInsight Azure Databricks
Je spravovaná služba Ano Ano Ano 1 Ano
Relační úložiště dat Ano Ano Ne Ne
Cenový model Na úlohu Batch Podle hodiny clusteru Podle hodiny clusteru Datacihly jednotka2 + hodina clusteru

[1] s ruční konfigurací.

[2] jednotka datacihly (DBU) je jednotka funkce zpracování za hodinu.

Možnosti

Schopnost Azure Data Lake Analytics Azure Synapse HDInsight s Sparkem HDInsight s podregistrem HDInsight s LLAPm podregistr Azure Databricks
Automatické škálování Ne Ne Ano Ano Ano Ano
Členitost na horizontální navýšení kapacity Na úlohu Za cluster Za cluster Za cluster Za cluster Na cluster
Ukládání dat do mezipaměti v paměti Ne Ano Ano Ne Ano Ano
Dotazování z externích relačních úložišť Ano Ne Ano Ne Ne Ano
Authentication Azure AD SQL / Azure AD Ne Azure AD1 Azure AD1 Azure AD
Auditování Ano Ano No Ano 1 Ano 1 Ano
Zabezpečení na úrovni řádků Ne Ano2 No Ano 1 Ano 1 Ne
Podporuje brány firewall. Ano Ano Ano Ano 3 Ano 3 No
Dynamické maskování dat Ne Ano No Ano 1 Ano 1 Ne

[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.

[2] Pouze predikáty filtru. Viz Zabezpečení na úrovni řádků.

[3] Podporováno při použití v rámci azure Virtual Network.

Další kroky