Volba technologie dávkového zpracování v Azure
Řešení pro velké objemy dat často využívají dlouhodobě běžící dávkové úlohy k filtrování, agregaci a další přípravě dat pro analýzu. tyto úlohy obvykle zahrnují čtení zdrojových souborů z škálovatelného úložiště (jako HDFS, Azure Data Lake Store a Azure Storage), jejich zpracování a zápis výstupu do nových souborů v škálovatelném úložišti.
Klíčovým požadavkem těchto modulů pro dávkové zpracování je schopnost škálovat výpočetní prostředky, aby bylo možné zpracovávat velké objemy dat. Na rozdíl od zpracování v reálném čase se ale očekává, že dávkové zpracování bude mít latenci (čas mezi příjmem dat a výpočetem výsledku), který měří v řádu minut až hodin.
Volby technologie pro dávkové zpracování
Azure Synapse Analytics
Azure synapse je distribuovaný systém navržený tak, aby prováděl analýzy velkých objemů dat. Podporuje obrovský paralelní zpracování (MPP), které je vhodné pro spouštění vysoce výkonných analýz. Vezměte v úvahu Azure synapse, když máte velké objemy dat (více než 1 TB) a že máte spuštěnou úlohu analýzy, která bude výhodná pro paralelismus.
Azure Data Lake Analytics
Data Lake Analytics je služba analytických úloh na vyžádání. Je optimalizovaný pro distribuované zpracování velmi rozsáhlých datových sad uložených v Azure Data Lake Store.
- jazyky: U-SQL (včetně rozšíření Python, R a C#).
- integruje se s Azure Data Lake Store, Azure Storage objektů blob, Azure SQL Database a Azure Synapse.
- Cenový model je na úlohu.
HDInsight
HDInsight je spravovaná služba Hadoop. Použijte k tomu nasazení a správu clusterů Hadoop v Azure. pro dávkové zpracování můžete použít Spark, podregistr, LLAP podregistru, MapReduce.
- Jazyky: R, Python, Java, Scala, SQL
- Ověřování protokolem Kerberos se službou Active Directory, řízení přístupu na základě Apache Ranger
- Poskytuje plnou kontrolu nad clusterem Hadoop.
Azure Databricks
Azure Databricks je analytická platforma založená na Apache Spark. Můžete si ho představit jako službu jako Spark. Je to nejjednodušší způsob, jak použít Spark na platformě Azure.
- Jazyky: R, Python, Java, Scala, Spark SQL
- Rychlé časy spuštění clusteru, automatické ukončení, automatické škálování.
- Spravuje cluster Spark za vás.
- integrovaná integrace s azure Blob Storage, Azure Data Lake Storage (ADLS), azure Synapse a dalšími službami. Zobrazit zdroje dat.
- Ověřování uživatelů pomocí Azure Active Directory.
- Webové poznámkové bloky pro spolupráci a zkoumání dat.
- Podporuje clustery s podporou GPU .
Toolkit pro strojírenství distribuovaných dat v Azure
AZTK ( distributed Data Engineering Toolkit ) je nástroj pro zřizování prostředí Spark na vyžádání pro prostředí docker v Azure.
AZTK není služba Azure. Místo toho se jedná o nástroj na straně klienta s rozhraním CLI a Python SDK, které je postavené na Azure Batch. Tato možnost poskytuje největší kontrolu nad infrastrukturou při nasazování clusteru Spark.
- Využijte vlastní image Docker.
- Pro 80% slevu použijte virtuální počítače s nízkou prioritou.
- Clustery se smíšeným režimem, které používají virtuální počítače s nízkou a vyhrazenou prioritou.
- integrovaná podpora pro Azure Blob Storage a připojení Azure Data Lake.
Kritéria výběru klíče
Pokud chcete zúžit možnosti, začněte tím, že odpovíte na tyto otázky:
Chcete místo správy vlastních serverů používat spravovanou službu?
Chcete vytvořit logiku dávkového zpracování deklarativně nebo imperativně?
Budete provádět dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které vám umožní automaticky ukončit cluster nebo jehož cenový model je na úlohu služby Batch.
Potřebujete dotazovat se na relační úložiště dat společně se zpracováním dávek, například pro vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazování externích relačních úložišť.
Matice schopností
V následujících tabulkách jsou shrnuté klíčové rozdíly ve funkcích.
Obecné možnosti
| Schopnost | Azure Data Lake Analytics | Azure Synapse | HDInsight | Azure Databricks |
|---|---|---|---|---|
| Je spravovaná služba | Ano | Ano | Ano 1 | Ano |
| Relační úložiště dat | Ano | Ano | Ne | Ne |
| Cenový model | Na úlohu Batch | Podle hodiny clusteru | Podle hodiny clusteru | Datacihly jednotka2 + hodina clusteru |
[1] s ruční konfigurací.
[2] jednotka datacihly (DBU) je jednotka funkce zpracování za hodinu.
Možnosti
| Schopnost | Azure Data Lake Analytics | Azure Synapse | HDInsight s Sparkem | HDInsight s podregistrem | HDInsight s LLAPm podregistr | Azure Databricks |
|---|---|---|---|---|---|---|
| Automatické škálování | Ne | Ne | Ano | Ano | Ano | Ano |
| Členitost na horizontální navýšení kapacity | Na úlohu | Za cluster | Za cluster | Za cluster | Za cluster | Na cluster |
| Ukládání dat do mezipaměti v paměti | Ne | Ano | Ano | Ne | Ano | Ano |
| Dotazování z externích relačních úložišť | Ano | Ne | Ano | Ne | Ne | Ano |
| Authentication | Azure AD | SQL / Azure AD | Ne | Azure AD1 | Azure AD1 | Azure AD |
| Auditování | Ano | Ano | No | Ano 1 | Ano 1 | Ano |
| Zabezpečení na úrovni řádků | Ne | Ano2 | No | Ano 1 | Ano 1 | Ne |
| Podporuje brány firewall. | Ano | Ano | Ano | Ano 3 | Ano 3 | No |
| Dynamické maskování dat | Ne | Ano | No | Ano 1 | Ano 1 | Ne |
[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.
[2] Pouze predikáty filtru. Viz Zabezpečení na úrovni řádků.
[3] Podporováno při použití v rámci azure Virtual Network.