Migrace místních Apache Hadoop clusterů do Azure HDInsight – motivace a výhody
Tento článek je první v řadě na základě osvědčených postupů pro migraci místních Apache Hadoop nasazení pro ekosystém do Azure HDInsight. Tato série článků je určená lidem, kteří zodpovídají za návrh, nasazení a migraci Apache Hadoop řešení ve službě Azure HDInsight. Role, které můžou tyto články využívat, zahrnují cloudové architekty, správce Hadoop a DevOps technici. Vývojáři softwaru, technici dat a odborníci na data by měli mít také na vysvětlení, jak různé typy clusterů fungují v cloudu.
Proč migrovat do Azure HDInsight
Azure HDInsight je cloudová distribuce komponent systému Hadoop. Azure HDInsight umožňuje snadné, rychlé a nákladově efektivní zpracování obrovského množství dat. HDInsight obsahuje nejoblíbenější Open Source architektury, jako jsou:
- Apache Hadoop
- Apache Spark
- Apache Hive s LLAP
- Apache Kafka
- Apache Storm
- Apache HBase
- R
Výhody Azure HDInsight v místní službě Hadoop
Nízké náklady – náklady se můžou snížit vytvořením clusterů na vyžádání a platíte jenom za to, co využijete. Oddělené výpočetní prostředky a úložiště poskytují flexibilitu tím, že se objem dat nezávisle na velikosti clusteru udržuje.
Automatizované vytváření clusterů – automatizované vytváření clusterů vyžaduje minimální nastavení a konfiguraci. Automatizaci je možné použít pro clustery na vyžádání.
Spravovaný hardware a konfigurace – nemusíte si dělat starosti s fyzickým hardwarem nebo infrastrukturou s clusterem HDInsight. Stačí zadat konfiguraci clusteru a Azure ho nastaví.
Snadno škálovatelná – HDInsight umožňuje škálovat úlohy nahoru nebo dolů. Azure se stará o redistribuci dat a opětovné vyrovnávání zatížení, aniž by došlo k přerušení úloh zpracování dat.
Globální dostupnost – HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat. Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech.
Zabezpečené a kompatibilní – HDInsight umožňuje chránit vaše podnikové datové prostředky pomocí Virtual Network, šifrovánía integrace s Azurepomocí Azure Active Directory. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů.
Zjednodušená správa verzí – Azure HDInsight spravuje verzi součástí pro ekosystém systému Hadoop a udržuje je aktuální. Aktualizace softwaru jsou obvykle složitým procesem pro místní nasazení.
Menší clustery optimalizované pro konkrétní úlohy s menšími závislostmi mezi komponentami – typický místní instalační program Hadoop používá jeden cluster, který slouží k mnoha účelům. S Azure HDInsight je možné vytvářet clustery specifické pro úlohy. Vytváření clusterů pro konkrétní úlohy odstraňuje složitost údržby jednoho clusteru a rostoucí složitost.
Produktivita – v upřednostňovaném vývojovém prostředí můžete použít různé nástroje pro Hadoop a Spark.
Rozšiřitelnost pomocí vlastních nástrojů nebo aplikací třetích stran – clustery HDInsight se dají rozšířit o nainstalované komponenty a dají se také integrovat s dalšími řešeními pro velké objemy dat pomocí nasazení jedním kliknutím z místa na trhu Azure.
Snadná správa, Správa a monitorování – Azure HDInsight se integruje s protokoly Azure monitor a poskytuje tak jediné rozhraní, se kterým můžete monitorovat všechny clustery.
Integrace s dalšími službami Azure – HDInsight je možné snadno integrovat s dalšími oblíbenými službami Azure, jako jsou tyto:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
Procesy a součásti pro samočinné retušování – HDInsight nepřetržitě kontroluje infrastruktury a open source komponenty pomocí vlastní monitorovací infrastruktury. Také automaticky obnoví kritické chyby, jako je například nedostupnost open source komponent a uzlů. Výstrahy se aktivují v Ambari, pokud se nějaká součást OSS nezdařila.
Další informace najdete v článku co je Azure HDInsight a Apache Hadoop Technology Stack.
Proces plánování migrace
Následující postup se doporučuje pro plánování migrace místních clusterů Hadoop do Azure HDInsight:
- Pochopte aktuální místní nasazení a topologie.
- Pochopení aktuálního rozsahu projektu, časových os a odbornosti týmu.
- Pochopení požadavků Azure.
- Sestavte podrobný plán na základě osvědčených postupů.
Shromažďování podrobností pro přípravu na migraci
V této části jsou uvedeny dotazníky šablon, které vám pomůžou shromáždit důležité informace o:
- Místní nasazení
- Podrobnosti o projektu
- Požadavky na Azure
Dotazník místního nasazení
| Otázka | Příklad | Odpověď |
|---|---|---|
| Téma: prostředí | ||
| Verze distribuce clusteru | HDP 2.6.5, CDH – 5,7 | |
| Součásti pro ekosystém velkých objemů dat | HDFS, příze, podregistr, LLAP, Impala, Kudu, HBA, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
| Typy clusterů | Hadoop, Spark, Kafka, zaplavení, Solr | |
| Počet clusterů | 4 | |
| Počet hlavních uzlů | 2 | |
| Počet uzlů pracovního procesu | 100 | |
| Počet hraničních uzlů | 5 | |
| Celkové místo na disku | 100 TB | |
| Konfigurace hlavního uzlu | m/y, CPU, disk atd. | |
| Konfigurace datových uzlů | m/y, CPU, disk atd. | |
| Konfigurace hraničních uzlů | m/y, CPU, disk atd. | |
| Šifrování HDFS? | Yes | |
| Vysoká dostupnost | HDFS HA, metastore HA | |
| Zotavení po havárii/zálohování | Zálohovat cluster? | |
| Systémy, které jsou závislé na clusteru | SQL Server, Teradata, Power BI, MongoDB | |
| Integrace třetích stran | Tableau, GridGain, Qubole, Informatica, Splunk | |
| Téma: zabezpečení | ||
| Zabezpečení hraničních | brány firewall, | |
| Ověřování clusteru & autorizaci | Active Directory, Ambari, Cloudera Manager, bez ověřování | |
| HDFS – Access Control | Ruční, uživatelé SSH | |
| Ověřování podregistru & autorizaci | Sentry, LDAP, AD s protokolem Kerberos, Ranger | |
| Auditování | Ambari, Cloudera Navigator, Ranger | |
| Monitorování | Grafit, Collect, statd, telegraf, InfluxDB | |
| Zobrazení výstrah | Kapacitor, Prometheus, služby Datadog | |
| Doba uchovávání dat | 3 roky, 5 let | |
| Správci clusteru | Jeden správce, více správců |
Dotazník podrobností projektu
| Otázka | Příklad | Odpověď |
|---|---|---|
| Téma: úlohy a frekvence | ||
| MapReduce úlohy | 10 úloh – dvakrát denně | |
| Úlohy podregistru | úlohy 100 – každou hodinu | |
| Dávkové úlohy Spark | úlohy 50 – každých 15 minut | |
| Úlohy streamování Sparku | 5 úloh – každé 3 minuty | |
| Strukturované úlohy streamování | 5 úloh – každou minutu | |
| Školicí úlohy modelů ML | 2 úlohy--jednou za týden | |
| Programovací jazyky | Python, Scala, Java | |
| Skriptování | Prostředí, Python | |
| Téma: data | ||
| Zdroje dat | Ploché soubory, JSON, Kafka, RDBMS | |
| Orchestrace dat | Oozie pracovní postupy, tok | |
| V hledání paměti | Apache Ignite, Redis | |
| Cíle dat | HDFS, RDBMS, Kafka, MPP | |
| Téma: meta data | ||
| Typ databáze typu podregistr | MySQL, Postgres | |
| Počet metaúložiště podregistru | 2 | |
| Počet tabulek podregistru | 100 | |
| Počet zásad Ranger | 20 | |
| Počet pracovních postupů Oozie | 100 | |
| Téma: škálování | ||
| Objem dat včetně replikace | 100 TB | |
| Objem denního příjmu | 50 GB | |
| Míra nárůstu dat | 10% za rok | |
| Míra růstu uzlů clusteru | 5% za rok | |
| Téma: využití clusteru | ||
| Průměrné využití procesoru v% | 60 % | |
| Průměrná doba využití paměti% | 75% | |
| Využité místo na disku | 75% | |
| Průměrná doba využití sítě% | 25% | |
| Téma: zaměstnanci | ||
| Počet správců | 2 | |
| Počet vývojářů | 10 | |
| Počet koncových uživatelů | 100 | |
| Dovednosti | Hadoop, Spark | |
| Počet dostupných prostředků pro účely migrace | 2 | |
| Téma: omezení | ||
| Aktuální omezení | Latence je vysoká. | |
| Aktuální výzvy | Problém souběžnosti |
Dotazník požadavků Azure
| Otázka | Příklad | Odpověď |
|---|---|---|
| Téma: infrastruktura | ||
| Upřednostňovaná oblast | USA – východ | |
| Upřednostňovaná virtuální síť? | Yes | |
| Je potřeba HA/DR? | Yes | |
| Integraci s dalšími Cloud Services? | ADF, CosmosDB | |
| Téma: přesun dat | ||
| Předvolba počátečního zatížení | DistCp, data box, ADF, WANDisco | |
| Rozdíl přenosu dat | DistCp, AzCopy | |
| Pokračující přírůstkový přenos dat | DistCp, Sqoop | |
| Téma: monitorování výstrah & | ||
| Použití monitorování Azure & upozorňování a integrace monitorování třetích stran | Použití upozorňování & monitorování Azure | |
| Téma: Předvolby zabezpečení | ||
| Privátní a chráněný datový kanál? | Yes | |
| Cluster připojený k doméně (ESP)? | Yes | |
| Místní AD Sync ke cloudu? | Yes | |
| Počet uživatelů služby AD, které se mají synchronizovat? | 100 | |
| Chcete synchronizovat hesla do cloudu? | Yes | |
| Jenom uživatelé cloudu? | Yes | |
| Je potřeba MFA? | No | |
| Požadavky na autorizaci dat? | Yes | |
| Řízení přístupu na základě role? | Yes | |
| Je vyžadováno auditování? | Yes | |
| Šifrování dat v klidovém umístění? | Yes | |
| Šifrování dat při přenosu? | Yes | |
| Téma: Předvolby opětovné architektury | ||
| Jeden cluster vs konkrétní typy clusterů | Konkrétní typy clusterů | |
| Společně umístěné úložiště vs – vzdálené úložiště? | Vzdálené úložiště | |
| Menší velikost clusteru jako data se ukládají vzdáleně? | Menší velikost clusteru | |
| Použít více menších clusterů místo jednoho velkého clusteru? | Použití více menších clusterů | |
| Používáte vzdálenou metastore? | Yes | |
| Sdílet metaúložiště mezi různými clustery? | Yes | |
| Dekonstruovat úlohy? | Výměna úloh podregistru pomocí úloh Spark | |
| Chcete použít ADF pro orchestraci dat? | No |
Další kroky
Přečtěte si další článek v této sérii: