Migrera lokala Apache Hadoop-kluster till Azure HDInsight – motivation och fördelar
Den här artikeln är den första i en serie med bästa praxis för migrering av lokala Apache Hadoop eko system distributioner till Azure HDInsight. Den här artikel serien är till för personer som är ansvariga för design, distribution och migrering av Apache Hadoop lösningar i Azure HDInsight. De roller som kan dra nytta av dessa artiklar är Cloud Architects, Hadoop-administratörer och DevOps-tekniker. Programutvecklare, data tekniker och data experter bör också dra nytta av förklaringen av hur olika typer av kluster fungerar i molnet.
Varför du ska migrera till Azure HDInsight
Azure HDInsight är en moln distribution av Hadoop-komponenter. Med Azure HDInsight kan du bearbeta stora mängder data på ett enkelt, snabbt och kostnadseffektivt sätt. HDInsight innehåller de mest populära ramverken med öppen källkod, till exempel:
- Apache Hadoop
- Apache Spark
- Apache Hive med LLAP
- Apache Kafka
- Apache Storm
- Apache HBase
- R
Fördelar med Azure HDInsight över lokala Hadoop
Med låga kostnader kan du minska kostnaderna genom att skapa kluster på begäran och bara betala för det du använder. Frikopplad beräkning och lagring ger flexibilitet genom att hålla data volymen oberoende av kluster storleken.
Automatisk skapande av kluster – automatisk generering av kluster kräver minimal konfiguration och konfiguration. Automation kan användas för kluster på begäran.
Hanterad maskin vara och konfiguration – du behöver inte bekymra dig om den fysiska maskin varan eller infrastrukturen med ett HDInsight-kluster. Ange bara konfigurationen för klustret så konfigurerar Azure det.
Enkelt skalbara – HDInsight gör att du kan skala upp eller ned arbets belastningar. Azure tar hand om data omdistribution och ombalansering av arbets belastning utan att avbryta data bearbetnings jobb.
Global tillgänglighet – HDInsight är tillgängligt i fler regioner än något annat erbjudande för stor data analys. Azure HDInsight är också tillgängligt i Azure Government, Kina och Tyskland så att du kan uppfylla företagets behov i viktiga områden.
Säkert och kompatibelt – HDInsight gör att du kan skydda företagets data till gångar med Azure Virtual Network, krypteringoch integrering med Azure Active Directory. HDInsight uppfyller också de vanligaste efterlevnadskraven för olika branscher och myndigheter.
Förenklad versions hantering – Azure HDInsight hanterar versionen av Hadoop-miljö-system komponenter och håller dem uppdaterad. Program uppdateringar är vanligt vis en komplex process för lokala distributioner.
Mindre kluster som är optimerade för vissa arbets belastningar med färre beroenden mellan komponenter – en typisk lokal Hadoop-installation använder ett enda kluster som hanterar många ändamål. Med Azure HDInsight kan du skapa arbets belastnings bara kluster. Om du skapar kluster för vissa arbets belastningar tar du bort komplexiteten med att underhålla ett enda kluster med ökande komplexitet.
Produktivitet – du kan använda olika verktyg för Hadoop och spark i din önskade utvecklings miljö.
Utöknings barhet med anpassade verktyg eller program från tredje part – HDInsight-kluster kan utökas med installerade komponenter och kan också integreras med de andra Big data-lösningarna genom att använda distributioner med en enda klickning från Azures marknads plats.
Enkel hantering, administration och övervakning – Azure HDInsight integreras med Azure Monitor loggar för att tillhandahålla ett enda gränssnitt som du kan använda för att övervaka alla dina kluster.
Integrering med andra Azure-tjänster – HDInsight kan enkelt integreras med andra populära Azure-tjänster, till exempel följande:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
Själv återställnings processer och-komponenter – HDInsight kontrollerar ständigt infrastrukturen och komponenter med öppen källkod med hjälp av en egen övervaknings infrastruktur. Den återställer också kritiska problem som inte är tillgängliga för komponenter och noder med öppen källkod. Aviseringar utlöses i Ambari om några OSS-komponenter Miss lyckas.
Mer information finns i artikeln Vad är Azure HDInsight och Apache Hadoop Technology stack.
Planerings process för migrering
Följande steg rekommenderas för att planera migrering av lokala Hadoop-kluster till Azure HDInsight:
- Förstå den aktuella lokala distributionen och topologierna.
- Förstå aktuell projekt omfattning, tids linjer och team kunskaper.
- Förstå Azure-kraven.
- Bygg ut en detaljerad plan utifrån metod tips.
Samla in information för att förbereda för migrering
Det här avsnittet innehåller fråge formulär för mallar som hjälper dig att samla in viktig information om:
- Lokal distribution
- Projektinformation
- Krav för Azure
Lokalt distributions fråge formulär
| Fråga | Exempel | Svar |
|---|---|---|
| Ämne: miljö | ||
| Kluster distributions version | HDP 2.6.5, CDH 5,7 | |
| Big data miljö – system komponenter | HDFS, garn, Hive, LLAP, Impala, kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
| Kluster typer | Hadoop, Spark, Kafka, Storm, solr | |
| Antal kluster | 4 | |
| Antal huvudnoder | 2 | |
| Antal arbetsnoder | 100 | |
| Antal Edge-noder | 5 | |
| Totalt disk utrymme | 100 TB | |
| Konfiguration av huvud nod | d/y, CPU, disk osv. | |
| Konfiguration av datanoder | d/y, CPU, disk osv. | |
| Konfiguration av Edge-noder | d/y, CPU, disk osv. | |
| HDFS-kryptering | Ja | |
| Hög tillgänglighet | HDFS HA, Metaarkiv HA | |
| Haveri beredskap/säkerhets kopiering | Säkerhetskopiera kluster? | |
| System som är beroende av kluster | SQL Server, Teradata, Power BI, MongoDB | |
| Integration från tredje part | Tableau, GridGain, Qubole, Informatica, Splunk | |
| Ämne: säkerhet | ||
| Perimeter-säkerhet | Brandväggar | |
| Auktorisering av &-autentisering i kluster | Active Directory, Ambari, Cloudera Manager, ingen autentisering | |
| HDFS-Access Control | Manuellt, SSH-användare | |
| Auktorisering av Hive-autentisering & | Sentry, LDAP, AD med Kerberos, Ranger | |
| Granskning | Ambari, Cloudera Navigator, Ranger | |
| Övervakning | Grafsystem, insamling, statistik, teleympkvistar, InfluxDB | |
| Aviseringar | Kapacitor, Prometheus, Datadog | |
| Varaktighet för datakvarhållning | 3 år, 5 år | |
| Kluster administratörer | Enskild administratör, flera administratörer |
Projekt informations enkät
| Fråga | Exempel | Svar |
|---|---|---|
| Ämne: arbets belastningar och frekvens | ||
| MapReduce-jobb | 10 jobb – två gånger per dag | |
| Hive-jobb | 100 jobb – varje timme | |
| Spark batch-jobb | 50 jobb – var 15: e minut | |
| Spark streaming-jobb | 5 jobb – var 3: e minut | |
| Strukturerade strömmande jobb | 5 jobb – varje minut | |
| ML modell utbildnings jobb | 2 jobb – en gång i veckan | |
| Programmeringsspråk | Python, Scala, Java | |
| Skript | Shell, python | |
| Ämne: data | ||
| Datakällor | Flata filer, JSON, Kafka, RDBMS | |
| Data dirigering | Oozie-arbetsflöden, luft flöde | |
| I minnes sökningar | Apache antändning, Redis | |
| Data destinationer | HDFS, RDBMS, Kafka, MPP | |
| Ämne: metadata-data | ||
| Hive DB-typ | MySQL, postgres | |
| Antal Hive-metastores | 2 | |
| Antal Hive-tabeller | 100 | |
| Antal Ranger-principer | 20 | |
| Antal Oozie-arbetsflöden | 100 | |
| Ämne: skala | ||
| Data volym, inklusive replikering | 100 TB | |
| Daglig inmatnings volym | 50 GB | |
| Data tillväxt takt | 10% per år | |
| Kluster noders tillväxt takt | 5% per år | |
| Ämne: kluster användning | ||
| Genomsnittlig CPU% som används | 60 % | |
| Genomsnittligt minne% använt | 75 % | |
| Använt disk utrymme | 75 % | |
| Genomsnittligt nätverk% använt | 25 % | |
| Ämne: personal | ||
| Antal administratörer | 2 | |
| Antal utvecklare | 10 | |
| Antal slutanvändare | 100 | |
| Kompetens | Hadoop, Spark | |
| Antal tillgängliga resurser för migrerings aktiviteter | 2 | |
| Ämne: begränsningar | ||
| Aktuella begränsningar | Svars tiden är hög | |
| Aktuella utmaningar | Samtidiga problem |
Enkät för Azure-krav
| Fråga | Exempel | Svar |
|---|---|---|
| Ämne: infrastruktur | ||
| Önskad region | USA, Östra | |
| Virtuellt nätverk? | Ja | |
| Krävs/DR? | Ja | |
| Integrering med andra moln tjänster? | ADF, CosmosDB | |
| Ämne: data förflyttning | ||
| Första inläsnings inställning | DistCp, data Box, ADF, WANDisco | |
| Data överförings delta | DistCp, AzCopy | |
| Kontinuerlig stegvis data överföring | DistCp, Sqoop | |
| Ämne: övervaka & avisering | ||
| Använda Azure Monitoring & varningar vs integrera övervakning från tredje part | Använda Azure Monitoring &-avisering | |
| Ämne: säkerhets inställningar | ||
| Privat och skyddad datapipeline? | Ja | |
| Domänanslutna kluster (ESP)? | Ja | |
| Lokalt AD Sync till molnet? | Ja | |
| Antal AD-användare som ska synkroniseras? | 100 | |
| OK för att synkronisera lösen ord till molnet? | Ja | |
| Endast moln användare? | Ja | |
| MFA krävs? | Inga | |
| Krav för data auktorisation? | Ja | |
| Rollbaserad åtkomst kontroll? | Ja | |
| Krävs granskning? | Ja | |
| Data kryptering i vila? | Ja | |
| Data kryptering under överföring? | Ja | |
| Ämne: åter arkitektur inställningar | ||
| Enstaka kluster och vissa kluster typer | Vissa kluster typer | |
| Samplacerad lagring jämfört med Fjärrlagring? | Fjärrlagring | |
| Mindre kluster storlek när data lagras via fjärr anslutning? | Mindre kluster storlek | |
| Använd flera mindre kluster i stället för ett enda stort kluster? | Använd flera mindre kluster | |
| Använd en fjärran sluten metaarkiv? | Ja | |
| Vill du dela metastores mellan olika kluster? | Ja | |
| Vill du skapa arbets belastningar? | Ersätt Hive-jobb med Spark-jobb | |
| Använd ADF för data dirigering? | Nej |
Nästa steg
Läs nästa artikel i den här serien: