Nastavení clusterů ve službě HDInsight se softwarem Apache Hadoop, Apache Spark, Apache Kafka a dalšími
Naučte se, jak nastavit a nakonfigurovat Apache Hadoop, Apache Spark, Apache Kafka, interaktivní dotazy, Apache HBA nebo Apache Storm ve službě HDInsight. Přečtěte si také, jak přizpůsobit clustery a přidat zabezpečení jejich připojením k doméně.
Cluster Hadoop se skládá z několika virtuálních počítačů (uzlů), které se používají pro distribuované zpracování úloh. Azure HDInsight zpracovává podrobnosti o implementaci instalace a konfigurace jednotlivých uzlů, takže stačí zadat obecné informace o konfiguraci.
Důležité
Účtování clusteru HDInsight začne vytvořením clusteru a skončí jeho odstraněním. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá. Naučte se, jak Odstranit cluster.
Pokud používáte více clusterů společně, budete chtít vytvořit virtuální síť a pokud používáte cluster Spark, budete také chtít použít konektor pro skladiště z podregistru. Další informace najdete v tématu plánování virtuální sítě pro Azure HDInsight a integrace Apache Spark a Apache Hive pomocí konektoru skladu s podregistru.
Metody instalace clusteru
V následující tabulce jsou uvedeny různé metody, které můžete použít k nastavení clusteru HDInsight.
| Clustery vytvořené pomocí | Webový prohlížeč | Příkazový řádek | Rozhraní REST API | Sada SDK |
|---|---|---|---|---|
| Azure Portal | ✅ | |||
| Azure Data Factory | ✅ | ✅ | ✅ | ✅ |
| Azure CLI | ✅ | |||
| Azure PowerShell | ✅ | |||
| cURL | ✅ | ✅ | ||
| Šablony Azure Resource Manageru | ✅ |
Tento článek vás provede instalací v Azure Portal, kde můžete vytvořit cluster HDInsight.
Základy
Podrobnosti o projektu
Azure Resource Manager vám pomůže pracovat s prostředky v aplikaci jako se skupinou, která se označuje jako Skupina prostředkůAzure. Všechny prostředky pro aplikaci můžete nasadit, aktualizovat, monitorovat nebo odstranit v rámci jediné koordinované operace.
Podrobnosti o clusteru
Název clusteru
Názvy clusterů HDInsight mají následující omezení:
- Povolené znaky: a-z, 0-9, A až Z
- Maximální délka: 59
- Rezervované názvy: aplikace
- Obor názvů clusteru je pro všechny Azure v rámci všech předplatných. Proto musí být název clusteru jedinečný po celém světě.
- Prvních šest znaků musí být jedinečný v rámci virtuální sítě.
Oblast
Umístění clusteru nemusíte explicitně určovat: cluster je ve stejném umístění jako výchozí úložiště. Seznam podporovaných oblastí získáte tak, že vyberete rozevírací seznam oblast na ceny služby HDInsight.
Typ clusteru
Azure HDInsight v současné době poskytuje následující typy clusterů, z nichž každá obsahuje sadu součástí, které poskytují určité funkce.
Důležité
Clustery HDInsight jsou k dispozici v různých typech, každou pro jednu úlohu nebo technologii. Neexistuje žádná podporovaná metoda pro vytvoření clusteru, který kombinuje více typů, jako je například zaplavení a HBA v jednom clusteru. Pokud vaše řešení vyžaduje technologie, které jsou rozdělené mezi více typů clusterů HDInsight, může virtuální síť Azure propojit požadované typy clusterů.
| Typ clusteru | Funkce |
|---|---|
| Hadoop | Dávkové dotazování a analýza uložených dat |
| HBase | Zpracování velkých objemů NoSQL dat bez schématu |
| Interaktivní dotaz | Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy na podregistr |
| Kafka | Platforma pro distribuované streamování, která se dá použít k sestavení datových kanálů a aplikací streamování v reálném čase |
| Spark | Zpracování v paměti, interaktivní dotazy, zpracování streamu mikrodávkování |
| Storm | Zpracování událostí v reálném čase |
Verze
Vyberte verzi HDInsight pro tento cluster. Další informace najdete v tématu podporované verze HDInsight.
Pověření clusteru
Clustery HDInsight umožňují během vytváření clusteru konfigurovat dva uživatelské účty:
- Uživatelské jméno přihlášení clusteru: výchozí uživatelské jméno je admin. Používá základní konfiguraci na Azure Portal. Někdy se nazývá "uživatel clusteru" nebo "HTTP uživatel".
- Uživatelské jméno Secure Shell (SSH): slouží k připojení ke clusteru přes SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.
Uživatelské jméno protokolu HTTP má následující omezení:
- Povolené speciální znaky:
_a@ - Nepovolené znaky: #;. ", / : '! *? $ () {} [] <>|&--= +% ~ ^ Space
- Maximální délka: 20
Uživatelské jméno SSH má následující omezení:
- Povolené speciální znaky:
_a@ - Nepovolené znaky: #;. ", / : '! *? $ () {} [] <>|&--= +% ~ ^ Space
- Maximální délka: 64
- Rezervované názvy: Hadoop, uživatelé, Oozie, podregistr, mapred, Ambari-QA, Zookeeper, tez, HDFS, Sqoop, příze, hcat, AMS, HBA, test1, Administrator, admin, User, uživatel1, test, uživatel2,, user3, admin1, 1, 123, a, ACTUser, ADM, admin2, ASPNET, Backup, Console, David, Host, Jan, Owner, test2, test3, user4, user5, Spark Support_388945a0
Storage
I když místní instalace systému Hadoop používá pro úložiště v clusteru systém souborů DFS (Distributed File System) Hadoop (HDFS), v cloudu použijete koncové body úložiště připojené ke clusteru. Použití cloudového úložiště znamená, že můžete bezpečně odstranit clustery HDInsight používané pro výpočty a přitom zachovat data.
Clustery HDInsight můžou používat následující možnosti úložiště:
- Azure Data Lake Storage Gen2
- Azure Data Lake Storage Gen1
- Azure Storage Pro obecné účely v2
- Azure Storage Pro obecné účely v1
- Azure Storage Objekt blob bloku (podporuje se jenom jako sekundární úložiště)
Další informace o možnostech úložiště ve službě HDInsight najdete v tématu porovnání možností úložiště pro použití s clustery Azure HDInsight.
Upozornění
Použití dalšího účtu úložiště v jiném umístění z clusteru HDInsight se nepodporuje.
během konfigurace pro výchozí koncový bod úložiště zadáte kontejner objektů blob Azure Storage účtu nebo Data Lake Storage. Výchozí úložiště obsahuje protokoly aplikací a systému. volitelně můžete zadat další propojené účty Azure Storage a účty Data Lake Storage, ke kterým může cluster přistupovat. Cluster HDInsight a závislé účty úložiště musí být ve stejném umístění Azure.
Poznámka
Funkce, která vyžaduje zabezpečený přenos , vynutí všechny požadavky na váš účet prostřednictvím zabezpečeného připojení. Tuto funkci podporuje jenom cluster HDInsight verze 3,6 nebo novější. Další informace najdete v tématu Vytvoření clusteru Apache Hadoop s účty úložiště s bezpečným přenosem ve službě Azure HDInsight.
Důležité
Povolení přenosu zabezpečeného úložiště po vytvoření clusteru může způsobit chyby v účtu úložiště a nedoporučuje se ho použít. Je lepší vytvořit nový cluster pomocí účtu úložiště s povoleným zabezpečeným přenosem.
Poznámka
Azure HDInsight automaticky nepřenáší, nepřesouvá ani nekopíruje vaše data uložená v Azure Storage z jedné oblasti do druhé.
Nastavení metastore
Můžete vytvořit volitelný podregistr nebo Apache Oozie metaúložiště. Ne všechny typy clusterů ale podporují metaúložiště a služba Azure synapse Analytics není kompatibilní s metaúložiště.
Další informace najdete v tématu použití externích úložišť metadat ve službě Azure HDInsight.
Důležité
Když vytvoříte vlastní metastore, nepoužívejte v názvu databáze pomlčky, spojovníky nebo mezery. To může způsobit selhání procesu vytváření clusteru.
SQL databáze pro podregistr
Pokud chcete uchovat tabulky podregistru po odstranění clusteru HDInsight, použijte vlastní metastore. Pak můžete metastore připojit k jinému clusteru HDInsight.
An HDInsight metastore, která je vytvořená pro jednu verzi clusteru HDInsight, nejde sdílet mezi různými verzemi clusterů HDInsight. Seznam verzí služby HDInsight najdete v tématu podporované verze služby HDInsight.
Důležité
výchozí metastore poskytuje Azure SQL Database s limitem DTU úrovně basic 5 (nelze aktualizovat)! Vhodné pro účely základního testování. U rozsáhlých nebo produkčních úloh doporučujeme migrovat na externí metastore.
SQL databáze pro Oozie
Pokud chcete zvýšit výkon při použití Oozie, použijte vlastní metastore. Metastore může také poskytnout přístup k datům úlohy Oozie po odstranění clusteru.
SQL databáze pro Ambari
Ambari se používá k monitorování clusterů HDInsight, provádění změn konfigurace a ukládání informací o správě clusteru a také k historii úloh. Funkce vlastní Ambari DB umožňuje nasadit nový cluster a nastavit Ambari v externí databázi, kterou spravujete. Další informace najdete v tématu vlastní AMBARI DB.
Důležité
Nemůžete znovu použít vlastní Oozie metastore. pokud chcete použít vlastní metastore Oozie, musíte při vytváření clusteru HDInsight zadat prázdnou Azure SQL Database.
Zabezpečení a sítě
balíček zabezpečení Enterprise
pro typy clusterů Hadoop, Spark, hba, Kafka a interaktivní dotaz můžete povolit Balíček zabezpečení podniku. Tento balíček nabízí možnost mít bezpečnější instalaci clusteru pomocí Apache Ranger a integraci s Azure Active Directory. Další informace najdete v tématu Přehled podnikového zabezpečení ve službě Azure HDInsight.
balíček zabezpečení Enterprise umožňuje integrovat HDInsight se službou Active Directory a Apache Ranger. pomocí balíčku zabezpečení Enterprise lze vytvořit více uživatelů.
Další informace o vytvoření clusteru HDInsight připojeného k doméně najdete v tématu vytvoření prostředí sandboxu HDInsight připojeného k doméně.
TLS
Další informace najdete v tématu zabezpečení transportní vrstvy .
Virtuální síť
Pokud vaše řešení vyžaduje technologie, které jsou rozdělené mezi více typů clusterů HDInsight, může virtuální síť Azure propojit požadované typy clusterů. Tato konfigurace umožňuje clusterům a veškerý kód, který do nich nasazujete, k přímé komunikaci.
Další informace o používání služby Azure Virtual Network s HDInsight najdete v tématu plánování virtuální sítě pro HDInsight.
Příklad použití dvou typů clusterů v rámci virtuální sítě Azure najdete v tématu použití Apache Spark strukturovaného streamování s Apache Kafka. Další informace o používání služby HDInsight s virtuální sítí, včetně specifických požadavků na konfiguraci pro virtuální síť, najdete v tématu plánování virtuální sítě pro HDInsight.
Nastavení šifrování disku
Další informace najdete v tématu šifrování klíčového disku spravovaného zákazníkem.
Proxy REST Kafka
Toto nastavení je k dispozici pouze pro typ clusteru Kafka. Další informace najdete v tématu použití proxy REST.
Identita
Další informace najdete v tématu spravované identity ve službě Azure HDInsight.
Konfigurace a ceny
Účtuje se vám využití uzlu, dokud cluster existuje. Fakturace začne při vytvoření clusteru a zastaví se při jeho odstranění. Clustery nemůžou být nepřidělené nebo se zablokují.
Konfigurace uzlů
Každý typ clusteru má svůj vlastní počet uzlů, terminologii pro uzly a výchozí velikost virtuálního počítače. V následující tabulce je počet uzlů pro každý typ uzlu v závorkách.
| Typ | Uzly | Diagram |
|---|---|---|
| Hadoop | Hlavní uzel (2), pracovní uzel (1 +) |
|
| HBase | Hlavní server (2), server oblasti (1 +), hlavní/ZooKeeper uzel (3) |
|
| Storm | Nimbus uzel (2), server pro řízení (1 +), ZooKeeper uzel (3) |
|
| Spark | Hlavní uzel (2), pracovní uzel (1 +), uzel ZooKeeper (3) (volné pro velikost virtuálního počítače a1 ZooKeeper) |
|
Další informace najdete v tématu Konfigurace výchozích uzlů a velikosti virtuálních počítačů pro clustery v tématu Co jsou komponenty Hadoop a verze v HDInsight?.
Náklady na clustery HDInsight se určují podle počtu uzlů a velikosti virtuálních počítačů pro uzly.
Různé typy clusterů mají různé typy uzlů, počty uzlů a velikosti uzlů:
- Výchozí typ clusteru Hadoop:
- Dva hlavní uzly
- Čtyři pracovní uzly
- Výchozí typ clusteru pro hodnoty:
- Dva uzly Nimbus
- Tři uzly Zookeeper
- Čtyři uzly Správce
Pokud jste právě zkoušeli HDInsight, doporučujeme použít jeden pracovní uzel. Další informace o cenách služby HDInsight najdete v tématu ceny služby HDInsight.
Poznámka
Omezení velikosti clusteru se liší v rámci předplatných Azure. Pokud chcete tento limit zvýšit, kontaktujte podporu fakturace Azure .
Když použijete Azure Portal ke konfiguraci clusteru, velikost uzlu je k dispozici na kartě Konfigurace + ceny . Na portálu můžete také zobrazit náklady spojené s různými velikostmi uzlů.
Velikosti virtuálních počítačů
Při nasazení clusterů vyberte výpočetní prostředky na základě řešení, které plánujete nasadit. Pro clustery HDInsight se používají následující virtuální počítače:
- Virtuální počítače řady a a D1-4: velikosti virtuálních počítačů se systémem Linux pro obecné účely
- Virtuální počítač řady D11-14: paměťově optimalizované velikosti virtuálních počítačů Linux
pokud chcete zjistit, jakou hodnotu byste měli použít k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad sdk nebo při použití Azure PowerShell, přečtěte si téma velikosti virtuálních počítačů, které se mají použít pro clustery HDInsight. Z tohoto odkazovaného článku použijte hodnotu ve sloupci Velikost v tabulkách.
Důležité
Pokud v clusteru potřebujete víc než 32 pracovních uzlů, musíte vybrat velikost hlavního uzlu s aspoň 8 jádry a 14 GB paměti RAM.
Další informace najdete v tématu velikosti pro virtuální počítače. Informace o cenách různých velikostí najdete v tématu ceny služby HDInsight.
Přidání aplikace
Aplikace HDInsight je aplikace, kterou uživatelé mohou nainstalovat na clusteru HDInsight se systémem Linux. Můžete používat aplikace od Microsoftu, třetích stran nebo si sami vyvíjíte. Další informace najdete v tématu instalace aplikací Apache Hadoop třetích stran v Azure HDInsight.
Většina aplikací HDInsight je nainstalovaná na prázdném hraničním uzlu. Prázdný hraniční uzel je virtuální počítač se systémem Linux se stejnými klientskými nástroji, který je nainstalovaný a nakonfigurovaný jako hlavní uzel. Hraniční uzel můžete použít pro přístup ke clusteru, testování klientských aplikací a hostování klientských aplikací. Další informace najdete v tématu Použití prázdných hraničních uzlů ve službě HDInsight.
Akce skriptů
Můžete nainstalovat další součásti nebo přizpůsobit konfiguraci clusteru pomocí skriptů během vytváření. Tyto skripty jsou vyvolány prostřednictvím akce skriptu , což je možnost konfigurace, kterou lze použít z rutin Azure Portal, HDInsight Windows PowerShell nebo SADY HDInsight .NET SDK. Další informace najdete v tématu Přizpůsobení clusteru HDInsight pomocí akce skriptu.
Některé nativní komponenty Javy, jako jsou Apache Mahout a Cascading, je možné spustit v clusteru jako soubory JAR (Java Archive). Tyto soubory JAR je možné distribuovat do Azure Storage a odeslat do clusterů HDInsight pomocí mechanismů odesílání úloh Hadoop. Další informace najdete v tématu Odeslání Apache Hadoop úloh prostřednictvím kódu programu.
Poznámka
Pokud máte problémy s nasazením souborů JAR do clusterů HDInsight nebo voláním souborů JAR v clusterech HDInsight, kontaktujte Podpora Microsoftu.
Služba HDInsight nepodporuje kaskádové kaskádové rozhraní a nemá nárok na Podpora Microsoftu. Seznam podporovaných komponent najdete v tématu Co je nového ve verzích clusteru poskytovaných službou HDInsight.
Někdy můžete chtít během procesu vytváření nakonfigurovat následující konfigurační soubory:
- clusterIdentity.xml
- core-site.xml
- gateway.xml
- hbase-env.xml
- hbase-site.xml
- hdfs-site.xml
- hive-env.xml
- hive-site.xml
- mapred-site
- oozie-site.xml
- oozie-env.xml
- storm-site.xml
- tez-site.xml
- webhcat-site.xml
- yarn-site.xml
Další informace najdete v tématu Přizpůsobení clusterů HDInsight pomocí nástroje Bootstrap.