Nastavení clusterů ve službě HDInsight se softwarem Apache Hadoop, Apache Spark, Apache Kafka a dalšími

Naučte se, jak nastavit a nakonfigurovat Apache Hadoop, Apache Spark, Apache Kafka, interaktivní dotazy, Apache HBA nebo Apache Storm ve službě HDInsight. Přečtěte si také, jak přizpůsobit clustery a přidat zabezpečení jejich připojením k doméně.

Cluster Hadoop se skládá z několika virtuálních počítačů (uzlů), které se používají pro distribuované zpracování úloh. Azure HDInsight zpracovává podrobnosti o implementaci instalace a konfigurace jednotlivých uzlů, takže stačí zadat obecné informace o konfiguraci.

Důležité

Účtování clusteru HDInsight začne vytvořením clusteru a skončí jeho odstraněním. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá. Naučte se, jak Odstranit cluster.

Pokud používáte více clusterů společně, budete chtít vytvořit virtuální síť a pokud používáte cluster Spark, budete také chtít použít konektor pro skladiště z podregistru. Další informace najdete v tématu plánování virtuální sítě pro Azure HDInsight a integrace Apache Spark a Apache Hive pomocí konektoru skladu s podregistru.

Metody instalace clusteru

V následující tabulce jsou uvedeny různé metody, které můžete použít k nastavení clusteru HDInsight.

Clustery vytvořené pomocí Webový prohlížeč Příkazový řádek Rozhraní REST API Sada SDK
Azure Portal      
Azure Data Factory
Azure CLI      
Azure PowerShell      
cURL    
Šablony Azure Resource Manageru      

Tento článek vás provede instalací v Azure Portal, kde můžete vytvořit cluster HDInsight.

Základy

vlastní rychlé možnosti vytvoření HDInsight

Podrobnosti o projektu

Azure Resource Manager vám pomůže pracovat s prostředky v aplikaci jako se skupinou, která se označuje jako Skupina prostředkůAzure. Všechny prostředky pro aplikaci můžete nasadit, aktualizovat, monitorovat nebo odstranit v rámci jediné koordinované operace.

Podrobnosti o clusteru

Název clusteru

Názvy clusterů HDInsight mají následující omezení:

  • Povolené znaky: a-z, 0-9, A až Z
  • Maximální délka: 59
  • Rezervované názvy: aplikace
  • Obor názvů clusteru je pro všechny Azure v rámci všech předplatných. Proto musí být název clusteru jedinečný po celém světě.
  • Prvních šest znaků musí být jedinečný v rámci virtuální sítě.

Oblast

Umístění clusteru nemusíte explicitně určovat: cluster je ve stejném umístění jako výchozí úložiště. Seznam podporovaných oblastí získáte tak, že vyberete rozevírací seznam oblast na ceny služby HDInsight.

Typ clusteru

Azure HDInsight v současné době poskytuje následující typy clusterů, z nichž každá obsahuje sadu součástí, které poskytují určité funkce.

Důležité

Clustery HDInsight jsou k dispozici v různých typech, každou pro jednu úlohu nebo technologii. Neexistuje žádná podporovaná metoda pro vytvoření clusteru, který kombinuje více typů, jako je například zaplavení a HBA v jednom clusteru. Pokud vaše řešení vyžaduje technologie, které jsou rozdělené mezi více typů clusterů HDInsight, může virtuální síť Azure propojit požadované typy clusterů.

Typ clusteru Funkce
Hadoop Dávkové dotazování a analýza uložených dat
HBase Zpracování velkých objemů NoSQL dat bez schématu
Interaktivní dotaz Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy na podregistr
Kafka Platforma pro distribuované streamování, která se dá použít k sestavení datových kanálů a aplikací streamování v reálném čase
Spark Zpracování v paměti, interaktivní dotazy, zpracování streamu mikrodávkování
Storm Zpracování událostí v reálném čase

Verze

Vyberte verzi HDInsight pro tento cluster. Další informace najdete v tématu podporované verze HDInsight.

Pověření clusteru

Clustery HDInsight umožňují během vytváření clusteru konfigurovat dva uživatelské účty:

  • Uživatelské jméno přihlášení clusteru: výchozí uživatelské jméno je admin. Používá základní konfiguraci na Azure Portal. Někdy se nazývá "uživatel clusteru" nebo "HTTP uživatel".
  • Uživatelské jméno Secure Shell (SSH): slouží k připojení ke clusteru přes SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.

Uživatelské jméno protokolu HTTP má následující omezení:

  • Povolené speciální znaky: _ a @
  • Nepovolené znaky: #;. ", / : '! *? $ () {} [] <>|&--= +% ~ ^ Space
  • Maximální délka: 20

Uživatelské jméno SSH má následující omezení:

  • Povolené speciální znaky: _ a @
  • Nepovolené znaky: #;. ", / : '! *? $ () {} [] <>|&--= +% ~ ^ Space
  • Maximální délka: 64
  • Rezervované názvy: Hadoop, uživatelé, Oozie, podregistr, mapred, Ambari-QA, Zookeeper, tez, HDFS, Sqoop, příze, hcat, AMS, HBA, test1, Administrator, admin, User, uživatel1, test, uživatel2,, user3, admin1, 1, 123, a, ACTUser, ADM, admin2, ASPNET, Backup, Console, David, Host, Jan, Owner, test2, test3, user4, user5, Spark Support_388945a0

Storage

Nastavení úložiště clusteru: koncové body kompatibilní se HDFS

I když místní instalace systému Hadoop používá pro úložiště v clusteru systém souborů DFS (Distributed File System) Hadoop (HDFS), v cloudu použijete koncové body úložiště připojené ke clusteru. Použití cloudového úložiště znamená, že můžete bezpečně odstranit clustery HDInsight používané pro výpočty a přitom zachovat data.

Clustery HDInsight můžou používat následující možnosti úložiště:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage Pro obecné účely v2
  • Azure Storage Pro obecné účely v1
  • Azure Storage Objekt blob bloku (podporuje se jenom jako sekundární úložiště)

Další informace o možnostech úložiště ve službě HDInsight najdete v tématu porovnání možností úložiště pro použití s clustery Azure HDInsight.

Upozornění

Použití dalšího účtu úložiště v jiném umístění z clusteru HDInsight se nepodporuje.

během konfigurace pro výchozí koncový bod úložiště zadáte kontejner objektů blob Azure Storage účtu nebo Data Lake Storage. Výchozí úložiště obsahuje protokoly aplikací a systému. volitelně můžete zadat další propojené účty Azure Storage a účty Data Lake Storage, ke kterým může cluster přistupovat. Cluster HDInsight a závislé účty úložiště musí být ve stejném umístění Azure.

Poznámka

Funkce, která vyžaduje zabezpečený přenos , vynutí všechny požadavky na váš účet prostřednictvím zabezpečeného připojení. Tuto funkci podporuje jenom cluster HDInsight verze 3,6 nebo novější. Další informace najdete v tématu Vytvoření clusteru Apache Hadoop s účty úložiště s bezpečným přenosem ve službě Azure HDInsight.

Důležité

Povolení přenosu zabezpečeného úložiště po vytvoření clusteru může způsobit chyby v účtu úložiště a nedoporučuje se ho použít. Je lepší vytvořit nový cluster pomocí účtu úložiště s povoleným zabezpečeným přenosem.

Poznámka

Azure HDInsight automaticky nepřenáší, nepřesouvá ani nekopíruje vaše data uložená v Azure Storage z jedné oblasti do druhé.

Nastavení metastore

Můžete vytvořit volitelný podregistr nebo Apache Oozie metaúložiště. Ne všechny typy clusterů ale podporují metaúložiště a služba Azure synapse Analytics není kompatibilní s metaúložiště.

Další informace najdete v tématu použití externích úložišť metadat ve službě Azure HDInsight.

Důležité

Když vytvoříte vlastní metastore, nepoužívejte v názvu databáze pomlčky, spojovníky nebo mezery. To může způsobit selhání procesu vytváření clusteru.

SQL databáze pro podregistr

Pokud chcete uchovat tabulky podregistru po odstranění clusteru HDInsight, použijte vlastní metastore. Pak můžete metastore připojit k jinému clusteru HDInsight.

An HDInsight metastore, která je vytvořená pro jednu verzi clusteru HDInsight, nejde sdílet mezi různými verzemi clusterů HDInsight. Seznam verzí služby HDInsight najdete v tématu podporované verze služby HDInsight.

Důležité

výchozí metastore poskytuje Azure SQL Database s limitem DTU úrovně basic 5 (nelze aktualizovat)! Vhodné pro účely základního testování. U rozsáhlých nebo produkčních úloh doporučujeme migrovat na externí metastore.

SQL databáze pro Oozie

Pokud chcete zvýšit výkon při použití Oozie, použijte vlastní metastore. Metastore může také poskytnout přístup k datům úlohy Oozie po odstranění clusteru.

SQL databáze pro Ambari

Ambari se používá k monitorování clusterů HDInsight, provádění změn konfigurace a ukládání informací o správě clusteru a také k historii úloh. Funkce vlastní Ambari DB umožňuje nasadit nový cluster a nastavit Ambari v externí databázi, kterou spravujete. Další informace najdete v tématu vlastní AMBARI DB.

Důležité

Nemůžete znovu použít vlastní Oozie metastore. pokud chcete použít vlastní metastore Oozie, musíte při vytváření clusteru HDInsight zadat prázdnou Azure SQL Database.

Zabezpečení a sítě

možnosti vytvoření HDInsight výběr balíčku podnikového zabezpečení

balíček zabezpečení Enterprise

pro typy clusterů Hadoop, Spark, hba, Kafka a interaktivní dotaz můžete povolit Balíček zabezpečení podniku. Tento balíček nabízí možnost mít bezpečnější instalaci clusteru pomocí Apache Ranger a integraci s Azure Active Directory. Další informace najdete v tématu Přehled podnikového zabezpečení ve službě Azure HDInsight.

balíček zabezpečení Enterprise umožňuje integrovat HDInsight se službou Active Directory a Apache Ranger. pomocí balíčku zabezpečení Enterprise lze vytvořit více uživatelů.

Další informace o vytvoření clusteru HDInsight připojeného k doméně najdete v tématu vytvoření prostředí sandboxu HDInsight připojeného k doméně.

TLS

Další informace najdete v tématu zabezpečení transportní vrstvy .

Virtuální síť

Pokud vaše řešení vyžaduje technologie, které jsou rozdělené mezi více typů clusterů HDInsight, může virtuální síť Azure propojit požadované typy clusterů. Tato konfigurace umožňuje clusterům a veškerý kód, který do nich nasazujete, k přímé komunikaci.

Další informace o používání služby Azure Virtual Network s HDInsight najdete v tématu plánování virtuální sítě pro HDInsight.

Příklad použití dvou typů clusterů v rámci virtuální sítě Azure najdete v tématu použití Apache Spark strukturovaného streamování s Apache Kafka. Další informace o používání služby HDInsight s virtuální sítí, včetně specifických požadavků na konfiguraci pro virtuální síť, najdete v tématu plánování virtuální sítě pro HDInsight.

Nastavení šifrování disku

Další informace najdete v tématu šifrování klíčového disku spravovaného zákazníkem.

Proxy REST Kafka

Toto nastavení je k dispozici pouze pro typ clusteru Kafka. Další informace najdete v tématu použití proxy REST.

Identita

Další informace najdete v tématu spravované identity ve službě Azure HDInsight.

Konfigurace a ceny

HDInsight Volba velikosti uzlu

Účtuje se vám využití uzlu, dokud cluster existuje. Fakturace začne při vytvoření clusteru a zastaví se při jeho odstranění. Clustery nemůžou být nepřidělené nebo se zablokují.

Konfigurace uzlů

Každý typ clusteru má svůj vlastní počet uzlů, terminologii pro uzly a výchozí velikost virtuálního počítače. V následující tabulce je počet uzlů pro každý typ uzlu v závorkách.

Typ Uzly Diagram
Hadoop Hlavní uzel (2), pracovní uzel (1 +) Uzly clusteru HDInsight Hadoop
HBase Hlavní server (2), server oblasti (1 +), hlavní/ZooKeeper uzel (3) Instalace typu clusteru HDInsight HBA
Storm Nimbus uzel (2), server pro řízení (1 +), ZooKeeper uzel (3) Nastavení typu clusteru HDInsight v HDInsight
Spark Hlavní uzel (2), pracovní uzel (1 +), uzel ZooKeeper (3) (volné pro velikost virtuálního počítače a1 ZooKeeper) Nastavení typu clusteru HDInsight Spark

Další informace najdete v tématu Konfigurace výchozích uzlů a velikosti virtuálních počítačů pro clustery v tématu Co jsou komponenty Hadoop a verze v HDInsight?.

Náklady na clustery HDInsight se určují podle počtu uzlů a velikosti virtuálních počítačů pro uzly.

Různé typy clusterů mají různé typy uzlů, počty uzlů a velikosti uzlů:

  • Výchozí typ clusteru Hadoop:
    • Dva hlavní uzly
    • Čtyři pracovní uzly
  • Výchozí typ clusteru pro hodnoty:
    • Dva uzly Nimbus
    • Tři uzly Zookeeper
    • Čtyři uzly Správce

Pokud jste právě zkoušeli HDInsight, doporučujeme použít jeden pracovní uzel. Další informace o cenách služby HDInsight najdete v tématu ceny služby HDInsight.

Poznámka

Omezení velikosti clusteru se liší v rámci předplatných Azure. Pokud chcete tento limit zvýšit, kontaktujte podporu fakturace Azure .

Když použijete Azure Portal ke konfiguraci clusteru, velikost uzlu je k dispozici na kartě Konfigurace + ceny . Na portálu můžete také zobrazit náklady spojené s různými velikostmi uzlů.

Velikosti virtuálních počítačů

Při nasazení clusterů vyberte výpočetní prostředky na základě řešení, které plánujete nasadit. Pro clustery HDInsight se používají následující virtuální počítače:

pokud chcete zjistit, jakou hodnotu byste měli použít k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad sdk nebo při použití Azure PowerShell, přečtěte si téma velikosti virtuálních počítačů, které se mají použít pro clustery HDInsight. Z tohoto odkazovaného článku použijte hodnotu ve sloupci Velikost v tabulkách.

Důležité

Pokud v clusteru potřebujete víc než 32 pracovních uzlů, musíte vybrat velikost hlavního uzlu s aspoň 8 jádry a 14 GB paměti RAM.

Další informace najdete v tématu velikosti pro virtuální počítače. Informace o cenách různých velikostí najdete v tématu ceny služby HDInsight.

Přidání aplikace

Aplikace HDInsight je aplikace, kterou uživatelé mohou nainstalovat na clusteru HDInsight se systémem Linux. Můžete používat aplikace od Microsoftu, třetích stran nebo si sami vyvíjíte. Další informace najdete v tématu instalace aplikací Apache Hadoop třetích stran v Azure HDInsight.

Většina aplikací HDInsight je nainstalovaná na prázdném hraničním uzlu. Prázdný hraniční uzel je virtuální počítač se systémem Linux se stejnými klientskými nástroji, který je nainstalovaný a nakonfigurovaný jako hlavní uzel. Hraniční uzel můžete použít pro přístup ke clusteru, testování klientských aplikací a hostování klientských aplikací. Další informace najdete v tématu Použití prázdných hraničních uzlů ve službě HDInsight.

Akce skriptů

Můžete nainstalovat další součásti nebo přizpůsobit konfiguraci clusteru pomocí skriptů během vytváření. Tyto skripty jsou vyvolány prostřednictvím akce skriptu , což je možnost konfigurace, kterou lze použít z rutin Azure Portal, HDInsight Windows PowerShell nebo SADY HDInsight .NET SDK. Další informace najdete v tématu Přizpůsobení clusteru HDInsight pomocí akce skriptu.

Některé nativní komponenty Javy, jako jsou Apache Mahout a Cascading, je možné spustit v clusteru jako soubory JAR (Java Archive). Tyto soubory JAR je možné distribuovat do Azure Storage a odeslat do clusterů HDInsight pomocí mechanismů odesílání úloh Hadoop. Další informace najdete v tématu Odeslání Apache Hadoop úloh prostřednictvím kódu programu.

Poznámka

Pokud máte problémy s nasazením souborů JAR do clusterů HDInsight nebo voláním souborů JAR v clusterech HDInsight, kontaktujte Podpora Microsoftu.

Služba HDInsight nepodporuje kaskádové kaskádové rozhraní a nemá nárok na Podpora Microsoftu. Seznam podporovaných komponent najdete v tématu Co je nového ve verzích clusteru poskytovaných službou HDInsight.

Někdy můžete chtít během procesu vytváření nakonfigurovat následující konfigurační soubory:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • storm-site.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Další informace najdete v tématu Přizpůsobení clusterů HDInsight pomocí nástroje Bootstrap.

Další kroky