Azure HDInsight: Nejčastější dotazy

Tento článek obsahuje odpovědi na některé z nejběžnějších otázek týkajících se spouštění služby Azure HDInsight.

Vytváření nebo odstraňování clusterů HDInsight

Jak zřídím cluster HDInsight?

Pokud chcete zkontrolovat typy clusterů HDInsight a metody zřizování, přečtěte si téma Nastavení clusterů ve službě HDInsight pomocí Apache Hadoopu, Apache Sparku, Apache Kafka a dalších.

Návody odstranit existující cluster HDInsight?

Další informace o odstranění clusteru, když už se nepoužívá, najdete v tématu Odstranění clusteru HDInsight.

Zkuste mezi operacemi vytvoření a odstranění ponechat aspoň 30 až 60 minut. Jinak může operace selhat s následující chybovou zprávou:

Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.

Návody vybrat správný počet jader nebo uzlů pro úlohu?

Odpovídající počet jader a dalších možností konfigurace závisí na různých faktorech.

Další informace najdete v tématu Plánování kapacity pro clustery HDInsight.

Jaké jsou různé typy uzlů v clusteru HDInsight?

Viz typy prostředků v clusterech Azure HDInsight.

Jaké jsou osvědčené postupy pro vytváření velkých clusterů HDInsight?

  1. Pokud chcete zlepšit škálovatelnost clusteru, doporučujeme nastavit clustery HDInsight s využitím vlastní databáze Ambari.
  2. Pomocí Azure Data Lake Storage Gen2 můžete vytvářet clustery HDInsight, které využívají větší šířku pásma a další charakteristiky výkonu Služby Azure Data Lake Storage Gen2.
  3. Hlavní uzly by měly být dostatečně velké, aby vyhovovaly více hlavním službám běžícím na těchto uzlech.
  4. Některé konkrétní úlohy, například Interactive Query, budou také potřebovat větší uzly Zookeeper. Zvažte minimálně osm základních virtuálních počítačů.
  5. V případě Hive a Sparku použijte externí metastore Hive.

Jednotlivé komponenty

Můžu do clusteru nainstalovat další komponenty?

Ano. Pokud chcete nainstalovat další komponenty nebo přizpůsobit konfiguraci clusteru, použijte:

  • Skripty během vytváření nebo po jeho vytvoření. Skripty se vyvolávají prostřednictvím akce skriptu. Akce skriptu je možnost konfigurace, kterou můžete použít z webu Azure Portal, rutin prostředí Windows PowerShell služby HDInsight nebo sady HDInsight .NET SDK. Tuto možnost konfigurace můžete použít z webu Azure Portal, rutin prostředí Windows PowerShell pro HDInsight nebo sady HDInsight .NET SDK.

  • Aplikační platforma HDInsight pro instalaci aplikací.

Seznam podporovaných komponent najdete v tématu Jaké jsou komponenty a verze Apache Hadoop dostupné ve službě HDInsight?

Můžu upgradovat jednotlivé komponenty, které jsou předinstalované v clusteru?

Pokud upgradujete předdefinované komponenty nebo aplikace, které jsou předinstalované v clusteru, nebude výsledná konfigurace společností Microsoft podporována. Microsoft tyto konfigurace systému neotestoval. Zkuste použít jinou verzi clusteru HDInsight, která už možná má předinstalovanou upgradovanou verzi komponenty.

Upgrade Hivu jako jednotlivé komponenty se například nepodporuje. HDInsight je spravovaná služba a řada služeb je integrovaná se serverem Ambari a testuje se. Upgrade Hivu sám o sobě způsobí, že se změní indexované binární soubory jiných komponent a způsobí problémy s integrací komponent ve vašem clusteru.

Může Spark a Kafka běžet ve stejném clusteru HDInsight?

Ne, není možné spustit Apache Kafka a Apache Spark ve stejném clusteru HDInsight. Vytvořte samostatné clustery pro Kafka a Spark, abyste se vyhnuli problémům s kolizemi prostředků.

Návody změnit časové pásmo v Ambari?

  1. Otevřete webové uživatelské rozhraní Ambari na adrese https://CLUSTERNAME.azurehdinsight.net, kde CLUSTERNAME je název vašeho clusteru.

  2. V pravém horním rohu vyberte správce | Nastavení.

    Ambari Settings.

  3. V okně Uživatel Nastavení vyberte nové časové pásmo z rozevíracího seznamu Časové pásmo a klepněte na tlačítko Uložit.

    Ambari User Settings.

Metastore

Jak můžu migrovat z existujícího metastoru do Služby Azure SQL Database?

Pokud chcete migrovat z SQL Serveru do služby Azure SQL Database, přečtěte si kurz : Migrace SQL Serveru do izolované databáze nebo databáze ve fondu ve službě Azure SQL Database offline pomocí DMS.

Odstraní se metastor Hive při odstranění clusteru?

Závisí na typu metastoru, který má cluster používat.

Výchozí metastor: Výchozí metastore je součástí životního cyklu clusteru. Když odstraníte cluster, odstraní se také odpovídající metastor a metadata.

Pro vlastní metastore: Životní cyklus metastoru není vázán na životní cyklus clusteru. Clustery tedy můžete vytvářet a odstraňovat bez ztráty metadat. Metadata, jako jsou vaše schémata Hive, se uchovávají i po odstranění a opětovném vytvoření clusteru HDInsight.

Další informace najdete v tématu Použití externích úložišť metadat ve službě Azure HDInsight.

Migruje se při migraci metastoru Hive také výchozí zásady databáze Ranger?

Ne, definice zásady je v databázi Ranger, takže migrace databáze Ranger bude migrovat její zásady.

Můžete migrovat metastore Hive z clusteru Enterprise Security Package (ESP) do clusteru mimo ESP a naopak?

Ano, metastor Hive můžete migrovat z ESP do clusteru mimo ESP.

Jak můžu odhadnout velikost databáze metastoru Hive?

Metastor Hive slouží k ukládání metadat pro zdroje dat, které používá server Hive. Požadavky na velikost závisí částečně na počtu a složitosti vašich zdrojů dat Hive. Tyto položky nelze předem odhadnout. Jak je uvedeno v pokynech k metastoru Hive, můžete začít s úrovní S2. Úroveň poskytuje 50 DTU a 250 GB úložiště a pokud se zobrazí kritický bod, vertikálně navyšte kapacitu databáze.

Podporujete jinou databázi než Azure SQL Database jako externí metastore?

Ne, Microsoft podporuje pouze Azure SQL Database jako externí vlastní metastore.

Můžu metastor sdílet napříč několika clustery?

Ano, vlastní metastore můžete sdílet napříč několika clustery, pokud používají stejnou verzi SLUŽBY HDInsight.

Připojení ivity a virtuálních sítích

Jaké jsou důsledky blokování portů 22 a 23 v mé síti?

Pokud zablokujete porty 22 a port 23, nebudete mít ke clusteru přístup přes SSH. Tyto porty služba HDInsight nepoužívá.

Další informace najdete v následujících dokumentech:

Můžu nasadit další virtuální počítač ve stejné podsíti jako cluster HDInsight?

Ano, můžete nasadit další virtuální počítač ve stejné podsíti jako cluster HDInsight. Jsou možné následující konfigurace:

Mám ukládat data na místní disk hraničního uzlu?

Ne, ukládání dat na místní disk není vhodné. Pokud uzel selže, všechna data uložená místně budou ztracena. Doporučujeme ukládat data ve službě Azure Data Lake Storage Gen2 nebo Azure Blob Storage nebo připojením sdílené složky Azure Files pro ukládání dat.

Můžu přidat existující cluster HDInsight do jiné virtuální sítě?

Ne, nemůžeš. Virtuální síť by se měla zadat v době zřizování. Pokud během zřizování není zadána žádná virtuální síť, vytvoří nasazení interní síť, která není přístupná zvenčí. Další informace najdete v tématu Přidání SLUŽBY HDInsight do existující virtuální sítě.

Zabezpečení a certifikáty

Jaká jsou doporučení pro ochranu před malwarem v clusterech Azure HDInsight?

Informace o ochraně proti malwaru najdete v tématu Microsoft Antimalware pro Azure Cloud Services a Virtual Machines.

Návody vytvoření klíčové tabulky pro cluster HDInsight ESP?

Vytvořte záložku klíčů Kerberos pro vaše uživatelské jméno domény. Později můžete tuto klávesovou zkratku použít k ověření u vzdálených clusterů připojených k doméně bez zadání hesla. Název domény je velkými písmeny:


ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q

Kdy se při vytváření klíčové tabulky vyžaduje solení pro šifrování AES256?

Pokud se název tenanta a název_domény liší (příklad Název_tenanta – bob@CONTOSO.ONMICROSOFT.COM &DomainName), bob@CONTOSOMicrosoft.ONMICROSOFT.COMmusíte přidat hodnotu SALT pomocí parametru -s.

Návody určit správnou hodnotu SALT?

  1. Pomocí interaktivního přihlášení kerberos určete správnou hodnotu soli pro klíčovou kartu. Interaktivní přihlášení kerberos bude ve výchozím nastavení používat nejvyšší šifrování. Trasování by mělo být povoleno sledovat sůl. Níže je ukázkové přihlášení kerberos:

$ KRB5_TRAACE=/dev/stdout kinit <username> -V
  1. Prohlédněte si výstup soli "......." Řádku.
  2. Tuto hodnotu soli použijte při vytváření klávesové zkratky.

ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96 -s <SALTvalue>
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q

Můžu použít existujícího tenanta Microsoft Entra k vytvoření clusteru HDInsight s ESP?

Před vytvořením clusteru HDInsight s ESP povolte službu Microsoft Entra Domain Services. Open source Hadoop využívá protokol Kerberos pro ověřování (na rozdíl od OAuth).

Pokud chcete připojit virtuální počítače k doméně, musíte mít řadič domény. Microsoft Entra Domain Services je spravovaný řadič domény a považuje se za rozšíření ID Microsoft Entra. Služba Microsoft Entra Domain Services poskytuje všechny požadavky protokolu Kerberos na vytvoření zabezpečeného clusteru Hadoop spravovaným způsobem. HDInsight jako spravovaná služba se integruje se službou Microsoft Entra Domain Services za účelem zajištění zabezpečení.

Můžu v zabezpečeném nastavení protokolu LDAP a zřízení clusteru ESP použít certifikát podepsaný svým držitelem v Microsoft Entra Domain Services?

Doporučuje se použít certifikát vydaný certifikační autoritou. Použití certifikátu podepsaného svým držitelem je ale podporováno také v ESP. Další informace naleznete v tématu:

Můžu si nástroj Data Analytics Studio (DAS) nainstalovat jako cluster ESP?

Ne, DAS není podporován v clusterech ESP.

Jak můžu vyžádat přihlašovací aktivitu zobrazenou v Rangeru?

V případě požadavků na auditování Microsoft doporučuje povolit protokoly Služby Azure Monitor, jak je popsáno v tématu Použití protokolů služby Azure Monitor k monitorování clusterů HDInsight.

Můžu v clusteru zakázat Clamscan?

Clamscan je antivirový software, který běží v clusteru HDInsight a používá ho zabezpečení Azure (azsecd) k ochraně clusterů před viry útoky. Microsoft důrazně doporučuje, aby se uživatelé vyhnuli změnám výchozí Clamscan konfigurace.

Tento proces nezasahuje do jiných procesů ani nepřebírají žádné cykly. Vždy se vrátí k jinému procesu. Špičky procesoru z Clamscan by měly být pozorovány pouze v případě, že je systém nečinný.

Ve scénářích, ve kterých musíte řídit plán, můžete použít následující kroky:

  1. Pomocí následujícího příkazu zakažte automatické spouštění:

    sudo sudo usr/local/bin/azsecd config -s clamav -d Disabled service azsecd restart

  2. Přidejte úlohu Cron, která spouští následující příkaz jako kořen:

    /usr/local/bin/azsecd manual -s clamav

Další informace o tom, jak nastavit a spustit úlohu cron, najdete v tématu Návody nastavení úlohy Cron?

Proč je LLAP k dispozici v clusterech Spark ESP?

LLAP je povolený z bezpečnostních důvodů (Apache Ranger), ne z hlediska výkonu. Virtuální počítače s většími uzly použijte k přizpůsobení využití prostředků LLAP (například minimální D13V2).

Jak můžu přidat další skupiny Microsoft Entra po vytvoření clusteru ESP?

Tento cíl lze dosáhnout dvěma způsoby: 1– Cluster můžete vytvořit znovu a přidat další skupinu při vytváření clusteru. Pokud používáte synchronizaci s vymezeným oborem ve službě Microsoft Entra Domain Services, ujistěte se, že je do vymezené synchronizace zahrnutá skupina B. 2. Přidejte skupinu jako vnořenou podskupinu předchozí skupiny, která byla použita k vytvoření clusteru ESP. Pokud jste například vytvořili cluster ESP se skupinou A, můžete později přidat skupinu B jako vnořenou podskupinu A a přibližně po jedné hodině se synchronizuje a bude dostupná v clusteru automaticky.

Úložiště

Můžu přidat Azure Data Lake Storage Gen2 do existujícího clusteru HDInsight jako další účet úložiště?

Ne, v současné době není možné přidat účet úložiště Azure Data Lake Storage Gen2 do clusteru, který má úložiště objektů blob jako primární úložiště. Další informace najdete v tématu Porovnání možností úložiště.

Jak najdu aktuálně propojený instanční objekt pro účet Služby Data Lake Storage?

Nastavení najdete v accessu Data Lake Storage Gen1 ve vlastnostech clusteru na webu Azure Portal. Další informace naleznete v tématu Ověření nastavení clusteru.

Jak můžu vypočítat využití účtů úložiště a kontejnerů objektů blob pro clustery HDInsight?

Proveďte jednu z následujících akcí:

  • Použití PowerShellu

  • Najděte velikost /user/hive/. Koš nebo složka v clusteru HDInsight pomocí následujícího příkazového řádku:

    hdfs dfs -du -h /user/hive/.Trash/

Jak nastavím auditování pro svůj účet úložiště objektů blob?

Pokud chcete auditovat účty úložiště objektů blob, nakonfigurujte monitorování pomocí postupu monitorování na webu Azure Portal na monitorování účtu úložiště. Protokol auditu HDFS poskytuje pouze informace o auditování pro místní systém souborů HDFS (hdfs://mycluster). Nezahrnuje operace, které se provádějí ve vzdáleném úložišti.

Jak můžu přenášet soubory mezi kontejnerem objektů blob a hlavním uzlem HDInsight?

Na hlavním uzlu spusťte skript podobný následujícímu skriptu prostředí:

for i in cat filenames.txt
do
   hadoop fs -get $i <local destination>
done

Poznámka:

Soubor filenames.txt bude mít absolutní cestu k souborům v kontejnerech objektů blob.

Existují nějaké moduly plug-in Ranger pro úložiště?

V současné době pro úložiště objektů blob a Azure Data Lake Storage Gen1 nebo Gen2 neexistuje žádný modul plug-in Ranger. Pro clustery ESP byste měli použít Azure Data Lake Storage. Pomocí nástrojů HDFS můžete alespoň ručně nastavit jemně odstupňovaná oprávnění na úrovni systému souborů. Při použití Azure Data Lake Storage budou clustery ESP provádět řízení přístupu k systému souborů pomocí Microsoft Entra ID na úrovni clusteru.

Zásady přístupu k datům můžete přiřadit skupinám zabezpečení uživatelů pomocí Průzkumník služby Azure Storage. Další informace naleznete v tématu:

Můžu v clusteru zvětšit úložiště HDFS bez zvětšení velikosti disku pracovních uzlů?

Ne. Velikost disku žádného pracovního uzlu nejde zvětšit. Jediným způsobem, jak zvětšit velikost disku, je vypustit cluster a vytvořit ho znovu s většími pracovními virtuálními počítači. Nepoužívejte HDFS k ukládání dat HDInsight, protože pokud odstraníte cluster, data se odstraní. Místo toho uložte data v Azure. Vertikální navýšení kapacity clusteru může také přidat do clusteru HDInsight další kapacitu.

Hraniční uzly

Můžu po vytvoření clusteru přidat hraniční uzel?

Jak se můžu připojit k hraničnímu uzlu?

Po vytvoření hraničního uzlu se k němu můžete připojit pomocí SSH na portu 22. Název hraničního uzlu najdete na portálu clusteru. Názvy obvykle končí na -ed.

Proč se trvalé skripty nespouštět automaticky na nově vytvořených hraničních uzlech?

Trvalé skripty slouží k přizpůsobení nových pracovních uzlů přidaných do clusteru prostřednictvím operací škálování. Trvalé skripty se nevztahují na hraniční uzly.

REST API

Jaká jsou volání rozhraní REST API pro vyžádání zobrazení dotazu Tez z clusteru?

K načtení potřebných informací ve formátu JSON můžete použít následující koncové body REST. K vytváření požadavků použijte základní hlavičky ověřování.

  • Tez Query View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/>
  • Tez Dag View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/>

Návody načíst podrobnosti o konfiguraci z clusteru HDI pomocí uživatele Microsoft Entra?

Pokud chcete vyjednat správné ověřovací tokeny s uživatelem Microsoft Entra, projděte bránu pomocí následujícího formátu:

  • <cluster dnsname>https://.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1

Návody monitorování výkonu YARN pomocí Ambari RESTful?

Pokud voláte příkaz Curl ve stejné virtuální síti nebo v partnerské virtuální síti, příkaz je následující:


curl -u <cluster login username> -sS -G
http://<headnodehost>:8080/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu

Pokud voláte příkaz mimo virtuální síť nebo z ne peered virtuální sítě, formát příkazu je:

  • Pro cluster mimo ESP:

    
    curl -u <cluster login username> -sS -G 
    https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
    
  • Pro cluster ESP:

    
    curl -u <cluster login username>-sS -G 
    https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
    

Poznámka:

Curl vás vyzve k zadání hesla. Musíte zadat platné heslo pro přihlašovací uživatelské jméno clusteru.

Fakturace

Kolik stojí nasazení clusteru HDInsight?

Další informace o cenách a nejčastějších dotazech souvisejících s fakturací najdete na stránce s cenami služby Azure HDInsight.

Kdy se fakturace HDInsight spustí a zastaví?

Účtování clusteru HDInsight začne vytvořením clusteru a skončí jeho odstraněním. Fakturace je poměrná za minutu.

Návody zrušit předplatné?

Informace o zrušení předplatného najdete v tématu Zrušení předplatného Azure.

Co se stane po zrušení předplatného u předplatných s průběžným platbami?

Informace o předplatném po zrušení najdete v tématu Co se stane po zrušení předplatného?

Hive

Proč se verze Hivu zobrazuje jako verze 1.2.1000 místo verze 2.1 v uživatelském rozhraní Ambari, i když používám cluster HDInsight 3.6?

I když se v uživatelském rozhraní Ambari zobrazí jenom verze 1.2, HDInsight 3.6 obsahuje Hive 1.2 i Hive 2.1.

Další nejčastější dotazy

Co hdInsight nabízí pro možnosti zpracování datových proudů v reálném čase?

Informace o možnostech integrace zpracování datových proudů najdete v tématu Volba technologie zpracování datových proudů v Azure.

Existuje způsob, jak dynamicky ukončovat hlavní uzel clusteru, když je cluster po určitou dobu nečinný?

Tuto akci nemůžete provést s clustery HDInsight. Pro tyto scénáře můžete použít Azure Data Factory.

Jaké nabídky dodržování předpisů nabízí HDInsight?

Informace o dodržování předpisů najdete v Centru zabezpečení Microsoftu.