Co je Azure HDInsight?

Azure HDInsight je spravovaná opensourcová analytická služba v cloudu, která je určená pro podniky. S HDInsight můžete ve svém prostředí Azure používat opensourcové architektury, jako jsou Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop a další.

Co je HDInsight a technologie Hadoop?

Azure HDInsight je platforma spravovaného clusteru, která usnadňuje spouštění architektur pro velké objemy dat, jako jsou Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop a další ve vašem prostředí Azure. Je navržený tak, aby zpracovával velké objemy dat s vysokou rychlostí a efektivitou.

Proč mám používat Azure HDInsight?

Schopnost Popis
Nativní pro cloud Azure HDInsight umožňuje vytvářet optimalizované clustery pro Spark, Interactive query (LLAP), Kafka, HBase a Hadoop v Azure. HDInsight poskytuje také komplexní smlouvu SLA pro všechny vaše produkční úlohy.
Škálovatelnost a nízké náklady HDInsight umožňuje vertikálně navyšovat nebo snížit kapacitu úloh. Náklady můžete snížit tak, že vytvoříte clustery na vyžádání a platíte jenom za to, co používáte. Můžete také sestavovat datové kanály pro zprovoznění úloh. Oddělený výpočetní výkon a úložiště poskytují lepší výkon a flexibilitu.
Bezpečnost a dodržování předpisů HDInsight umožňuje chránit podnikové datové prostředky pomocí služby Azure Virtual Network, šifrování a integrace s Microsoft Entra ID. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů.
Sledování Azure HDInsight se integruje s protokoly Azure Monitoru a poskytuje jedno rozhraní, pomocí kterého můžete monitorovat všechny clustery.
Globální dostupnost HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat . Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech.
Produktivita Azure HDInsight umožňuje používat bohaté nástroje zvyšující produktivitu pro Hadoop a Spark s oblíbeným vývojovým prostředím. Mezi tato vývojová prostředí patří Visual Studio, VS Code, Eclipse a IntelliJ pro podporu jazyka Scala, Python, Java a .NET.
Rozšiřitelnost Clustery HDInsight můžete rozšířit o nainstalované komponenty (Hue, Presto atd.) pomocí akcí skriptu, přidáním hraničních uzlů nebo integrací s jinými certifikovanými aplikacemi pro velké objemy dat . HDInsight umožňuje bezproblémovou integraci s nejoblíbenějšími řešeními pro velké objemy dat prostřednictvím nasazení jedním kliknutím.

What is big data?

Velké objemy dat se shromažďují v narůstajícím množství, s vyšší rychlostí a stále větší pestrostí formátů. Může jít o historické (tzn. uložené) objemy dat nebo o objemy dat v reálném čase (streamované ze zdroje). Informace o nejběžnějších případech použití velkých objemů dat najdete v části Scénáře použití služby HDInsight.

Typy clusterů ve službě HDInsight

HDInsight zahrnuje specifické typy clusterů a možnosti přizpůsobení clusterů, jako je například možnost přidávání komponent, nástrojů a jazyků. HDInsight nabízí následující typy clusteru:

Typ clusteru Popis Začínáme
Apache Hadoop Architektura, která používá HDFS, správu prostředků YARN a jednoduchý programovací model MapReduce pro paralelní zpracování a analýzu dávkových dat. Vytvoření clusteru Apache Hadoop
Apache Spark Opensourcová architektura paralelního zpracování, která podporuje zpracování v paměti za účelem zvýšení výkonu aplikací pro analýzu velkých objemů dat. Přečtěte si téma Co je Apache Spark v prostředí HDInsight? Vytvoření clusteru Apache Spark
Apache HBase Databáze NoSQL založená na Hadoopu, která poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat – potenciálně miliardy řádků krát miliony sloupců. Přečtěte si téma Co je HBase v HDInsight? Vytvoření clusteru Apache HBase
Apache Interactive Query Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive Viz Použití Interactive Query ve službě HDInsight. Vytvoření clusteru Interactive Query
Apache Kafka Opensourcová platforma se používá k vytváření streamovaných datových kanálů a aplikací. Kafka také poskytuje funkce propojující fronty zpráv, pomocí kterých můžete publikovat datové streamy a přihlašovat se k jejich odběru. Viz Úvod k Apache Kafka ve službě HDInsight. Vytvoření clusteru Apache Kafka

Scénáře použití služby HDInsight

Azure HDInsight je možné použít pro různé scénáře zpracování velkých objemů dat . Může se jednat o historická data (data, která jsou už shromážděná a uložená) nebo data v reálném čase (data, která se přímo streamují ze zdroje). Scénáře zpracování těchto dat můžeme shrnout do následujících kategorií:

Dávkové zpracování (ETL)

Extrakce, transformace a načítání (ETL) je proces, při kterém se nestrukturovaná nebo strukturovaná data extrahují z heterogenních zdrojů dat. Potom se transformují do strukturovaného formátu a načítají do úložiště dat. Transformovaná data je možné použít pro datové vědy nebo datové sklady.

Datové sklady

Pomocí služby HDInsight můžete provádět interaktivní dotazy v petabajtovém měřítku nad strukturovanými i nestrukturovanými daty v jakémkoli měřítku. Můžete také sestavovat modely, které je propojí s nástroji BI.

HDInsight architecture: Data warehousing.

Internet věcí (IoT)

HdInsight můžete použít ke zpracování streamovaných dat přijatých v reálném čase z různých druhů zařízení. Pokud chcete získat další informace, přečtěte si tento blogový příspěvek z Azure, který oznamuje verzi Public Preview pro Apache Kafka v HDInsightu se Spravovanými disky Azure.

Screenshot of the HDInsight architecture: Internet of Things.

Hybridní

Pomocí služby HDInsight můžete rozšířit stávající místní infrastrukturu velkých objemů dat do Azure, abyste mohli využít pokročilé analytické možnosti cloudu.

HDInsight architecture: Hybrid.

Opensourcové komponenty ve službě HDInsight

Azure HDInsight umožňuje vytvářet clustery s opensourcovými architekturami, jako jsou Spark, Hive, LLAP, Kafka, Hadoop a HBase. Tyto clustery ve výchozím nastavení zahrnují různé opensourcové komponenty, jako jsou Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie a Apache ZooKeeper.

Programovací jazyky v prostředí HDInsight

Clustery HDInsight, včetně clusterů Spark, HBase, Kafka, Hadoop a dalších, podporují celou řadu programovacích jazyků. Některé z nich ale nejsou ve výchozím nastavení nainstalované. Pro knihovny, moduly nebo balíčky, které nejsou ve výchozím nastavení nainstalovány, použijte akci skriptu k instalaci komponenty.

Programovací jazyk Informační
Výchozí podpora programovacích jazyků Ve výchozím nastavení podporují clustery prostředí HDInsight tyto jazyky:
  • Java
  • Python
  • .NET
  • Přejít
Jazyky Java virtual machine (JVM) V prostředí Java Virtual Machine (JVM) je možné spouštět celou řadu jiných jazyků, než je Java. Pokud ale spustíte některé z těchto jazyků, možná budete muset do clusteru nainstalovat další komponenty. Clustery HDInsight podporují následující jazyky založené na prostředí JVM:
  • Clojure
  • Jython (Python pro jazyk Java)
  • Scala
Jazyky pro Hadoop Clustery HDInsight podporují následující jazyky, které jsou specifické pro technologii Hadoop:
  • Pig Latin pro úlohy Pig
  • HiveQL pro úlohy Hive a SparkSQL

Vývojářské nástroje pro HDInsight

Vývojářské nástroje pro HDInsight, včetně nástrojů IntelliJ, Eclipse, Visual Studio Code a Visual Studio, můžete díky bezproblémové integraci s Azure použít k vytváření a odesílání úloh a dotazů na data HDInsight.

  • Azure Toolkit for IntelliJ 10
  • Sada Azure Toolkit pro Eclipse 6
  • Nástroje Azure HDInsight pro VS Code 13
  • Nástroje Azure Data Lake pro Visual Studio 9

Business intelligence ve službě HDInsight

Známé nástroje business intelligence (BI) načítají, analyzují a vykazují data integrovaná v prostředí HDInsight buď pomocí doplňku Power Query, nebo ovladače Microsoft Hive ODBC Driver:

Rezidenci dat v oblasti

Spark, Hadoop a LLAP neukládají zákaznická data, takže tyto služby automaticky splňují požadavky na rezidenci dat v dané oblasti zadané v Centru zabezpečení.

Kafka a HBase ukládají zákaznická data. Tato data jsou automaticky uložená systémem Kafka a HBase v jedné oblasti, takže tato služba splňuje požadavky na rezidenci dat v jednotlivých oblastech zadaných v Centru zabezpečení.

Známé nástroje business intelligence (BI) načítají, analyzují a hlásí data integrovaná se službou HDInsight pomocí doplňku Power Query nebo ovladače ODBC Microsoft Hive.

Další kroky