Co je Azure HDInsight?
Azure HDInsight je spravovaná, plně spektrum Open Source služby pro analýzu v cloudu pro podniky. Pomocí služby HDInsight můžete v prostředí Azure používat Open Source architektury, jako jsou Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R a další.
Co je HDInsight a technologie Hadoop?
Azure HDInsight je cloudová distribuce komponent systému Hadoop. Azure HDInsight usnadňuje, rychle a nákladově efektivní zpracování obrovského objemu dat v přizpůsobitelné prostředí. Můžete využít nejoblíbenější opensourcové architektury, jako jsou Hadoop, Spark, Hive, LLAP, Kafka, Storm, R a další. Tyto architektury podporují širokou škálu scénářů, jako jsou ETL (extrakce, transformace a načítání), datové sklady, strojové učení a IoT.
Komponenty technologie Hadoop dostupné ve službě HDInsight najdete v tématu Dostupné komponenty a verze ve službě HDInsight. Další informace o platformě Hadoop v prostředí HDInsight najdete v tématu Funkce Azure pro HDInsight.
Proč mám použít Azure HDInsight?
| Schopnost | Description |
|---|---|
| Nativní pro cloud | Azure HDInsight umožňuje vytvářet optimalizované clustery pro Hadoop, Spark, interaktivní dotazy (LLAP), Kafka, zaplavení, HBA v Azure. HDInsight poskytuje také komplexní smlouvu SLA pro všechny vaše produkční úlohy. |
| Škálovatelnost a nízké náklady | HDInsight vám umožní škálovat úlohy nahoru nebo dolů.Můžete snížit náklady tím, že vytvoříte clustery na vyžádání a platíte jenom za to, co využijete. Můžete také sestavovat datové kanály pro zprovoznění úloh. Oddělený výpočetní výkon a úložiště poskytují lepší výkon a flexibilitu. |
| Bezpečnost a dodržování předpisů | HDInsight umožňuje chránit datové prostředky vašeho podniku pomocí služby Azure Virtual Network, šifrování a integrace se službou Azure Active Directory. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů. |
| Monitorování | Azure HDInsight se integruje s protokoly Azure Monitor a poskytuje jedno rozhraní, se kterým můžete monitorovat všechny clustery. |
| Globální dostupnost | HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat . Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech. |
| Produktivita | Azure HDInsight umožňuje používat bohaté nástroje zvyšující produktivitu pro Hadoop a Spark s oblíbeným vývojovým prostředím. Mezi tato vývojová prostředí patří Visual Studio, VSCode, Eclipse a IntelliJ pro zajištění podpory jazyků Scala, Python, R, Java a .NET. Odborníci přes data můžou také spolupracovat s využitím oblíbených poznámkových bloků, jako jsou Jupyter a Zeppelin. |
| Rozšiřitelnost | Clustery HDInsight s nainstalovanými komponentami (odstín, presto atd.) můžete roztáhnout pomocí akcí skriptů, přidáním hraničních uzlů nebo integrací s dalšími aplikacemi certifikovanými pro velké objemy dat . HDInsight umožňuje bezproblémovou integraci s nejoblíbenějšími řešeními pro velké objemy dat pomocí nasazení jedním kliknutím. |
Co jsou velké objemy dat?
Velké objemy dat se shromažďují v narůstajícím množství, s vyšší rychlostí a stále větší pestrostí formátů. Může jít o historické (tzn. uložené) objemy dat nebo o objemy dat v reálném čase (streamované ze zdroje). Informace o nejběžnějších případech použití velkých objemů dat najdete v části Scénáře použití služby HDInsight.
Typy clusterů ve službě HDInsight
HDInsight zahrnuje specifické typy clusterů a možnosti přizpůsobení clusterů, jako je například možnost přidávání komponent, nástrojů a jazyků. HDInsight nabízí následující typy clusteru:
| Typ clusteru | Description | Začínáme |
|---|---|---|
| Apache Hadoop | rozhraní, které používá HDFS, správu prostředků příze a jednoduchý programovací model MapReduce pro souběžné zpracování a analýzu dat batch. | Vytvoření clusteru Apache Hadoop |
| Apache Spark | Open source architektura paralelního zpracování, která podporuje zpracování v paměti pro zvýšení výkonu aplikací pro analýzu velkých objemů dat. Podívejte se, co je Apache Spark v HDInsight?. | Vytvoření clusteru Apache Spark |
| Apache HBase | Databáze NoSQL postavená na systému Hadoop, která poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat – potenciálně miliardy řádků krát miliony sloupců. Přečtěte si téma Co je HBase v HDInsight? | Vytvoření clusteru Apache HBA |
| Apache Storm | Distribuovaný výpočetní systém v reálném čase pro rychlé zpracování velkých proudů dat. Storm je poskytován jako spravovaný cluster v prostředí HDInsight. Viz Analýza dat snímačů v reálném čase pomocí nástrojů Storm a Hadoop. | Vytvoření topologie Apache Stormu |
| Interaktivní dotaz Apache | Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy na podregistr. Viz Použití Interactive Query ve službě HDInsight. | Vytvoření clusteru interaktivních dotazů |
| Apache Kafka | Open Source platforma, která se používá k sestavování kanálů a aplikací streamování dat. Kafka také poskytuje funkce propojující fronty zpráv, pomocí kterých můžete publikovat datové streamy a přihlašovat se k jejich odběru. Viz Úvod k Apache Kafka ve službě HDInsight. | Vytvoření clusteru Apache Kafka |
Scénáře použití služby HDInsight
Azure HDInsight je možné použít pro nejrůznější scénáře zpracování velkých objemů dat . Může se jednat o historická data (data, která jsou už shromážděná a uložená) nebo o data v reálném čase (data proudící přímo ze zdroje). Scénáře zpracování těchto dat můžeme shrnout do následujících kategorií:
Dávkové zpracování (ETL)
Extrakce, transformace a načítání (ETL) je proces, při kterém se nestrukturovaná nebo strukturovaná data extrahují z heterogenních zdrojů dat. Potom se transformují do strukturovaného formátu a načítají do úložiště dat. Transformovaná data je možné použít pro datové vědy nebo datové sklady.
Datové sklady
Pomocí služby HDInsight můžete provádět interaktivní dotazy v petabajtovém měřítku nad strukturovanými i nestrukturovanými daty v jakémkoli měřítku. Můžete také sestavovat modely, které je propojí s nástroji BI.
Internet věcí (IoT)
Pomocí služby HDInsight můžete zpracovávat streamovaná data přijímaná v reálném čase z různých druhů zařízení. Pokud chcete získat další informace, přečtěte si tento blogový příspěvek z Azure, který oznamuje verzi Public Preview pro Apache Kafka v HDInsightu se Spravovanými disky Azure.
Datové vědy
Pomocí služby HDInsight můžete sestavovat aplikace, které z dat extrahují důležité informace. Navíc můžete pomocí služby Azure Machine Learning předvídat budoucí trendy pro vaši firmu. Další informace najdete v tomto příběhu zákazníka.
Hybridní
Pomocí služby HDInsight můžete rozšířit svou stávající místní infrastrukturu velkých objemů dat do Azure a využít tak pokročilé analytické funkce cloudu.
Opensourcové komponenty ve službě HDInsight
Azure HDInsight umožňuje vytvářet clustery s open source rozhraními, jako jsou Hadoop, Spark, podregistr, LLAP, Kafka, vyplavení, HBA a R. Tyto clustery ve výchozím nastavení přidávají s dalšími Open Source komponentami, které jsou součástí clusteru, jako je Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 a Apache ZooKeeper5.
Programovací jazyky v prostředí HDInsight
Clustery HDInsight, včetně clusterů Spark, HBase, Kafka, Hadoop a dalších, podporují celou řadu programovacích jazyků. Některé z nich ale nejsou ve výchozím nastavení nainstalované. Pro knihovny, moduly nebo balíčky, které nejsou nainstalované ve výchozím nastavení, použijte k instalaci komponenty akci skriptu.
| Programovací jazyk | Informace |
|---|---|
| Výchozí podpora programovacích jazyků | Ve výchozím nastavení podporují clustery prostředí HDInsight tyto jazyky:
|
| Jazyky Java virtual machine (JVM) | V prostředí Java Virtual Machine (JVM) je možné spouštět celou řadu jiných jazyků, než je Java. Pokud ale některé z těchto jazyků spustíte, může být v clusteru potřeba nainstalovat další součásti. Clustery prostředí HDInsight podporují následující jazyky založené na JVM:
|
| Jazyky pro Hadoop | Clustery HDInsight podporují následující jazyky, které jsou určené konkrétně pro technologii Hadoop:
|
Vývojářské nástroje pro HDInsight
Vývojářské nástroje pro HDInsight, včetně nástrojů IntelliJ, Eclipse, Visual Studio Code a Visual Studio, můžete díky bezproblémové integraci s Azure použít k vytváření a odesílání úloh a dotazů na data HDInsight.
- Sada Azure Toolkit pro IntelliJ10
- Sada Azure Toolkit pro Eclipse6
- Nástroje Azure HDInsight pro VS Code13
- Nástroje Azure Data Lake pro Visual Studio9
Business intelligence ve službě HDInsight
Známé nástroje business intelligence (BI) načítají, analyzují a vykazují data integrovaná v prostředí HDInsight buď pomocí doplňku Power Query, nebo ovladače Microsoft Hive ODBC Driver:
Apache Spark BI s využitím nástrojů pro vizualizaci dat ve službě Azure HDInsight
vizualizace Apache Hive dat pomocí Microsoft Power BI ve službě Azure HDInsight
Vizualizace dat Interactive Query Hive pomocí Power BI ve službě Azure HDInsight
Připojení Excel Apache Hadoop Power Query (vyžaduje Windows)
Připojení Excel Apache Hadoop Microsoft Hive ODBC Driver (vyžaduje Windows)
Zasídlí dat v oblasti
Spark, Hadoop, LLAP, Hadoop a MLService neukládají zákaznická data, aby tyto služby automaticky splňovaly požadavky na umístění dat v regionu, včetně těch, které jsou uvedené v Centru zabezpečení.
Kafka a HBA ukládají zákaznická data. Tato data se automaticky ukládají pomocí Kafka a HBA v jedné oblasti, takže tato služba splňuje požadavky na umístění dat v rámci oblasti, včetně těch, které jsou uvedené v Centru zabezpečení.
Známé nástroje business intelligence (BI) načítají, analyzují a vykazují data, která jsou integrovaná do HDInsight, pomocí Power Queryho doplňku nebo Microsoft Hive ODBC Driver.