Co je Azure HDInsight?What is Azure HDInsight?

Azure HDInsight je spravovaná, plně spektrum Open Source služby pro analýzu v cloudu pro podniky.Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Můžete použít Open Source architektury, jako jsou Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R a další.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

Co je HDInsight a technologie Hadoop?What is HDInsight and the Hadoop technology stack?

Azure HDInsight je cloudová distribuce komponent systému Hadoop.Azure HDInsight is a cloud distribution of Hadoop components. Azure HDInsight umožňuje snadné, rychlé a nákladově efektivní zpracování obrovského množství dat.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Můžete využít nejoblíbenější opensourcové architektury, jako jsou Hadoop, Spark, Hive, LLAP, Kafka, Storm, R a další.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Tyto architektury podporují širokou škálu scénářů, jako jsou ETL (extrakce, transformace a načítání), datové sklady, strojové učení a IoT.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

Komponenty technologie Hadoop dostupné ve službě HDInsight najdete v tématu Dostupné komponenty a verze ve službě HDInsight.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. Další informace o platformě Hadoop v prostředí HDInsight najdete v tématu Funkce Azure pro HDInsight.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

Co jsou velké objemy dat?What is big data?

Velké objemy dat se shromažďují v narůstajícím množství, s vyšší rychlostí a stále větší pestrostí formátů.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. Může jít o historické (tzn. uložené) objemy dat nebo o objemy dat v reálném čase (streamované ze zdroje).It can be historical (meaning stored) or real time (meaning streamed from the source). Informace o nejběžnějších případech použití velkých objemů dat najdete v části Scénáře použití služby HDInsight.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Proč mám použít Azure HDInsight?Why should I use Azure HDInsight?

Tato část uvádí schopnosti služby Azure HDInsight.This section lists the capabilities of Azure HDInsight.

SchopnostCapability DescriptionDescription
Nativní pro cloudCloud native Azure HDInsight umožňuje vytvářet optimalizované clustery pro služby Hadoop, Spark, interaktivní dotazy (LLAP), Kafka, proplavování, HBA a ml v Azure.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. HDInsight poskytuje také komplexní smlouvu SLA pro všechny vaše produkční úlohy.HDInsight also provides an end-to-end SLA on all your production workloads.
Škálovatelnost a nízké nákladyLow-cost and scalable HDInsight vám umožní škálovat úlohy nahoru nebo dolů.HDInsight enables you to scale workloads up or down.Můžete snížit náklady tím, že vytvoříte clustery na vyžádání a platíte jenom za to, co využijete. You can reduce costs by creating clusters on demand and paying only for what you use. Můžete také sestavovat datové kanály pro zprovoznění úloh.You can also build data pipelines to operationalize your jobs. Oddělený výpočetní výkon a úložiště poskytují lepší výkon a flexibilitu.Decoupled compute and storage provide better performance and flexibility.
Bezpečnost a dodržování předpisůSecure and compliant HDInsight umožňuje chránit datové prostředky vašeho podniku pomocí služby Azure Virtual Network, šifrování a integrace se službou Azure Active Directory.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů.HDInsight also meets the most popular industry and government compliance standards.
MonitorováníMonitoring Azure HDInsight se integruje s protokoly Azure Monitor a poskytuje jedno rozhraní, se kterým můžete monitorovat všechny clustery.Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
Globální dostupnostGlobal availability HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat.HDInsight is available in more regions than any other big data analytics offering. Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
ProduktivitaProductivity Azure HDInsight umožňuje používat bohaté nástroje zvyšující produktivitu pro Hadoop a Spark s oblíbeným vývojovým prostředím.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. Mezi tato vývojová prostředí patří Visual Studio, VSCode, Eclipse a IntelliJ pro zajištění podpory jazyků Scala, Python, R, Java a .NET.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. Odborníci přes data můžou také spolupracovat s využitím oblíbených poznámkových bloků, jako jsou Jupyter a Zeppelin.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
RozšiřitelnostExtensibility Clustery HDInsight můžete rozšířit instalací komponent (Hue, Presto atd.) pomocí akcí skriptů, přidáním hraničních uzlů nebo integrací s dalšími aplikacemi certifikovanými pro práci s velkými objemy dat.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. HDInsight umožňuje bezproblémovou integraci s nejoblíbenějšími řešeními pro velké objemy dat prostřednictvím nasazení jedním kliknutím.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

Scénáře použití služby HDInsightScenarios for using HDInsight

Azure HDInsight je možné použít v nejrůznějších scénářích velkých objemů dat.Azure HDInsight can be used for a variety of scenarios in big data processing. Může se jednat o historická data (data, která jsou už shromážděná a uložená) nebo o data v reálném čase (data proudící přímo ze zdroje).It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). Scénáře zpracování těchto dat můžeme shrnout do následujících kategorií:The scenarios for processing such data can be summarized in the following categories:

Dávkové zpracování (ETL)Batch processing (ETL)

Extrakce, transformace a načítání (ETL) je proces, při kterém se nestrukturovaná nebo strukturovaná data extrahují z heterogenních zdrojů dat.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. Potom se transformují do strukturovaného formátu a načítají do úložiště dat.It's then transformed into a structured format and loaded into a data store. Transformovaná data je možné použít pro datové vědy nebo datové sklady.You can use the transformed data for data science or data warehousing.

Datové skladyData warehousing

Pomocí služby HDInsight můžete provádět interaktivní dotazy v petabajtovém měřítku nad strukturovanými i nestrukturovanými daty v jakémkoli měřítku.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. Můžete také sestavovat modely, které je propojí s nástroji BI.You can also build models connecting them to BI tools. Další informace najdete v tomto příběhu zákazníka.For more information, read this customer story.

Architektura HDInsight: Datové skladyHDInsight architecture: Data warehousing

Internet věcí (IoT)Internet of Things (IoT)

Pomocí služby HDInsight můžete zpracovávat streamovaná data přijímaná v reálném čase z různých druhů zařízení.You can use HDInsight to process streaming data that's received in real time from different kinds of devices. Pokud chcete získat další informace, přečtěte si tento blogový příspěvek z Azure, který oznamuje verzi Public Preview pro Apache Kafka v HDInsightu se Spravovanými disky Azure.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

Architektura HDInsight: Internet věcíHDInsight architecture: Internet of Things

Datové vědyData science

Pomocí služby HDInsight můžete sestavovat aplikace, které z dat extrahují důležité informace.You can use HDInsight to build applications that extract critical insights from data. Navíc můžete pomocí služby Azure Machine Learning předvídat budoucí trendy pro vaši firmu.You can also use Azure Machine Learning on top of that to predict future trends for your business. Další informace najdete v tomto příběhu zákazníka.For more information, read this customer story.

Architektura HDInsight: Datové vědyHDInsight architecture: Data science

HybridníHybrid

Pomocí služby HDInsight můžete rozšířit svou stávající místní infrastrukturu velkých dat do Azure a využívat možnosti pokročilých analýz v cloudu.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

Architektura HDInsight: HybridníHDInsight architecture: Hybrid

Typy clusterů ve službě HDInsightCluster types in HDInsight

HDInsight zahrnuje specifické typy clusterů a možnosti přizpůsobení clusterů, jako je například možnost přidávání komponent, nástrojů a jazyků.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. HDInsight nabízí následující typy clusteru:HDInsight offers the following cluster types:

Typ clusteruCluster Type PopisDescription
Apache HadoopApache Hadoop Rozhraní, které používá HDFS, správu prostředků PŘÍZe a jednoduchý programovací model MapReduce pro souběžné zpracování a analýzu dat Batch.A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark Open source architektura paralelního zpracování, která podporuje zpracování v paměti pro zvýšení výkonu aplikací pro analýzu velkých objemů dat.An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. Podívejte se, co je Apache Spark v HDInsight?.See What is Apache Spark in HDInsight?.
Apache HBaseApache HBase Databáze NoSQL postavená na systému Hadoop, která poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat – potenciálně miliardy řádků krát miliony sloupců.A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. Přečtěte si téma Co je HBase v HDInsight?See What is HBase on HDInsight?
Služby MLML Services Server pro hostování a správu paralelních, distribuovaných procesů R.A server for hosting and managing parallel, distributed R processes. Poskytuje datovým vědcům, statistikům a programátorům v R přístup ke škálovatelným, distribuovaným analytickým metodám služby HDInsight na vyžádání.It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Viz Přehled ML Services ve službě HDInsight.See Overview of ML Services on HDInsight.
Apache StormApache Storm Distribuovaný výpočetní systém v reálném čase pro rychlé zpracování velkých proudů dat.A distributed, real-time computation system for processing large streams of data fast. Storm je poskytován jako spravovaný cluster v prostředí HDInsight.Storm is offered as a managed cluster in HDInsight. Viz Analýza dat snímačů v reálném čase pomocí nástrojů Storm a Hadoop.See Analyze real-time sensor data using Storm and Hadoop.
Interaktivní dotaz ApacheApache Interactive Query Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy na podregistr.In-memory caching for interactive and faster Hive queries. Viz Použití Interactive Query ve službě HDInsight.See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka Open Source platforma, která se používá k sestavování kanálů a aplikací streamování dat.An open-source platform that's used for building streaming data pipelines and applications. Kafka také poskytuje funkce propojující fronty zpráv, pomocí kterých můžete publikovat datové streamy a přihlašovat se k jejich odběru.Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. Viz Úvod k Apache Kafka ve službě HDInsight.See Introduction to Apache Kafka on HDInsight.

Opensourcové komponenty ve službě HDInsightOpen-source components in HDInsight

Azure HDInsight umožňuje vytvářet clustery s open source rozhraními, jako jsou Hadoop, Spark, podregistr, LLAP, Kafka, vyplavení, HBA a R. Tyto clustery ve výchozím nastavení přidávají s dalšími Open Source komponentami, které jsou součástí clusteru, jako je Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 a Apache ZooKeeper5.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2, and Apache ZooKeeper5.

Programovací jazyky v prostředí HDInsightProgramming languages in HDInsight

Clustery HDInsight, včetně clusterů Spark, HBase, Kafka, Hadoop a dalších, podporují celou řadu programovacích jazyků.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Některé z nich ale nejsou ve výchozím nastavení nainstalované.Some programming languages aren't installed by default. Pro knihovny, moduly nebo balíčky, které nejsou nainstalované ve výchozím nastavení, použijte k instalaci komponenty akci skriptu.For libraries, modules, or packages that aren't installed by default, use a script action to install the component.

Programovací jazykProgramming language InformaceInformation
Výchozí podpora programovacích jazykůDefault programming language support Ve výchozím nastavení podporují clustery prostředí HDInsight tyto jazyky:By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • PřejítGo
Jazyky Java virtual machine (JVM)Java virtual machine (JVM) languages V prostředí Java Virtual Machine (JVM) je možné spouštět celou řadu jiných jazyků, než je Java.Many languages other than Java can run on a Java virtual machine (JVM). Pokud ale některé z těchto jazyků spustíte, může být v clusteru potřeba nainstalovat další součásti.However, if you run some of these languages, you might have to install additional components on the cluster. Clustery prostředí HDInsight podporují následující jazyky založené na JVM:The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python pro jazyk Java)Jython (Python for Java)
  • ScalaScala
Jazyky pro HadoopHadoop-specific languages Clustery HDInsight podporují následující jazyky, které jsou určené konkrétně pro technologii Hadoop:HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin pro úlohy PigPig Latin for Pig jobs
  • HiveQL pro úlohy Hive a SparkSQLHiveQL for Hive jobs and SparkSQL

Vývojářské nástroje pro HDInsightDevelopment tools for HDInsight

Vývojářské nástroje pro HDInsight, včetně nástrojů IntelliJ, Eclipse, Visual Studio Code a Visual Studio, můžete díky bezproblémové integraci s Azure použít k vytváření a odesílání úloh a dotazů na data HDInsight.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

  • Sada Azure Toolkit pro IntelliJ10Azure toolkit for IntelliJ10
  • Sada Azure Toolkit pro Eclipse6Azure toolkit for Eclipse6
  • Nástroje Azure HDInsight pro VS Code13Azure HDInsight tools for VS Code13
  • Nástroje Azure Data Lake pro Visual Studio9Azure data lake tools for Visual Studio9

Business intelligence ve službě HDInsightBusiness intelligence on HDInsight

Známé nástroje business intelligence (BI) načítají, analyzují a vykazují data integrovaná v prostředí HDInsight buď pomocí doplňku Power Query, nebo ovladače Microsoft Hive ODBC Driver:Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

Zasídlí dat v oblastiIn-region data residency

Spark, Hadoop, LLAP, Hadoop a MLService neukládají zákaznická data, aby tyto služby automaticky splňovaly požadavky na umístění dat v regionu, včetně těch, které jsou uvedené v Centru zabezpečení.Spark, Hadoop, LLAP, Storm, and MLService do not store customer data, so these services automatically satisfy in-region data residency requirements including those specified in the Trust Center.

Kafka a HBA ukládají zákaznická data.Kafka and HBase do store customer data. Tato data se automaticky ukládají pomocí Kafka a HBA v jedné oblasti, takže tato služba splňuje požadavky na umístění dat v rámci oblasti, včetně těch, které jsou uvedené v Centru zabezpečení.This data is automatically stored by Kafka and HBase in a single region, so this service satisfies in-region data residency requirements including those specified in the Trust Center.

Známé nástroje business intelligence (BI) načítají, analyzují a vykazují data, která jsou integrovaná do HDInsight, pomocí Power Queryho doplňku nebo Microsoft Hive ODBC Driver.Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver.

Další krokyNext steps