Worum handelt es sich bei Apache Hadoop in Azure HDInsight?What is Apache Hadoop in Azure HDInsight?

Dieser Artikel enthält eine Einführung in Apache Hadoop auf Azure HDInsight.This article provides an introduction to Apache Hadoop on Azure HDInsight. Azure HDInsight ist ein umfassender, vollständig verwalteter Open-Source-Analysedienst in der Cloud für Unternehmen.Azure HDInsight is a fully managed, full-spectrum, open-source analytics service in the cloud for enterprises. Sie können Open Source-Frameworks wie Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R und andere verwenden.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

Was sind HDInsight und der Hadoop-Technologiestapel?What is HDInsight and the Hadoop technology stack?

Apache Hadoop war ursprünglich ein Open Source-Framework für die verteilte Verarbeitung und Analyse umfangreicher Datasets in Clustern.Apache Hadoop was the original open-source framework for distributed processing and analysis of big data sets on clusters. Der Hadoop-Technologiestapel umfasst verwandte Software und Hilfsprogramme, einschließlich Apache Hive, Apache HBase, Spark, Kafka und viele andere.The Hadoop technology stack includes related software and utilities, including Apache Hive, Apache HBase, Spark, Kafka, and many others.

Azure HDInsight ist eine Clouddistribution von Hadoop-Komponenten.Azure HDInsight is a cloud distribution of Hadoop components. Azure HDInsight ermöglicht die einfache, schnelle und kostengünstige Verarbeitung umfangreicher Datenmengen.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Sie können die beliebtesten Open-Source-Frameworks wie Hadoop, Spark, Hive, LLAP, Kafka, Storm, R usw. verwenden.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Mit diesen Frameworks können Sie einen weiten Bereich von Szenarien ermöglichen, z.B. Extrahieren, Transformieren und Laden (ETL), Data Warehousing, Machine Learning und IoT.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

Informationen zu verfügbare Komponenten des Hadoop-Technologiestapels für HDInsight finden Sie unter Welche Hadoop-Komponenten und -Versionen sind in HDInsight verfügbar?.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. Weitere Informationen zu Hadoop in HDInsight finden Sie auf der Seite mit Azure-Features für HDInsight.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

Was versteht man unter "Big Data"?What is big data?

Große Datenmengen, also „Big Data“, werden in immer größeren Mengen, mit immer höherer Geschwindigkeit und in immer mehr Formaten als jemals zuvor erfasst.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. Dabei kann es sich um Verlaufsdaten (also gespeicherte Daten) oder um Echtzeitdaten (von der Quelle gestreamt) handeln.It can be historical (meaning stored) or real time (meaning streamed from the source). Informationen zu den gängigsten Anwendungsfällen für Big Data finden Sie unter Verwendungsszenarien für HDInsight.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Argumente für die Verwendung von Hadoop auf HDInsightWhy should I use Hadoop on HDInsight?

In diesem Abschnitt werden die Funktionen von Azure HDInsight aufgeführt.This section lists the capabilities of Azure HDInsight.

FunktionCapability BESCHREIBUNGDescription
CloudbasiertCloud native Mit Azure HDInsight können Sie optimierte Cluster für Hadoop, Spark, Interactive Query (LLAP), Kafka, Storm, HBase und  ML Services in Azure erstellen.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. Darüber hinaus bietet HDInsight eine End-to-End-SLA für alle Ihre Produktionsworkloads.HDInsight also provides an end-to-end SLA on all your production workloads.
Kostengünstig und skalierbarLow-cost and scalable Mit HDInsight können Sie Workloads zentral hoch- und herunterskalieren .HDInsight enables you to scale workloads up or down. Durch das  Erstellen bedarfsgesteuerter Cluster  können Sie Ihre Kosten senken, indem Sie nur für das bezahlen, was Sie tatsächlich nutzen. You can reduce costs by creating clusters on demand and paying only for what you use. Außerdem können Sie Datenpipelines für die Operationalisierung Ihrer Aufträge erstellen.You can also build data pipelines to operationalize your jobs. Die Entkoppelung von Compute und Speicher sorgt für bessere Leistung und mehr Flexibilität.Decoupled compute and storage provide better performance and flexibility.
Sicher und konformSecure and compliant Mit HDInsight können Sie die Datenressourcen Ihres Unternehmens durch die Verwendung von Azure Virtual Network, Verschlüsselung und Integration von Azure Active Directory schützen.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. Darüber hinaus erfüllt HDInsight die gängigsten branchen- und behördenspezifischen Compliancestandards.HDInsight also meets the most popular industry and government compliance standards.
ÜberwachungMonitoring Dank der Integration mit Azure Monitor-Protokollen bietet Azure HDInsight eine zentrale Oberfläche für die Überwachung Ihrer gesamten Cluster.Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
Globale VerfügbarkeitGlobal availability HDInsight ist in mehr  Regionen  verfügbar als jede andere Big Data-Analyselösung.HDInsight is available in more regions than any other big data analytics offering. Zudem steht Azure HDInsight für Azure Government, China und Deutschland zur Verfügung, was die Erfüllung geschäftlicher Anforderungen in zentralen unabhängigen Bereichen ermöglicht.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
ProduktivitätProductivity Mit Azure HDInsight können Sie umfangreiche Produktivitätstools für Hadoop und Spark in Ihrer bevorzugten Entwicklungsumgebung nutzen.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. Zu diesen Entwicklungsumgebungen gehören Visual Studio, VSCode, Eclipse und IntelliJ für die Unterstützung von Scala, Python, R, Java und .NET.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. Datenanalysten können zudem über gängige Notebooks wie Jupyter und Zeppelin zusammenarbeiten.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
ErweiterbarkeitExtensibility Sie können die HDInsight-Cluster um installierte Komponenten erweitern (z.B. Hue, Presto usw.), indem Sie Skriptaktionen verwenden, Edgeknoten hinzufügen oder andere, für Big Data zertifizierte Anwendungen integrieren.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. HDInsight lässt sich mittels One-Click-Bereitstellung nahtlos in die gängigsten Big Data-Lösungen integrieren.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

Verwendungsszenarien für HDInsightScenarios for using HDInsight

Azure HDInsight kann im Rahmen verschiedenster Szenarien für die Big Data-Verarbeitung verwendet werden.Azure HDInsight can be used for a variety of scenarios in big data processing. Dabei kann es sich um Verlaufsdaten (Daten, die bereits erfasst und gespeichert wurden) oder um Echtzeitdaten (Daten, die direkt von der Quelle gestreamt werden) handeln.It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). Die Szenarien für die Verarbeitung dieser Daten lassen sich in folgende Kategorien unterteilen:The scenarios for processing such data can be summarized in the following categories:

Batchverarbeitung (ETL)Batch processing (ETL)

Extrahieren, Transformieren und Laden (ETL) ist ein Prozess, bei dem nicht strukturierte und strukturierte Daten aus heterogenen Datenquellen extrahiert werden.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. Anschließend werden sie in ein strukturiertes Format transformiert und in einen Datenspeicher geladen.It's then transformed into a structured format and loaded into a data store. Sie können die transformierten Daten für Data Science- oder Data Warehousing-Zwecke verwenden.You can use the transformed data for data science or data warehousing.

Data WarehousingData warehousing

Mit HDInsight können Sie interaktive Abfragen für Petabytes von strukturierten oder unstrukturierten Daten in einem beliebigen Format durchführen.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. Darüber hinaus können Sie Modelle für die Verknüpfung mit BI-Tools erstellen.You can also build models connecting them to BI tools. Weitere Informationen finden Sie in diesem Kundenbericht.For more information, read this customer story.

HDInsight-Architektur: Data WarehousingHDInsight architecture: Data warehousing

Internet der Dinge (IoT, Internet of Things)Internet of Things (IoT)

Mit HDInsight können Sie Streamingdaten verarbeiten, die in Echtzeit von vielen verschiedenen Geräten empfangen werden.You can use HDInsight to process streaming data that's received in real time from a variety of devices. Weitere Informationen finden Sie in diesem Azure-Blog, in dem die öffentliche Vorschauversion von Apache Kafka unter HDInsight mit Azure Managed Disks angekündigt wird.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

HDInsight-Architektur: Internet der DingeHDInsight architecture: Internet of Things

Data ScienceData science

Mit HDInsight können Sie Anwendungen erstellen, die wichtige Erkenntnisse aus Daten extrahieren.You can use HDInsight to build applications that extract critical insights from data. Zusätzlich können Sie mithilfe von Azure Machine Learning zukünftige Trends für Ihr Unternehmen prognostizieren.You can also use Azure Machine Learning on top of that to predict future trends for your business. Weitere Informationen finden Sie in diesem Kundenbericht.For more information, read this customer story.

HDInsight-Architektur: Data ScienceHDInsight architecture: Data science

HybridHybrid

Mit HDInsight können Sie Ihre vorhandene lokale Big Data-Infrastruktur auf Azure ausdehnen und von den erweiterten Analysefunktionen der Cloud profitieren.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

HDInsight-Architektur: HybridHDInsight architecture: Hybrid

Clustertypen in HDInsightCluster types in HDInsight

HDInsight umfasst bestimmte Clustertypen und Clusteranpassungsfunktionen, z.B. die Möglichkeit zum Hinzufügen von Komponenten, Hilfsprogrammen und Sprachen.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. HDInsight bietet die folgenden Clustertypen:HDInsight offers the following cluster types:

ClustertypCluster Type BESCHREIBUNGDescription
Apache HadoopApache Hadoop Ein Framework, das Hadoop Distributed File System, die YARN-Ressourcenverwaltung und ein einfaches MapReduce-Programmiermodell zum parallelen Verarbeiten und Analysieren von Batchdaten nutzt.A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark Ein Open-Source-Framework für die Parallelverarbeitung, das die arbeitsspeicherinterne Verarbeitung unterstützt, um die Leistung von Anwendungen zur Analyse von Big Data zu steigern.An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. Siehe Was ist Apache Spark in HDInsight?See What is Apache Spark in HDInsight?.
Apache HBaseApache HBase Eine auf Hadoop basierende NoSQL-Datenbank, die wahlfreien Zugriff und starke Konsistenz für große Mengen unstrukturierter und teilstrukturierter Daten bietet – in einer potenziellen Dimension von Milliarden von Zeilen multipliziert mit Milliarden von Spalten.A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. Siehe Was ist HBase in HDInsight?See What is HBase on HDInsight?
ML ServicesML Services Ein Server zum Hosten und Verwalten von parallelen, verteilten R-Prozessen.A server for hosting and managing parallel, distributed R processes. Diese Funktion ermöglicht Datenanalysten, Statistikern und R-Programmierern bei Bedarf den Zugriff auf skalierbare, verteilte Analysemethoden in HDInsight.It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Siehe Einführung in R Server und Open-Source-R-Funktionen in HDInsight.See Overview of ML Services on HDInsight.
Apache StormApache Storm Ein verteiltes Echtzeitberechnungssystem für die schnelle Verarbeitung großer Datenströme.A distributed, real-time computation system for processing large streams of data fast. Storm wird als verwalteter Cluster in HDInsight angeboten.Storm is offered as a managed cluster in HDInsight. Siehe Analysieren von Echtzeit-Sensordaten mit Storm und Hadoop.See Analyze real-time sensor data using Storm and Hadoop.
Interaktive Apache-AbfrageApache Interactive Query Arbeitsspeicherinternes Caching für interaktive und schnellere Hive-Abfragen.In-memory caching for interactive and faster Hive queries. Siehe Use Interactive Query in HDInsight (Verwenden von Interactive Query in HDInsight).See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka Eine Open Source-Plattform zum Erstellen von Streamingdatenpipelines und -anwendungen.An open-source platform that's used for building streaming data pipelines and applications. Kafka bietet auch eine Nachrichtenwarteschlangenfunktion, die Ihnen das Veröffentlichen und Abonnieren von Datenströmen ermöglicht.Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. Siehe Introduction to Apache Kafka on HDInsight (Einführung in Apache Kafka in HDInsight).See Introduction to Apache Kafka on HDInsight.

Open-Source-Komponenten in HDInsightOpen-source components in HDInsight

Azure HDInsight ermöglicht die Erstellung von Clustern mit Open Source-Frameworks wie Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase und R. Diese Cluster verfügen standardmäßig über weitere integrierte Open Source-Komponenten wie Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.

Programmiersprachen in HDInsightProgramming languages in HDInsight

HDInsight-Cluster, z.B. Spark, HBase, Kafka, Hadoop und andere, unterstützen viele Programmiersprachen.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Einige Programmiersprachen werden nicht standardmäßig installiert.Some programming languages aren't installed by default. Verwenden Sie eine Skriptaktion, um Bibliotheken, Module oder Pakete zu installieren, die standardmäßig nicht installiert sind.For libraries, modules, or packages that are not installed by default, use a script action to install the component.

ProgrammierspracheProgramming language InformationInformation
Standardmäßige Unterstützung für ProgrammiersprachenDefault programming language support Standardmäßig unterstützen HDInsight-Cluster folgende Sprachen:By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • GoGo
JVM-Sprachen (Java Virtual Machine)Java virtual machine (JVM) languages Auf einer Java Virtual Machine (JVM) können neben Java auch viele andere Sprachen ausgeführt werden.Many languages other than Java can run on a Java virtual machine (JVM). Bei der Ausführung von einigen dieser Sprachen müssen Sie im Cluster unter Umständen aber zusätzliche Komponenten installieren.However, if you run some of these languages, you might have to install additional components on the cluster. Die folgenden JVM-basierten Sprachen werden in HDInsight-Clustern unterstützt:The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python für Java)Jython (Python for Java)
  • ScalaScala
Hadoop-spezifische SprachenHadoop-specific languages HDInsight-Cluster bieten Unterstützung für die folgenden Sprachen, die für den Hadoop-Technologiestapel spezifisch sind:HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin für Pig-AufträgePig Latin for Pig jobs
  • HiveQL für Hive-Aufträge und SparkSQLHiveQL for Hive jobs and SparkSQL

Entwicklungstools für HDInsightDevelopment tools for HDInsight

Sie können HDInsight-Entwicklungstools wie IntelliJ, Eclipse, Visual Studio Code und Visual Studio verwenden, um HDInsight-Datenabfragen und -aufträge zu erstellen und zu übermitteln – mit nahtloser Integration in Azure.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

Business Intelligence in HDInsightBusiness intelligence on HDInsight

Bekannte Business Intelligence-Tools (BI) rufen Daten, die in HDInsight integriert sind, entweder über das Power Query-Add-In oder den Microsoft Hive ODBC-Treiber ab, analysieren sie und erstellen Berichte:Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

Nächste SchritteNext steps