Wat is Apache Hadoop in Azure HDInsight?What is Apache Hadoop in Azure HDInsight?

In dit artikel maakt u kennis met Apache Hadoop in Azure HDInsight.This article provides an introduction to Apache Hadoop on Azure HDInsight. Azure HDInsight is een volledig beheerde, zeer uitgebreide en open-source Analyseservice in de cloud voor ondernemingen.Azure HDInsight is a fully managed, full-spectrum, open-source analytics service in the cloud for enterprises. U kunt populaire opensourcekaders zoals Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, enzovoort gebruiken.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

Wat is HDInsight en de Hadoop-technologiestack?What is HDInsight and the Hadoop technology stack?

Apache Hadoop was het originele open-source framework voor gedistribueerde verwerking en analyse van sets met big data in clusters.Apache Hadoop was the original open-source framework for distributed processing and analysis of big data sets on clusters. De Hadoop-technologiestack omvat verwante software en hulpprogramma's, waaronder Apache Hive, Apache HBase, Spark en Kafka.The Hadoop technology stack includes related software and utilities, including Apache Hive, Apache HBase, Spark, Kafka, and many others.

Azure HDInsight is een cloud-distributie van Hadoop-onderdelen.Azure HDInsight is a cloud distribution of Hadoop components. Azure HDInsight maakt het eenvoudig, snel en kosteneffectief om enorme hoeveelheden gegevens te verwerken.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. U kunt de populairste opensourcekaders gebruiken, zoals Hadoop, Spark, Hive, LLAP, Kafka, Storm, R enz.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Met deze kaders kunt u ook een breed scala aan scenario's inschakelen, zoals extraheren, transformeren en laden (ETL), gegevensopslag, machine learning en IoT.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

Zie voor beschikbare Hadoop-technologie stack-componenten op HDInsight onderdelen en versies die beschikbaar met HDInsight.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. Zie de pagina met Azure-functies voor HDInsight voor meer informatie over Hadoop in HDInsight.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

Wat is big data?What is big data?

Big data wordt verzameld in steeds sneller groeiende volumes, met een steeds hogere snelheid en in een groter aantal indelingen dan ooit tevoren.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. Bij big data kan het gaan om historische gegevens (opgeslagen gegevens), maar ook om realtime gegevens (gestreamd vanuit de bron).It can be historical (meaning stored) or real time (meaning streamed from the source). Zie Scenario's voor het gebruik van HDInsight voor meer informatie over de meest voorkomende gebruiksvoorbeelden voor big data.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Waarom zou ik Hadoop in HDInsight gebruiken?Why should I use Hadoop on HDInsight?

In deze sectie worden de mogelijkheden van Azure HDInsight toegelicht.This section lists the capabilities of Azure HDInsight.

MogelijkheidCapability DescriptionDescription
CloudeigenCloud native Met Azure HDInsight kunt u geoptimaliseerde clusters maken voor Hadoop, Apache Spark, interactieve query’s (LLAP), Kafka,  Storm, HBase en ML Services in Azure.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. HDInsight Biedt tevens een end-to-end SLA voor al uw productieworkloads.HDInsight also provides an end-to-end SLA on all your production workloads.
Voordelig en schaalbaarLow-cost and scalable Met HDInsight kunt u workloads  vergroten/verkleinen.HDInsight enables you to scale workloads up or down. U kunt de kosten verlagen door clusters op aanvraag te maken en uitsluitend te betalen voor wat u gebruikt. You can reduce costs by creating clusters on demand and paying only for what you use. U kunt ook gegevenspijplijnen maken om uw taken operationeel maken.You can also build data pipelines to operationalize your jobs. Rekenwerk en opslag zijn niet langer gekoppeld, voor betere prestaties en flexibiliteit.Decoupled compute and storage provide better performance and flexibility.
Beveiligd en compatibelSecure and compliant Met HDInsight kunt u uw zakelijke gegevensassets beschermen met Azure Virtual Network, versleuteling en integratie met Azure Active Directory.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. HDInsight voldoet aan de meeste populaire nalevingsstandaarden van de industrie en de overheid.HDInsight also meets the most popular industry and government compliance standards.
BewakingMonitoring Azure HDInsight kan worden geïntegreerd met Azure Monitor-logboeken en biedt zo één enkele interface waarmee u al uw clusters kunt bewaken.Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
Wereldwijde beschikbaarheidGlobal availability HDInsight is wereldwijd beschikbaar in meer  regio's  dan welk ander aanbod voor big-data-analyses ook.HDInsight is available in more regions than any other big data analytics offering. Azure HDInsight is ook beschikbaar in Azure Government, China en Duitsland, waarmee u kunt voldoen aan de behoeften van uw bedrijf in belangrijke soevereine gebieden.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
ProductiviteitProductivity Met Azure HDInsight kunt u geavanceerde hulpprogramma's voor Hadoop en Spark gebruiken in de ontwikkelomgeving van uw keuze.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. De beschikbare ontwikkelomgevingen zijn Visual Studio, VSCode, Eclipse en IntelliJ voor ondersteuning van Scala, Python, R, Java en .NET.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. Gegevensanalisten kunnen ook samenwerken met behulp van populaire notebooks zoals Jupyter en Zeppelin.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
UitbreidbaarheidExtensibility U kunt de HDInsight-clusters uitbreiden met geïnstalleerde onderdelen (Hue, Presto enz.) met behulp van scriptacties, door edge-knooppunten toe te voegen of via integratie met andere toepassingen die zijn gecertificeerd voor big data.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. Met HDInsight kunt u naadloos integreren met de meest populaire big data-oplossingen met éénkliksimplementatie.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

Scenario's voor het gebruik van HDInsightScenarios for using HDInsight

Azure HDInsight kan worden gebruikt voor tal van scenario's in big data-verwerking.Azure HDInsight can be used for a variety of scenarios in big data processing. Hierbij kan het gaan om historische gegevens (gegevens die al zijn verzameld en opgeslagen), maar ook om realtime gegevens (gegevens die rechtstreeks vanuit de bron worden gestreamd).It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). De scenario's voor het verwerken van deze gegevens kunnen worden ingedeeld in de volgende categorieën:The scenarios for processing such data can be summarized in the following categories:

Batchverwerking (ETL)Batch processing (ETL)

Extraheren, transformeren en laden (ETL) is een proces waarbij ongestructureerde of gestructureerde gegevens worden geëxtraheerd uit heterogene gegevensbronnen.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. Deze gegevens worden vervolgens omgezet in een gestructureerde indeling en in een gegevensarchief geladen.It's then transformed into a structured format and loaded into a data store. U kunt de getransformeerde gegevens gebruiken voor data science of datawarehousing.You can use the transformed data for data science or data warehousing.

DatawarehousingData warehousing

Met HDInsight kunt u interactieve query's op petabyte-schaal uitvoeren voor gestructureerde of ongestructureerde gegevens in elke indeling.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. U kunt ook modellen bouwen die hen verbinden met BI-hulpprogramma’s.You can also build models connecting them to BI tools. Lees dit verhaal van een klant voor meer informatie.For more information, read this customer story.

HDInsight-architectuur: DatawarehousingHDInsight architecture: Data warehousing

Internet der dingen (IoT)Internet of Things (IoT)

U kunt HDInsight gebruiken voor het verwerken van streaminggegevens die in realtime worden ontvangen vanaf een breed scala aan apparaten.You can use HDInsight to process streaming data that's received in real time from a variety of devices. Voor meer informatie leest u deze Azure-blogpost waarin de openbare preview van Apache Kafka in HDInsight met Azure Managed Disks wordt aangekondigd.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

HDInsight-architectuur: Internet of ThingsHDInsight architecture: Internet of Things

Data ScienceData science

Met HDInsight kunt u toepassingen ontwikkelen die belangrijke inzichten uit gegevens halen.You can use HDInsight to build applications that extract critical insights from data. U kunt hierbij ook Azure Machine Learning gebruiken om toekomstige ontwikkelingen voor uw bedrijf te voorspellen.You can also use Azure Machine Learning on top of that to predict future trends for your business. Lees dit verhaal van een klant voor meer informatie.For more information, read this customer story.

HDInsight-architectuur: Data ScienceHDInsight architecture: Data science

HybrideHybrid

Met HDInsight kunt u uw bestaande on-premises big data-infrastructuur uitbreiden naar Azure om gebruik te maken van de mogelijkheden voor geavanceerde analyses van de cloud.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

HDInsight-architectuur: HybrideHDInsight architecture: Hybrid

Clustertypen in HDInsightCluster types in HDInsight

HDInsight omvat specifieke clustertypen en opties voor clusteraanpassing, zoals de mogelijkheid om onderdelen, hulpprogramma's en talen toe te voegen.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. HDInsight biedt de volgende clustertypen:HDInsight offers the following cluster types:

ClustertypeCluster Type DescriptionDescription
Apache HadoopApache Hadoop Een kader dat gebruikmaakt van HDFS, YARN voor resourcebeheer en een eenvoudig MapReduce-programmeermodel om batchgegevens parallel te verwerken en te analyseren.A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark Een opensourcekader voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van toepassingen voor de analyse van big data te verbeteren.An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. Zie Wat is Apache Spark in HDInsight?.See What is Apache Spark in HDInsight?.
Apache HBaseApache HBase Een NoSQL-database gebouwd op Hadoop. Deze biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden (mogelijk miljarden rijen bij miljoenen kolommen) ongestructureerde en semi-gestructureerde gegevens.A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. Zie Wat is HBase in HDInsight?See What is HBase on HDInsight?
ML ServicesML Services Een server voor de hosting van websites en het beheren van parallelle, gedistribueerde R-processen.A server for hosting and managing parallel, distributed R processes. Het biedt gegevenswetenschappers, statistici en R-programmeurs on-demand toegang tot schaalbare, gedistribueerde analysemethoden in HDInsight.It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Zie Overzicht van ML Services in HDInsight.See Overview of ML Services on HDInsight.
Apache StormApache Storm Een gedistribueerd, realtime berekeningssysteem voor het snel verwerken van grote gegevensstromen.A distributed, real-time computation system for processing large streams of data fast. Storm wordt aangeboden als beheerd cluster in HDInsight.Storm is offered as a managed cluster in HDInsight. Zie Realtime-sensorgegevens analyseren met Storm en Hadoop.See Analyze real-time sensor data using Storm and Hadoop.
Apache Interactive QueryApache Interactive Query Caching in geheugen voor interactieve en snellere Hive-query's.In-memory caching for interactive and faster Hive queries. Zie Interactive Query gebruiken in HDInsight.See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka Een opensourceplatform dat wordt gebruikt voor het bouwen van pijplijnen en toepassingen voor het streamen van gegevens.An open-source platform that's used for building streaming data pipelines and applications. Kafka biedt ook berichtenwachtrijfunctionaliteit waarmee u gegevensstromen kunt publiceren en zich kunt abonneren op gegevensstromen.Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. Zie Inleiding tot Apache Kafka in HDInsight.See Introduction to Apache Kafka on HDInsight.

Opensource-onderdelen in HDInsightOpen-source components in HDInsight

Met Azure HDInsight kunt u clusters maken met opensourcekaders zoals Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase en R. Deze clusters worden standaard geleverd met andere opensource-onderdelen die zijn opgenomen in het cluster, zoals Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie en Apache ZooKeeper.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.

Programmeertalen in HDInsightProgramming languages in HDInsight

HDInsight-clusters, waaronder Spark, HBase, Kafka, Hadoop en andere, bieden ondersteuning voor een groot aantal programmeertalen.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Sommige programmeertalen worden niet standaard geïnstalleerd.Some programming languages aren't installed by default. Gebruik voor bibliotheken, modules en pakketten die niet standaard zijn geïnstalleerd, een scriptactie om het betreffende onderdeel te installeren.For libraries, modules, or packages that are not installed by default, use a script action to install the component.

ProgrammeertaalProgramming language InformatieInformation
Standaardondersteuning voor programmeertalenDefault programming language support Standaard bieden HDInsight-clusters ondersteuning voor:By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • Aan de slagGo
JVM-talen (Java Virtual Machine)Java virtual machine (JVM) languages Op een virtuele Java-machine (JVM) kunnen naast Java ook vele andere talen worden uitgevoerd.Many languages other than Java can run on a Java virtual machine (JVM). Voor sommige van deze talen moet u mogelijk echter aanvullende onderdelen in het cluster installeren.However, if you run some of these languages, you might have to install additional components on the cluster. De volgende JVM-talen worden in HDInsight-clusters ondersteund:The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python voor Java)Jython (Python for Java)
  • ScalaScala
Hadoop-specifieke talenHadoop-specific languages HDInsight-clusters bieden ondersteuning voor de volgende talen die specifiek zijn voor de Hadoop-technologiestack:HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin voor Pig-takenPig Latin for Pig jobs
  • HiveQL voor Hive-taken en SparkSQLHiveQL for Hive jobs and SparkSQL

Ontwikkelingsprogramma's voor HDInsightDevelopment tools for HDInsight

U kunt HDInsight-ontwikkelingsprogramma's zoals IntelliJ, Eclipse, Visual Studio Code en Visual Studio gebruiken om HDInsight-gegevensquery's en taken te schrijven en te verzenden met naadloze integratie in Azure.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

Business Intelligence in HDInsightBusiness intelligence on HDInsight

Voor het ophalen, analyseren en rapporteren van met HDInsight geïntegreerde gegevens kunt u gebruikmaken van gangbare hulpprogramma's voor Business Intelligence (BI). Hiervoor is de invoegtoepassing Power Query of het ODBC-stuurprogramma Microsoft Hive vereist.Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

Volgende stappenNext steps