Wat is Azure HDInsight?

Azure HDInsight is een beheerde, zeer uitgebreide opensource-analyseservice in de cloud voor bedrijven. Met HDInsight kunt u opensource-frameworks zoals Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R en meer gebruiken in uw Azure-omgeving.

Wat is HDInsight en de Hadoop-technologiestack?

Azure HDInsight is een clouddistributie van Hadoop-onderdelen. Azure HDInsight maakt het eenvoudig, snel en rendabel om enorme hoeveelheden gegevens te verwerken in een aanpasbare omgeving. U kunt de populairste opensourcekaders gebruiken, zoals Hadoop, Spark, Hive, LLAP, Kafka, Storm, R enz. Met deze kaders kunt u ook een breed scala aan scenario's inschakelen, zoals extraheren, transformeren en laden (ETL), gegevensopslag, machine learning en IoT.

Raadpleeg Onderdelen en versies die beschikbaar zijn in HDInsight om na te gaan welke onderdelen van de Hadoop-technologiestack in HDInsight beschikbaar zijn. Zie de pagina met Azure-functies voor HDInsight voor meer informatie over Hadoop in HDInsight.

Waarom moet ik Azure HDInsight gebruiken?

Mogelijkheid Beschrijving
Cloudeigen Azure HDInsight kunt u geoptimaliseerde clusters maken voor Hadoop, Spark, Interactive Query (LLAP),Kafka, Storm, HBase op Azure. HDInsight Biedt tevens een end-to-end SLA voor al uw productieworkloads.
Voordelig en schaalbaar Met HDInsight kunt u workloads vergroten/verkleinen. U kunt de kosten verlagen door clusters op aanvraag te maken en uitsluitend te betalen voor wat u gebruikt. U kunt ook gegevenspijplijnen maken om uw taken operationeel maken. Rekenwerk en opslag zijn niet langer gekoppeld, voor betere prestaties en flexibiliteit.
Beveiligd en compatibel Met HDInsight kunt u uw zakelijke gegevensassets beschermen met Azure Virtual Network, versleuteling en integratie met Azure Active Directory. HDInsight voldoet aan de meeste populaire nalevingsstandaarden van de industrie en de overheid.
Bewaking Azure HDInsight kan worden geïntegreerd met Azure Monitor-logboeken en biedt zo één enkele interface waarmee u al uw clusters kunt bewaken.
Wereldwijde beschikbaarheid HDInsight is beschikbaar in meer regio's dan andere big data analytics-aanbiedingen. Azure HDInsight is ook beschikbaar in Azure Government, China en Duitsland, waarmee u kunt voldoen aan de behoeften van uw bedrijf in belangrijke soevereine gebieden.
Productiviteit Met Azure HDInsight kunt u geavanceerde hulpprogramma's voor Hadoop en Spark gebruiken in de ontwikkelomgeving van uw keuze. De beschikbare ontwikkelomgevingen zijn Visual Studio, VSCode, Eclipse en IntelliJ voor ondersteuning van Scala, Python, R, Java en .NET. Gegevensanalisten kunnen ook samenwerken met behulp van populaire notebooks zoals Jupyter en Zeppelin.
Uitbreidbaarheid U kunt de HDInsight-clusters uitbreiden met geïnstalleerde onderdelen (Hue, Presto, e.d.) met behulp van scriptacties, door edge-knooppunten toe te voegen of door te integreren met andere big data gecertificeerde toepassingen. HDInsight maakt naadloze integratie mogelijk met de populairste big data met een implementatie met één klik.

Wat is big data?

Big data wordt verzameld in steeds sneller groeiende volumes, met een steeds hogere snelheid en in een groter aantal indelingen dan ooit tevoren. Bij big data kan het gaan om historische gegevens (opgeslagen gegevens), maar ook om realtime gegevens (gestreamd vanuit de bron). Zie Scenario's voor het gebruik van HDInsight voor meer informatie over de meest voorkomende gebruiksvoorbeelden voor big data.

Clustertypen in HDInsight

HDInsight omvat specifieke clustertypen en opties voor clusteraanpassing, zoals de mogelijkheid om onderdelen, hulpprogramma's en talen toe te voegen. HDInsight biedt de volgende clustertypen:

Clustertype Beschrijving Aan de slag
Apache Hadoop Een kader dat gebruikmaakt van HDFS, YARN voor resourcebeheer en een eenvoudig MapReduce-programmeermodel om batchgegevens parallel te verwerken en te analyseren. Een Apache Hadoop-cluster maken
Apache Spark Een opensourcekader voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van toepassingen voor de analyse van big data te verbeteren. Zie Wat is Apache Spark in HDInsight?. Een Apache Spark-cluster maken
Apache HBase Een NoSQL-database gebouwd op Hadoop. Deze biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden (mogelijk miljarden rijen bij miljoenen kolommen) ongestructureerde en semi-gestructureerde gegevens. Zie Wat is HBase in HDInsight? Een Apache HBase-cluster maken
Apache Storm Een gedistribueerd, realtime berekeningssysteem voor het snel verwerken van grote gegevensstromen. Storm wordt aangeboden als beheerd cluster in HDInsight. Zie Realtime-sensorgegevens analyseren met Storm en Hadoop. Een Apache Storm-topologie maken
Apache Interactive Query Caching in geheugen voor interactieve en snellere Hive-query's. Zie Interactive Query gebruiken in HDInsight. Een Interactive Query-cluster maken
Apache Kafka Een opensourceplatform dat wordt gebruikt voor het bouwen van pijplijnen en toepassingen voor het streamen van gegevens. Kafka biedt ook berichtenwachtrijfunctionaliteit waarmee u gegevensstromen kunt publiceren en zich kunt abonneren op gegevensstromen. Zie Inleiding tot Apache Kafka in HDInsight. Een Apache Kafka-cluster maken

Scenario's voor het gebruik van HDInsight

Azure HDInsight kunnen worden gebruikt voor verschillende scenario's in big data verwerking. Hierbij kan het gaan om historische gegevens (gegevens die al zijn verzameld en opgeslagen), maar ook om realtime gegevens (gegevens die rechtstreeks vanuit de bron worden gestreamd). De scenario's voor het verwerken van deze gegevens kunnen worden ingedeeld in de volgende categorieën:

Batchverwerking (ETL)

Extraheren, transformeren en laden (ETL) is een proces waarbij ongestructureerde of gestructureerde gegevens worden geëxtraheerd uit heterogene gegevensbronnen. Deze gegevens worden vervolgens omgezet in een gestructureerde indeling en in een gegevensarchief geladen. U kunt de getransformeerde gegevens gebruiken voor data science of datawarehousing.

Datawarehousing

Met HDInsight kunt u interactieve query's op petabyte-schaal uitvoeren voor gestructureerde of ongestructureerde gegevens in elke indeling. U kunt ook modellen bouwen die hen verbinden met BI-hulpprogramma’s.

HDInsight-architectuur: datawarehousing

Internet der dingen (IoT)

U kunt HDInsight gebruiken voor het verwerken van streaminggegevens die in realtime worden ontvangen vanaf verschillende soorten apparaten. Voor meer informatie leest u deze Azure-blogpost waarin de openbare preview van Apache Kafka in HDInsight met Azure Managed Disks wordt aangekondigd.

HDInsight-architectuur: Internet of Things

Data Science

Met HDInsight kunt u toepassingen ontwikkelen die belangrijke inzichten uit gegevens halen. U kunt hierbij ook Azure Machine Learning gebruiken om toekomstige ontwikkelingen voor uw bedrijf te voorspellen. Lees dit verhaal van een klant voor meer informatie.

HDInsight-architectuur: data science

Hybride

U kunt HDInsight gebruiken om uw bestaande on-premises big data infrastructuur uit te breiden naar Azure om gebruik te maken van de geavanceerde analysemogelijkheden van de cloud.

HDInsight-architectuur: hybride

Opensource-onderdelen in HDInsight

Met Azure HDInsight kunt u clusters maken met opensource-frameworks als Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase en R. Deze clusters worden standaard geleverd met andere opensource-onderdelen die in het cluster zijn opgenomen, bijvoorbeeld Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2, and Apache ZooKeeper5.

Programmeertalen in HDInsight

HDInsight-clusters, waaronder Spark, HBase, Kafka, Hadoop en andere, bieden ondersteuning voor een groot aantal programmeertalen. Sommige programmeertalen worden niet standaard geïnstalleerd. Gebruik voor bibliotheken, modules en pakketten die niet standaard zijn geïnstalleerd, een scriptactie om het betreffende onderdeel te installeren.

Programmeertaal Informatie
Standaardondersteuning voor programmeertalen Standaard bieden HDInsight-clusters ondersteuning voor:
  • Java
  • Python
  • .NET
  • Aan de slag
JVM-talen (Java Virtual Machine) Op een virtuele Java-machine (JVM) kunnen naast Java ook vele andere talen worden uitgevoerd. Voor sommige van deze talen moet u mogelijk echter aanvullende onderdelen in het cluster installeren. De volgende JVM-talen worden in HDInsight-clusters ondersteund:
  • Clojure
  • Jython (Python voor Java)
  • Scala
Hadoop-specifieke talen HDInsight-clusters bieden ondersteuning voor de volgende talen die specifiek zijn voor de Hadoop-technologiestack:
  • Pig Latin voor Pig-taken
  • HiveQL voor Hive-taken en SparkSQL

Ontwikkelingsprogramma's voor HDInsight

U kunt HDInsight-ontwikkelingsprogramma's zoals IntelliJ, Eclipse, Visual Studio Code en Visual Studio gebruiken om HDInsight-gegevensquery's en taken te schrijven en te verzenden met naadloze integratie in Azure.

  • Azure-toolkit voor IntelliJ10
  • Azure-toolkit voor Eclipse6
  • Azure HDInsight-hulpprogramma's voor VS Code13
  • Azure Data Lake-hulpprogramma's voor Visual Studio9

Business Intelligence in HDInsight

Voor het ophalen, analyseren en rapporteren van met HDInsight geïntegreerde gegevens kunt u gebruikmaken van gangbare hulpprogramma's voor Business Intelligence (BI). Hiervoor is de invoegtoepassing Power Query of het ODBC-stuurprogramma Microsoft Hive vereist.

Gegevenslocatie in uw regio

Spark, Hadoop, LLAP, Storm en MLService slaan geen klantgegevens op, zodat deze services automatisch voldoen aan de vereisten voor gegevenslocatie in uw regio, inclusief de vereisten die zijn opgegeven in het Vertrouwenscentrum.

Kafka en HBase slaan wel klantgegevens op. Deze gegevens worden automatisch opgeslagen door Kafka en HBase in één regio, zodat deze service voldoet aan de vereisten voor gegevenslocatie van uw regio, inclusief de vereisten die zijn opgegeven in het Vertrouwenscentrum.

Voor het ophalen, analyseren en rapporteren van met HDInsight geïntegreerde gegevens kunt u gebruikmaken van gangbare hulpprogramma's voor Business Intelligence (BI). Hiervoor is de invoegtoepassing Power Query of het ODBC-stuurprogramma Microsoft Hive vereist.

Volgende stappen