Wat is Azure HDInsight?
Azure HDInsight is een beheerde, zeer uitgebreide opensource-analyseservice in de cloud voor bedrijven. Met HDInsight kunt u opensource-frameworks zoals Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R en meer gebruiken in uw Azure-omgeving.
Wat is HDInsight en de Hadoop-technologiestack?
Azure HDInsight is een clouddistributie van Hadoop-onderdelen. Azure HDInsight maakt het eenvoudig, snel en rendabel om enorme hoeveelheden gegevens te verwerken in een aanpasbare omgeving. U kunt de populairste opensourcekaders gebruiken, zoals Hadoop, Spark, Hive, LLAP, Kafka, Storm, R enz. Met deze kaders kunt u ook een breed scala aan scenario's inschakelen, zoals extraheren, transformeren en laden (ETL), gegevensopslag, machine learning en IoT.
Raadpleeg Onderdelen en versies die beschikbaar zijn in HDInsight om na te gaan welke onderdelen van de Hadoop-technologiestack in HDInsight beschikbaar zijn. Zie de pagina met Azure-functies voor HDInsight voor meer informatie over Hadoop in HDInsight.
Waarom moet ik Azure HDInsight gebruiken?
| Mogelijkheid | Beschrijving |
|---|---|
| Cloudeigen | Azure HDInsight kunt u geoptimaliseerde clusters maken voor Hadoop, Spark, Interactive Query (LLAP),Kafka, Storm, HBase op Azure. HDInsight Biedt tevens een end-to-end SLA voor al uw productieworkloads. |
| Voordelig en schaalbaar | Met HDInsight kunt u workloads vergroten/verkleinen. U kunt de kosten verlagen door clusters op aanvraag te maken en uitsluitend te betalen voor wat u gebruikt. U kunt ook gegevenspijplijnen maken om uw taken operationeel maken. Rekenwerk en opslag zijn niet langer gekoppeld, voor betere prestaties en flexibiliteit. |
| Beveiligd en compatibel | Met HDInsight kunt u uw zakelijke gegevensassets beschermen met Azure Virtual Network, versleuteling en integratie met Azure Active Directory. HDInsight voldoet aan de meeste populaire nalevingsstandaarden van de industrie en de overheid. |
| Bewaking | Azure HDInsight kan worden geïntegreerd met Azure Monitor-logboeken en biedt zo één enkele interface waarmee u al uw clusters kunt bewaken. |
| Wereldwijde beschikbaarheid | HDInsight is beschikbaar in meer regio's dan andere big data analytics-aanbiedingen. Azure HDInsight is ook beschikbaar in Azure Government, China en Duitsland, waarmee u kunt voldoen aan de behoeften van uw bedrijf in belangrijke soevereine gebieden. |
| Productiviteit | Met Azure HDInsight kunt u geavanceerde hulpprogramma's voor Hadoop en Spark gebruiken in de ontwikkelomgeving van uw keuze. De beschikbare ontwikkelomgevingen zijn Visual Studio, VSCode, Eclipse en IntelliJ voor ondersteuning van Scala, Python, R, Java en .NET. Gegevensanalisten kunnen ook samenwerken met behulp van populaire notebooks zoals Jupyter en Zeppelin. |
| Uitbreidbaarheid | U kunt de HDInsight-clusters uitbreiden met geïnstalleerde onderdelen (Hue, Presto, e.d.) met behulp van scriptacties, door edge-knooppunten toe te voegen of door te integreren met andere big data gecertificeerde toepassingen. HDInsight maakt naadloze integratie mogelijk met de populairste big data met een implementatie met één klik. |
Wat is big data?
Big data wordt verzameld in steeds sneller groeiende volumes, met een steeds hogere snelheid en in een groter aantal indelingen dan ooit tevoren. Bij big data kan het gaan om historische gegevens (opgeslagen gegevens), maar ook om realtime gegevens (gestreamd vanuit de bron). Zie Scenario's voor het gebruik van HDInsight voor meer informatie over de meest voorkomende gebruiksvoorbeelden voor big data.
Clustertypen in HDInsight
HDInsight omvat specifieke clustertypen en opties voor clusteraanpassing, zoals de mogelijkheid om onderdelen, hulpprogramma's en talen toe te voegen. HDInsight biedt de volgende clustertypen:
| Clustertype | Beschrijving | Aan de slag |
|---|---|---|
| Apache Hadoop | Een kader dat gebruikmaakt van HDFS, YARN voor resourcebeheer en een eenvoudig MapReduce-programmeermodel om batchgegevens parallel te verwerken en te analyseren. | Een Apache Hadoop-cluster maken |
| Apache Spark | Een opensourcekader voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van toepassingen voor de analyse van big data te verbeteren. Zie Wat is Apache Spark in HDInsight?. | Een Apache Spark-cluster maken |
| Apache HBase | Een NoSQL-database gebouwd op Hadoop. Deze biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden (mogelijk miljarden rijen bij miljoenen kolommen) ongestructureerde en semi-gestructureerde gegevens. Zie Wat is HBase in HDInsight? | Een Apache HBase-cluster maken |
| Apache Storm | Een gedistribueerd, realtime berekeningssysteem voor het snel verwerken van grote gegevensstromen. Storm wordt aangeboden als beheerd cluster in HDInsight. Zie Realtime-sensorgegevens analyseren met Storm en Hadoop. | Een Apache Storm-topologie maken |
| Apache Interactive Query | Caching in geheugen voor interactieve en snellere Hive-query's. Zie Interactive Query gebruiken in HDInsight. | Een Interactive Query-cluster maken |
| Apache Kafka | Een opensourceplatform dat wordt gebruikt voor het bouwen van pijplijnen en toepassingen voor het streamen van gegevens. Kafka biedt ook berichtenwachtrijfunctionaliteit waarmee u gegevensstromen kunt publiceren en zich kunt abonneren op gegevensstromen. Zie Inleiding tot Apache Kafka in HDInsight. | Een Apache Kafka-cluster maken |
Scenario's voor het gebruik van HDInsight
Azure HDInsight kunnen worden gebruikt voor verschillende scenario's in big data verwerking. Hierbij kan het gaan om historische gegevens (gegevens die al zijn verzameld en opgeslagen), maar ook om realtime gegevens (gegevens die rechtstreeks vanuit de bron worden gestreamd). De scenario's voor het verwerken van deze gegevens kunnen worden ingedeeld in de volgende categorieën:
Batchverwerking (ETL)
Extraheren, transformeren en laden (ETL) is een proces waarbij ongestructureerde of gestructureerde gegevens worden geëxtraheerd uit heterogene gegevensbronnen. Deze gegevens worden vervolgens omgezet in een gestructureerde indeling en in een gegevensarchief geladen. U kunt de getransformeerde gegevens gebruiken voor data science of datawarehousing.
Datawarehousing
Met HDInsight kunt u interactieve query's op petabyte-schaal uitvoeren voor gestructureerde of ongestructureerde gegevens in elke indeling. U kunt ook modellen bouwen die hen verbinden met BI-hulpprogramma’s.
HDInsight-architectuur: datawarehousing
Internet der dingen (IoT)
U kunt HDInsight gebruiken voor het verwerken van streaminggegevens die in realtime worden ontvangen vanaf verschillende soorten apparaten. Voor meer informatie leest u deze Azure-blogpost waarin de openbare preview van Apache Kafka in HDInsight met Azure Managed Disks wordt aangekondigd.
HDInsight-architectuur: Internet of Things
Data Science
Met HDInsight kunt u toepassingen ontwikkelen die belangrijke inzichten uit gegevens halen. U kunt hierbij ook Azure Machine Learning gebruiken om toekomstige ontwikkelingen voor uw bedrijf te voorspellen. Lees dit verhaal van een klant voor meer informatie.
HDInsight-architectuur: data science
Hybride
U kunt HDInsight gebruiken om uw bestaande on-premises big data infrastructuur uit te breiden naar Azure om gebruik te maken van de geavanceerde analysemogelijkheden van de cloud.
HDInsight-architectuur: hybride
Opensource-onderdelen in HDInsight
Met Azure HDInsight kunt u clusters maken met opensource-frameworks als Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase en R. Deze clusters worden standaard geleverd met andere opensource-onderdelen die in het cluster zijn opgenomen, bijvoorbeeld Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2, and Apache ZooKeeper5.
Programmeertalen in HDInsight
HDInsight-clusters, waaronder Spark, HBase, Kafka, Hadoop en andere, bieden ondersteuning voor een groot aantal programmeertalen. Sommige programmeertalen worden niet standaard geïnstalleerd. Gebruik voor bibliotheken, modules en pakketten die niet standaard zijn geïnstalleerd, een scriptactie om het betreffende onderdeel te installeren.
| Programmeertaal | Informatie |
|---|---|
| Standaardondersteuning voor programmeertalen | Standaard bieden HDInsight-clusters ondersteuning voor:
|
| JVM-talen (Java Virtual Machine) | Op een virtuele Java-machine (JVM) kunnen naast Java ook vele andere talen worden uitgevoerd. Voor sommige van deze talen moet u mogelijk echter aanvullende onderdelen in het cluster installeren. De volgende JVM-talen worden in HDInsight-clusters ondersteund:
|
| Hadoop-specifieke talen | HDInsight-clusters bieden ondersteuning voor de volgende talen die specifiek zijn voor de Hadoop-technologiestack:
|
Ontwikkelingsprogramma's voor HDInsight
U kunt HDInsight-ontwikkelingsprogramma's zoals IntelliJ, Eclipse, Visual Studio Code en Visual Studio gebruiken om HDInsight-gegevensquery's en taken te schrijven en te verzenden met naadloze integratie in Azure.
- Azure-toolkit voor IntelliJ10
- Azure-toolkit voor Eclipse6
- Azure HDInsight-hulpprogramma's voor VS Code13
- Azure Data Lake-hulpprogramma's voor Visual Studio9
Business Intelligence in HDInsight
Voor het ophalen, analyseren en rapporteren van met HDInsight geïntegreerde gegevens kunt u gebruikmaken van gangbare hulpprogramma's voor Business Intelligence (BI). Hiervoor is de invoegtoepassing Power Query of het ODBC-stuurprogramma Microsoft Hive vereist.
Apache Spark BI met gebruik van hulpmiddelen voor gegevensvisualisatie met Azure HDInsight
Apache Hive-gegevens visualiseren met Microsoft Power BI in Azure HDInsight
Interactive Query Hive-gegevens visualiseren met Power BI in Azure HDInsight
Excel koppelen aan Apache Hadoop met behulp van Power Query (vereist Windows)
Excel koppelen aan Apache Hadoop met behulp van het Hive ODBC-stuurprogramma van Microsoft (vereist Windows)
Gegevenslocatie in uw regio
Spark, Hadoop, LLAP, Storm en MLService slaan geen klantgegevens op, zodat deze services automatisch voldoen aan de vereisten voor gegevenslocatie in uw regio, inclusief de vereisten die zijn opgegeven in het Vertrouwenscentrum.
Kafka en HBase slaan wel klantgegevens op. Deze gegevens worden automatisch opgeslagen door Kafka en HBase in één regio, zodat deze service voldoet aan de vereisten voor gegevenslocatie van uw regio, inclusief de vereisten die zijn opgegeven in het Vertrouwenscentrum.
Voor het ophalen, analyseren en rapporteren van met HDInsight geïntegreerde gegevens kunt u gebruikmaken van gangbare hulpprogramma's voor Business Intelligence (BI). Hiervoor is de invoegtoepassing Power Query of het ODBC-stuurprogramma Microsoft Hive vereist.
Volgende stappen
- Apache Hadoop-cluster maken in HDInsight
- Een Apache Spark-cluster maken - portal
- Enterprise-beveiliging in Azure HDInsight