Vad är Azure HDInsight?
Azure HDInsight är en hanterad analystjänst med fullständigt spektrum med öppen källkod i molnet för företag. Med HDInsight kan du använda ramverk med öppen källkod, till exempel Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R med flera i din Azure-miljö.
Vad är HDInsight och Hadoop-teknikstacken?
Azure HDInsight är en molndistribution av Hadoop-komponenter. Azure HDInsight gör det enkelt, snabbt och kostnadseffektivt att bearbeta enorma mängder data i en anpassningsbar miljö. Du kan använda de mest populära ramverken baserade på öppen källkod, till exempel Hadoop, Spark, Hive, LLAP, Kafka, Storm, R med flera. Med de här ramverken möjliggörs en mängd olika scenarier, t.ex. extrahering, transformering och inläsning (ETL), informationslagerhantering, maskininlärning och IoT.
Mer information om tillgängliga stackkomponenter med Hadoop-teknik i HDInsight finns i Komponenter och versioner som är tillgängliga med HDInsight. Mer information om Hadoop i HDInsight finns på sidan om Azure-funktioner för HDInsight.
Varför ska jag använda Azure HDInsight?
| Funktion | Beskrivning |
|---|---|
| Molnbaserat | Azure HDInsight kan du skapa optimerade kluster för Hadoop, Spark, Interactive Query (LLAP),Kafka, Storm, HBase på Azure. HDInsight tillhandahåller även ett serviceavtal från slutpunkt till slutpunkt för alla produktionsarbetsbelastningar. |
| Billigt och skalbart | Med HDInsight kan du skala upp eller ned arbetsbelastningar.Du kan minska kostnaderna genom att skapa kluster på begäran och endast betala för det du använder. Du kan också skapa datapipelines för att operationalisera dina jobb. Frikopplad beräkning och lagring ger bättre prestanda och flexibilitet. |
| Säkert och följer standarder | Med HDInsight kan du skydda företagets datatillgångar med Azure Virtual Network, kryptering och integrering med Azure Active Directory. HDInsight uppfyller också de vanligaste efterlevnadskraven för olika branscher och myndigheter. |
| Övervakning | Azure HDInsight integreras med Azure Monitor-loggar så att du får ett enda gränssnitt som du kan använda för att övervaka alla dina kluster. |
| Global tillgänglighet | HDInsight är tillgängligt i fler regioner än något annat erbjudande för stordataanalys. Azure HDInsight är också tillgängligt i Azure Government, Kina och Tyskland så att du kan uppfylla företagets behov i viktiga områden. |
| Produktivitet | Med Azure HDInsight kan du använda omfattande produktiva verktyg för Hadoop och Spark med de utvecklingsmiljöer du föredrar. Dessa utvecklingsmiljöer omfattar stöd för Visual Studio, VSCode, Eclipse och IntelliJ för Scala, Python, R, Java och .NET. Dataexperter kan också samarbeta med vanliga anteckningsböcker som Jupyter och Zeppelin. |
| Utökningsbarhet | Du kan utöka HDInsight-kluster med installerade komponenter (Hue, Presto och så vidare) med hjälp av skriptåtgärder, genom att lägga till gränsnoder eller genom att integrera med andra stordatacertifierade program. HDInsight möjliggör sömlös integrering med de populäraste stordatalösningarna med en distribution med ett klick. |
Vad är stordata?
Stordata samlas in i ständigt växande volymer, med allt högre hastighet och i fler olika format än någonsin tidigare. De kan vara historiska (lagrade) eller realtidsbaserade (vilket innebär att de strömmas från källan). Under Scenarier för att använda HDInsight kan du läsa mer om vanliga användningsområden för stordata.
Klustertyper i HDInsight
HDInsight omfattar specifika klustertyper och anpassningsmöjligheter för klustret, till exempel funktioner för att lägga till komponenter, verktyg och språk. HDInsight erbjuder följande klustertyper:
| Typ av kluster | Description | Kom igång |
|---|---|---|
| Apache Hadoop | Ett ramverk som använder HDFS, YARN-resurshantering och en enkel MapReduce-programmeringsmodell för att behandla och analysera batchdata parallellt. | Skapa ett Apache Hadoop-kluster |
| Apache Spark | Ett ramverk för parallellbearbetning med öppen källkod som stöder intern bearbetning för att höja prestandan hos program för stordataanalys. Se Vad är Apache Spark i HDInsight?. | Skapa ett Apache Spark-kluster |
| Apache HBase | En NoSQL-databas som bygger på Hadoop och ger slumpmässig åtkomst och stark konsekvens för stora mängder ostrukturerade och delstrukturerade data – potentiellt miljarder rader gånger miljoner kolumner. Se Vad är HBase på HDInsight? | Skapa ett Apache HBase-kluster |
| Apache Storm | Ett distribuerat system för beräkningar i realtid som ger snabb bearbetning av stora dataströmmar. Storm finns som ett hanterat kluster i HDInsight. Se Analysera sensordata i realtid med Storm och Hadoop. | Skapa en Apache Storm-topologi |
| Apache Interaktiv fråga | Minnesintern cachelagring för interaktiva och snabba Hive-frågor. Se Använda Interactive Query i HDInsight. | Skapa ett Interaktiv fråga kluster |
| Apache Kafka | En öppen källkodsplattform som används för att skapa strömmande datapipelines och program. Kafka tillhandahåller även en meddelandeköfunktion med vilken du kan publicera och prenumerera på dataströmmar. Se Introduktion till Apache Kafka på HDInsight. | Skapa ett Apache Kafka-kluster |
Scenarier för att använda HDInsight
Azure HDInsight kan användas för en mängd olika scenarier vid bearbetning av stordata. Det kan vara historiska data (data som redan har samlats in och lagrats) eller realtidsdata (data som strömmas direkt från källan). Dessa scenarier för bearbetning av sådana data kan sammanfattas i följande kategorier:
Batchbearbetning (ETL)
Extrahering, transformering och laddning (ETL) är en process där ostrukturerade eller strukturerade data extraheras från heterogena datakällor. De transformeras sedan till ett strukturerat format och laddas in i ett datalager. Du kan använda transformerade data för datavetenskap eller datalagerhantering.
Datalagerhantering
Du kan använda HDInsight för att köra interaktiva frågor i petabyte-skala på strukturerade eller ostrukturerade data i valfritt format. Du kan också skapa modeller för att koppla dem till BI-verktyg.
Sakernas Internet (IoT)
Du kan använda HDInsight för att bearbeta strömmande data som tas emot i realtid från olika typer av enheter. Om du vill ha mer information kan du läsa det här blogginlägget från Azure som tillkännager den offentliga förhandsversionen av Apache Kafka på HDInsight med Azure Managed Disks.
Data science
Du kan använda HDInsight för att skapa program som utvinner viktiga insikter från data. Du kan också använda Azure Machine Learning ovanpå detta för att förutspå framtida trender för din verksamhet. Om du vill ha mer information kan du läsa den här kundberättelsen.
Hybrid
Du kan använda HDInsight för att utöka din befintliga lokala infrastruktur för stordata till Azure och utnyttja molnets avancerade analysfunktioner.
Komponenter med öppen källkod i HDInsight
Azure HDInsight kan du skapa kluster med ramverk med öppen källkod som Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase och R. Dessa kluster har som standard andra komponenter med öppen källkod som ingår i klustret, till exempel Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 och Apache ZooKeeper5.
Programmeringsspråk i HDInsight
HDInsight-kluster, inklusive Hadoop, HBase, Kafka, Spark med flera, stöder ett antal programmeringsspråk. Vissa programmeringsspråk är inte installerade som standard. För bibliotek, moduler eller paket som inte är installerade som standard använder du en skriptåtgärd för att installera komponenten.
| Programmeringsspråk | Information |
|---|---|
| Programmeringsspråk som stöds som standard | Som standard stöder HDInsight-kluster:
|
| Java Virtual Machine-språk (JVM) | Många andra språk än Java kan köras på en Java Virtual Machine (JVM). Om du kör vissa av dessa språk kan det dock hända att du måste installera ytterligare komponenter på klustret. Följande JVM-baserade språk stöds i HDInsight-kluster:
|
| Hadoop-specifika språk | HDInsight-kluster stöder följande språk som är specifika för Hadoop-teknikstacken:
|
Utvecklingsverktyg för HDInsight
Du kan använda utvecklingsverktyg för HDInsight, inklusive IntelliJ, Eclipse, Visual Studio Code och Visual Studio för att skapa och skicka HDInsight-datafrågor och -jobb med sömlös Azure-integrering.
- Azure toolkit for IntelliJ10
- Azure toolkit for Eclipse6
- Azure HDInsight för VS Code13
- Azure Data Lake-verktyg för Visual Studio9
Business intelligence i HDInsight
Välbekanta verktyg för Business Intelligence (BI) hämtar, analyserar och rapporterar data som integreras med HDInsight med antingen Power Query-tillägget eller ODBC-drivrutinen för Microsoft Hive:
Apache Spark BI med hjälp av datavisualiseringsverktyg med Azure HDInsight
Visualisera Apache Hive-data med Microsoft Power BI i Azure HDInsight
Visualisera Interactive Query Hive-data med Power BI i Azure HDInsight
Ansluta Excel till Apache Hadoop med Power Query (kräver Windows)
Ansluta Excel till Apache Hadoop med Microsoft Hives ODBC-drivrutin (kräver Windows)
Datahemhemlighet i regionen
Spark, Hadoop, LLAP, Storm och MLService lagrar inte kunddata, så dessa tjänster uppfyller automatiskt kraven på datahemhemlighet i regionen, inklusive de som anges i Säkerhetscenter.
Kafka och HBase lagrar kunddata. Dessa data lagras automatiskt av Kafka och HBase i en enda region, så den här tjänsten uppfyller kraven för datahemhemlighet i regionen, inklusive de som anges i Säkerhetscenter.
Välbekanta business intelligence (BI)-verktyg hämtar, analyserar och rapporterar data som är integrerade med HDInsight med hjälp av antingen Power Query-tillägget eller ODBC-drivrutinen för Microsoft Hive.