Välj en dataanalys- och rapporteringsteknik i Azure

Målet för de flesta stordatalösningar är att ge insikter om data genom analys och rapportering. Detta kan omfatta förkonfigurerade rapporter och visualiseringar eller interaktiv datautforskning.

Vilka alternativ har du när du väljer en dataanalysteknik?

Det finns flera alternativ för analys, visualiseringar och rapportering i Azure, beroende på dina behov:

Power BI

Power BI är en uppsättning affärsanalysverktyg. Den kan ansluta till hundratals datakällor och kan användas för ad hoc-analys. Se den här listan över tillgängliga datakällor. Använd Power BI Embedded för att integrera Power BI i dina egna program utan ytterligare licensiering.

Organisationer kan använda Power BI för att skapa rapporter och publicera dem i organisationen. Alla kan skapa anpassade instrumentpaneler med inbyggd styrning och säkerhet. Power BI använder Microsoft Entra-ID för att autentisera användare som loggar in på Power BI-tjänst och använder autentiseringsuppgifterna för Power BI-inloggning när en användare försöker komma åt resurser som kräver autentisering.

Jupyter Notebook

Jupyter Notebooks tillhandahåller ett webbläsarbaserat gränssnitt som låter dataforskare skapa notebook-filer som innehåller Python-, Scala- eller R-kod och markdown-text, vilket gör det till ett effektivt sätt att samarbeta genom att dela och dokumentera kod och resulterar i ett enda dokument.

De flesta sorter av HDInsight-kluster, till exempel Spark eller Hadoop, är förkonfigurerade med Jupyter Notebooks för att interagera med data och skicka jobb för bearbetning. Beroende på vilken typ av HDInsight-kluster du använder tillhandahålls en eller flera kernels för att tolka och köra koden. Spark-kluster på HDInsight tillhandahåller till exempel Spark-relaterade kernels som du kan välja mellan för att köra Python- eller Scala-kod med Spark-motorn.

Jupyter Notebooks ger en bra miljö för att analysera, visualisera och bearbeta dina data innan du skapar mer avancerade visualiseringar med ett BI/rapporteringsverktyg som Power BI.

Zeppelin Notebooks

Zeppelin Notebooks är ett annat alternativ för ett webbläsarbaserat gränssnitt, som liknar Jupyter i funktioner. Vissa HDInsight-kluster är förkonfigurerade med Zeppelin-notebook-filer. Men om du använder ett HDInsight Interaktiv fråga-kluster(Hive LLAP) är Zeppelin för närvarande ditt enda val av notebook-fil som du kan använda för att köra interaktiva Hive-frågor. Om du använder ett domänanslutet HDInsight-kluster är Zeppelin-notebook-filer den enda typen som gör att du kan tilldela olika användarinloggningar för att styra åtkomsten till notebook-filer och underliggande Hive-tabeller.

Jupyter Notebooks i VS Code

VS Code är en kostnadsfri kodredigerare och utvecklingsplattform som du kan använda lokalt eller anslutet till fjärrberäkning. I kombination med Jupyter-tillägget erbjuder det en fullständig miljö för Jupyter-utveckling som kan förbättras med ytterligare språktillägg. Om du vill ha en förstklassig, kostnadsfri Jupyter-upplevelse med möjlighet att utnyttja din beräkning är detta ett bra alternativ. Med VS Code kan du utveckla och köra notebook-filer mot fjärr- och containrar. För att göra övergången enklare från Azure Notebooks har vi gjort containeravbildningen tillgänglig så att den också kan användas med VS Code.

Jupyter (tidigare IPython Notebook) är ett projekt med öppen källkod som gör att du enkelt kan kombinera Markdown-text och körbar Python-källkod på en arbetsyta som kallas notebook-fil. Visual Studio Code stöder arbete med Jupyter Notebooks internt och via Python-kodfiler.

Kriterier för nyckelval

För att begränsa alternativen börjar du med att svara på följande frågor:

  • Behöver du ansluta till flera datakällor och tillhandahålla en central plats för att skapa rapporter för dataspridning i hela domänen? I så fall väljer du ett alternativ som gör att du kan ansluta till 100-talet datakällor.

  • Vill du bädda in dynamiska visualiseringar på en extern webbplats eller ett program? I så fall väljer du ett alternativ som tillhandahåller inbäddningsfunktioner.

  • Vill du utforma dina visualiseringar och rapporter när du är offline? Om ja väljer du ett alternativ med offlinefunktioner.

  • Behöver du tung bearbetningskraft för att träna stora eller komplexa AI-modeller eller arbeta med mycket stora datamängder? Om ja väljer du ett alternativ som kan ansluta till ett stordatakluster.

Kapacitetsmatris

I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.

Allmänna funktioner

Kapacitet Power BI Jupyter Notebook Zeppelin Notebooks Jupyter Notebooks i VS Code
Anslut till stordatakluster för avancerad bearbetning Ja Ja Ja Nej
Hanterad tjänst Ja Ja 1 Ja 1 Ja
Anslut till 100-talets datakällor Ja Nej Nej Nej
Offlinefunktioner Ja 2 Nej Nej Nej
Inbäddningsfunktioner Ja Nej Nej Nej
Automatisk datauppdatering Ja Nej Nej Nej
Åtkomst till flera öppen källkod paket Nej Ja 3 Ja 3 Ja 4
Alternativ för datatransformering/rensning Power Query, R 40 språk, inklusive Python, R, Julia och Scala Över 20 tolkar, inklusive Python, JDBC och R Python, F#, R
Prissättning Kostnadsfritt för Power BI Desktop (redigering) finns i priser för värdalternativ Kostnadsfri Kostnadsfri Kostnadsfri
Samarbete mellan flera användare Ja Ja (via delning eller med en server med flera användare som JupyterHub) Ja Ja (via delning)

[1] När det används som en del av ett hanterat HDInsight-kluster.

[2] Med hjälp av Power BI Desktop.

[2] Du kan söka på Maven-lagringsplatsen efter paket som har bidragit med communityn.

[3] Python-paket kan installeras med antingen pip eller conda. R-paket kan installeras från CRAN eller GitHub. Paket i F# kan installeras via nuget.org med hjälp av paketberoendehanteraren.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Nästa steg