Välja en dataanalysteknik i Azure
Målet för de flesta stordatalösningar är att ge insikter om data genom analys och rapportering. Detta kan omfatta förkonfigurerade rapporter och visualiseringar eller interaktiv datagranskning.
Vilka alternativ har du när du väljer en dataanalysteknik?
Det finns flera alternativ för analys, visualiseringar och rapportering i Azure, beroende på dina behov:
Power BI
Power BI är en uppsättning verktyg för företagsanalys. Den kan ansluta till hundratals datakällor och kan användas för ad hoc-analys. Se den här listan över tillgängliga datakällor. Använd Power BI Embedded att integrera Power BI i dina egna program utan att kräva ytterligare licensiering.
Organisationer kan använda Power BI för att skapa rapporter och publicera dem i organisationen. Alla kan skapa anpassade instrumentpaneler med styrning och säkerhet inbyggda i. Power BI använder Azure Active Directory (Azure AD) för att autentisera användare som loggar in på Power BI-tjänsten och använder autentiseringsuppgifterna för Power BI när en användare försöker komma åt resurser som kräver autentisering.
Jupyter Notebook
Jupyter Notebooks tillhandahåller ett webbläsarbaserat gränssnitt där dataexperter kan skapa notebook-filer som innehåller Python-, Scala- eller R-kod och markdown-text, vilket gör det till ett effektivt sätt att samarbeta genom att dela och dokumentera kod och resulterar i ett enda dokument.
De flesta typer av HDInsight-kluster, till exempel Spark eller Hadoop, är förkonfigurerade med Jupyter Notebooks för att interagera med data och skicka jobb för bearbetning. Beroende på vilken typ av HDInsight-kluster du använder tillhandahålls en eller flera kernels för att tolka och köra koden. Spark-kluster i HDInsight tillhandahåller till exempel Spark-relaterade kernels som du kan välja mellan för att köra Python- eller Scala-kod med Spark-motorn.
Jupyter Notebooks är en bra miljö för att analysera, visualisera och bearbeta data innan du skapar mer avancerade visualiseringar med ett BI-/rapporteringsverktyg som Power BI.
Zeppelin Notebooks
Zeppelin Notebooks är ett annat alternativ för ett webbläsarbaserat gränssnitt, som liknar Jupyter i funktioner. Vissa HDInsight-kluster är förkonfigurerade med Zeppelin Notebooks. Men om du använder ett HDInsight Interaktiv fråga-kluster (Hive LLAP) är Zeppelin för närvarande det enda valet av notebook-dator som du kan använda för att köra interaktiva Hive-frågor. Om du använder ett domänkomponserade HDInsight-klusterär Zeppelin Notebooks den enda typen som gör att du kan tilldela olika användarinloggningar för att styra åtkomsten till notebook-datorer och de underliggande Hive-tabellerna.
Microsoft Azure Notebooks
Azure Notebooks är en Jupyter Notebooks-baserad tjänst online som gör att dataforskare kan skapa, köra och dela Jupyter Notebooks i molnbaserade bibliotek. Azure Notebooks tillhandahåller körningsmiljöer för Python 2, Python 3, F# och R och tillhandahåller flera diagrambibliotek för att visualisera dina data, till exempel ggplot, matplotlib, bokeh och seaborn.
Till skillnad från Jupyter Notebooks som körs i ett HDInsight-kluster, som är anslutna till klustrets standardlagringskonto, tillhandahåller Azure Notebooks inte några data. Du måste läsa in data på olika sätt, till exempel ladda ned data från en onlinekälla, interagera med Azure Blobs eller Table Storage, ansluta till en SQL-databas eller läsa in data med kopieringsguiden för Azure Data Factory.
Viktiga fördelar:
- Kostnadsfri tjänst – ingen Azure-prenumeration krävs.
- Du behöver inte installera Jupyter och de stödande R- eller Python-distributionerna lokalt– använd bara en webbläsare.
- Hantera dina egna onlinebibliotek och få åtkomst till dem från valfri enhet.
- Dela dina notebook-filer med medarbetare.
Överväganden:
- Du kan inte komma åt dina notebook-datorer när du är offline.
- Begränsade bearbetningsfunktioner i den kostnadsfria notebook-tjänsten kanske inte räcker för att träna stora eller komplexa modeller.
Viktiga urvalsvillkor
Börja med att besvara de här frågorna för att begränsa alternativen:
Behöver du ansluta till flera datakällor, vilket ger en central plats för att skapa rapporter för data som sprids i hela domänen? I så fall väljer du ett alternativ som gör att du kan ansluta till 100-tals datakällor.
Vill du bädda in dynamiska visualiseringar på en extern webbplats eller ett externt program? I så fall väljer du ett alternativ som innehåller inbäddningsfunktioner.
Vill du utforma dina visualiseringar och rapporter offline? Om ja, välj ett alternativ med offline-funktioner.
Behöver du tung bearbetningskraft för att träna stora eller komplexa AI-modeller eller arbeta med mycket stora datamängder? Om ja, välj ett alternativ som kan ansluta till ett stordatakluster.
Kapacitetsmatris
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
Allmänna funktioner
| Funktion | Power BI | Jupyter Notebook | Zeppelin Notebooks | Microsoft Azure Notebooks |
|---|---|---|---|---|
| Anslut till stordatakluster för avancerad bearbetning | Ja | Ja | Ja | Inga |
| Hanterad tjänst | Yes | Ja 1 | Ja 1 | Ja |
| Anslut till 100-tals datakällor | Ja | Inga | Inga | Inga |
| Offlinefunktioner | Ja 2 | Nej | Inga | Inga |
| Inbäddningsfunktioner | Ja | Inga | Inga | Inga |
| Automatisk datauppdatering | Ja | Inga | Inga | Inga |
| Åtkomst till flera paket med öppen källkod | Nej | Ja 3 | Ja 3 | Ja 4 |
| Datatransformering/rensningsalternativ | Power Query, R | 40 språk, inklusive Python, R, Julia och Scala | Över 20 tolkar, inklusive Python, JDBC och R | Python, F#, R |
| Prissättning | Kostnadsfri för Power BI Desktop (redigering) finns i prissättning för värdalternativ | Kostnadsfri | Kostnadsfri | Kostnadsfri |
| Samarbete med fleraanvändare | Ja | Ja (via delning eller med en server med fleraanvändare som JupyterHub) | Yes | Ja (via delning) |
[1] När det används som en del av ett hanterat HDInsight-kluster.
[2] Med hjälp av Power BI Desktop.
[2] Du kan söka i Maven-lagringsplatsen efter community-bidragna paket.
[3] Python-paket kan installeras med pip eller conda. R-paket kan installeras från CRAN eller GitHub. Paket i F# kan installeras via nuget.org med hjälp av Paket dependency manager.