Een gegevensanalysetechnologie kiezen in Azure

Het doel van de meeste big data-oplossingen is inzicht te bieden in gegevens via analyse en rapportage. Dit kan vooraf geconfigureerde rapporten en visualisaties zijn, of interactieve gegevensverkenning.

Wat zijn uw opties bij het kiezen van een technologie voor gegevensanalyse?

Er zijn verschillende opties voor analyse, visualisaties en rapportage in Azure, afhankelijk van uw behoeften:

Power BI

Power BI is een suite met hulpprogramma's voor business analytics. Het kan verbinding maken met honderden gegevensbronnen en kan worden gebruikt voor ad-hocanalyse. Bekijk deze lijst met de momenteel beschikbare gegevensbronnen. Gebruik Power BI Embedded om uw Power BI te integreren in uw eigen toepassingen zonder dat u extra licenties nodig hebt.

Organisaties kunnen deze Power BI rapporten te maken en naar de organisatie te publiceren. Iedereen kan gepersonaliseerde dashboards maken, met governance en beveiliging ingebouwd in. Power BI gebruikt Azure Active Directory (Azure AD) om gebruikers te verifiëren die zich aanmelden bij de Power BI-service en gebruikt de Power BI-aanmeldingsreferenties wanneer een gebruiker toegang probeert te krijgen tot resources waarvoor verificatie is vereist.

Jupyter Notebooks

Jupyter Notebooks bieden een op een browser gebaseerde shell waarmee gegevenswetenschappers notebookbestanden kunnen maken die Python-, Scala- of R-code en markdown-tekst bevatten, waardoor het een effectieve manier is om samen te werken door code en resultaten in één document te delen en te documenteren.

De meeste varianten van HDInsight-clusters, zoals Spark of Hadoop, worden vooraf geconfigureerd met Jupyter-notebooks voor interactie met gegevens en het verzenden van taken voor verwerking. Afhankelijk van het type HDInsight-cluster dat u gebruikt, worden er een of meer kernels opgegeven voor het interpreteren en uitvoeren van uw code. Spark-clusters in HDInsight bieden bijvoorbeeld Spark-gerelateerde kernels waar u uit kunt kiezen om Python- of Scala-code uit te voeren met behulp van de Spark-engine.

Jupyter-notebooks bieden een geweldige omgeving voor het analyseren, visualiseren en verwerken van uw gegevens voordat u geavanceerdere visualisaties bouwt met een BI-/rapportagehulpprogramma zoals Power BI.

Zeppelin Notebooks

Zeppelin Notebooks zijn een andere optie voor een op een browser gebaseerde shell, vergelijkbaar met Jupyter in functionaliteit. Sommige HDInsight-clusters zijn vooraf geconfigureerd met Zeppelin-notebooks. Als u echter een HDInsight Interactive Query-cluster (Hive LLAP) gebruikt, is Zeppelin momenteel de enige keuze van notebooks die u kunt gebruiken om interactieve Hive-query's uit te voeren. Als u een HDInsight-clustergebruikt dat is verbonden met een domein, zijn Zeppelin-notebooks het enige type waarmee u verschillende gebruikersmeldingen kunt toewijzen om de toegang tot notebooks en de onderliggende Hive-tabellen te beheren.

Microsoft Azure Notebooks

Azure Notebooks is een online Jupyter Notebooks-service waarmee gegevenswetenschappers Jupyter Notebooks kunnen maken, uitvoeren en delen in cloudbibliotheken. Azure Notebooks biedt uitvoeringsomgevingen voor Python 2, Python 3, F# en R en biedt verschillende grafiekbibliotheken voor het visualiseren van uw gegevens, zoals ggplot, matplotlib, bokeh en seaborn.

In tegenstelling tot Jupyter-notebooks die worden uitgevoerd op een HDInsight-cluster, die zijn verbonden met het standaardopslagaccount van het cluster, biedt Azure Notebooks geen gegevens. U moet gegevens op verschillende manieren laden, zoals het downloaden van gegevens uit een online bron, interactie met Azure Blobs of Table Storage, het maken van verbinding met een SQL-database of het laden van gegevens met de wizard Kopiëren voor Azure Data Factory.

Belangrijkste voordelen:

  • Gratis service — geen Azure-abonnement vereist.
  • U hoeft Jupyter en de ondersteunende R- of Python-distributies niet lokaal te — installeren. Gebruik gewoon een browser.
  • Beheer uw eigen onlinebibliotheken en krijg vanaf elk apparaat toegang tot deze bibliotheken.
  • Deel uw notebooks met samenwerkers.

Overwegingen:

  • U hebt geen toegang tot uw notebooks wanneer u offline bent.
  • Beperkte verwerkingsmogelijkheden van de gratis notebookservice zijn mogelijk niet voldoende om grote of complexe modellen te trainen.

Selectiecriteria voor sleutels

Als u de keuzes wilt beperken, begint u met het beantwoorden van deze vragen:

  • Moet u verbinding maken met talloze gegevensbronnen en een centrale plaats bieden voor het maken van rapporten voor gegevens verspreid over uw domein? Als dat het zo is, kiest u een optie waarmee u verbinding kunt maken met honderds aan gegevensbronnen.

  • Wilt u dynamische visualisaties insluiten in een externe website of toepassing? Als dat het zo is, kiest u een optie die insluitmogelijkheden biedt.

  • Wilt u uw visualisaties en rapporten offline ontwerpen? Zo ja, kies dan een optie met offlinemogelijkheden.

  • Hebt u veel verwerkingskracht nodig om grote of complexe AI-modellen te trainen of met zeer grote gegevenssets te werken? Zo ja, kies een optie die verbinding kan maken met een big data cluster.

Mogelijkheidsmatrix

De volgende tabellen geven een overzicht van de belangrijkste verschillen in mogelijkheden.

Algemene mogelijkheden

Mogelijkheid Power BI Jupyter Notebooks Zeppelin Notebooks Microsoft Azure Notebooks
Verbinding maken cluster big data voor geavanceerde verwerking Ja Ja Ja Nee
Beheerde service Yes Ja 1 Ja 1 Ja
Verbinding maken tot 100 s aan gegevensbronnen Ja Nee Nee Nee
Functionaliteiten offline Ja 2 Nee Nee Nee
Mogelijkheden voor insluiten Ja Nee Nee Nee
Automatisch gegevens vernieuwen Ja Nee Nee Nee
Toegang tot talloze open source pakketten Nee Ja 3 Ja 3 Ja 4
Opties voor gegevenstransformatie/opschoning Power Query, R 40 talen, waaronder Python, R, Julia en Scala Meer dan 20 interpreters, waaronder Python, JDBC en R Python, F#, R
Prijzen Gratis voor Power BI Desktop (ontwerp), zie Prijzen voor hostingopties Gratis Gratis Gratis
Samenwerking met meerdere gebruiksreusers Ja Ja (via delen of met een multiuser-server zoals JupyterHub) Yes Ja (via delen)

[1] Wanneer gebruikt als onderdeel van een beheerd HDInsight-cluster.

[2] Met het gebruik van Power BI Desktop.

[2] U kunt in de Maven-opslagplaats zoeken naar door de community bijgedragen pakketten.

[3] Python-pakketten kunnen worden geïnstalleerd met pip of conda. R-pakketten kunnen worden geïnstalleerd vanuit CRAN of GitHub. Pakketten in F# kunnen worden geïnstalleerd via nuget.org met behulp van de Paket-afhankelijkheidsmanager.