Interactieve gegevensverkenning
In veel BI business intelligence s (bedrijfsoplossingen) worden rapporten en semantische modellen gemaakt door BI-specialisten en centraal beheerd. Steeds meer organisaties willen gebruikers echter in staat stellen om gegevensgestuurde beslissingen te nemen. Daarnaast nemen steeds meer organisaties gegevenswetenschappers of gegevensanalisten in dienst, die gegevens interactief moeten verkennen en statistische modellen en analytische technieken moeten toepassen om trends en patronen in de gegevens te vinden. Interactieve gegevensverkenning vereist hulpprogramma's en platforms die verwerking met lage latentie bieden voor ad-hocquery's en gegevensvisualisaties.

Selfservice-BI
Selfservice BI is een naam die wordt gegeven aan een moderne benadering van zakelijke besluitvorming waarin gebruikers inzichten kunnen vinden, verkennen en delen van gegevens in de hele onderneming. Hiervoor moet de gegevensoplossing ondersteuning bieden voor verschillende vereisten:
- Detectie van bedrijfsgegevensbronnen via een gegevenscatalogus.
- Hoofdgegevensbeheer om consistentie van definities en waarden van gegevensentiteiten te garanderen.
- Interactieve hulpprogramma's voor gegevensmodelleren en visualisatie voor zakelijke gebruikers.
In een selfservice-BI-oplossing vinden en gebruiken zakelijke gebruikers doorgaans gegevensbronnen die relevant zijn voor hun specifieke bedrijfsgebied en gebruiken ze intuïtieve hulpprogramma's en productiviteitstoepassingen om persoonlijke gegevensmodellen en rapporten te definiëren die ze met hun collega's kunnen delen.
Relevante Azure-services:
Experimenteren in data science
Wanneer een organisatie geavanceerde analyses en voorspellende modellen vereist, wordt het eerste voorbereidingswerk meestal uitgevoerd door gespecialiseerde gegevenswetenschappers. Een data scientist verkent de gegevens en past statistische analytische technieken toe om relaties tussen gegevensfuncties en de gewenste voorspelde labels te vinden. Gegevensverkenning wordt doorgaans uitgevoerd met behulp van programmeertalen zoals Python of R, die standaard ondersteuning bieden voor statistische modellering en visualisatie. De scripts die worden gebruikt om de gegevens te verkennen, worden doorgaans gehost in gespecialiseerde omgevingen zoals Jupyter Notebooks. Met deze hulpprogramma's kunnen gegevenswetenschappers de gegevens programmatisch verkennen tijdens het documenteren en delen van de inzichten die ze vinden.
Relevante Azure-services:
- Azure Notebooks
- Azure Machine Learning Studio (klassiek)
- Azure Machine Learning Experimentenservices
- De Data Science Virtual Machine
Uitdagingen
Naleving van gegevens privacy. U moet voorzichtig zijn met het beschikbaar maken van persoonsgegevens voor gebruikers voor selfserviceanalyse en rapportage. Er zijn waarschijnlijk nalevingsoverwegingen vanwege organisatiebeleid en regelgevingsproblemen.
Gegevensvolume. Hoewel het handig kan zijn om gebruikers toegang te geven tot de volledige gegevensbron, kan dit leiden tot zeer langlopende Excel- of Power BI-bewerkingen of Spark SQL-query's die veel clusterresources gebruiken.
Gebruikerskennis. Gebruikers maken hun eigen query's en aggregaties om zakelijke beslissingen te kunnen nemen. Bent u ervan overtuigd dat gebruikers over de benodigde analytische en queryvaardigheden beschikken om nauwkeurige resultaten te krijgen?
Resultaten delen. Er kunnen beveiligingsoverwegingen zijn als gebruikers rapporten of gegevensvisualisaties kunnen maken en delen.
Architectuur
Hoewel het doel van dit scenario is om interactieve gegevensanalyse te ondersteunen, omvatten de taken voor het opschonen, nemen van steekproeven en structureren van gegevens in gegevenswetenschap vaak langlopende processen. Dat maakt een batchverwerkingsarchitectuur geschikt.
Technologieopties
De volgende technologieën zijn aanbevolen opties voor interactieve gegevensverkenning in Azure.
Gegevensopslag
- Azure Storage Blob-containers of Azure Data Lake Store. Gegevenswetenschappers werken doorgaans met onbewerkte brongegevens om ervoor te zorgen dat ze toegang hebben tot alle mogelijke functies, uitbijten en fouten in de gegevens. In een big data hebben deze gegevens meestal de vorm van bestanden in een gegevensopslag.
Zie Gegevensopslag voor meer informatie.
Batchverwerking
- R Server spark of. De meeste gegevenswetenschappers gebruiken programmeertalen met sterke ondersteuning voor wiskundige en statistische pakketten, zoals R of Python. Wanneer u met grote hoeveelheden gegevens werkt, kunt u de latentie verminderen door gebruik te maken van platformen waarmee deze talen gedistribueerde verwerking kunnen gebruiken. R Server kunnen zelf of in combinatie met Spark worden gebruikt om R-verwerkingsfuncties uit te schalen. Spark biedt systeemeigen ondersteuning voor Python voor vergelijkbare mogelijkheden voor uitschalen in die taal.
- Hive. Hive is een goede keuze voor het transformeren van gegevens met SQL-achtige semantiek. Gebruikers kunnen tabellen maken en laden met behulp van HiveQL-instructies, die semantisch vergelijkbaar zijn met SQL.
Zie Batchverwerking voor meer informatie.
Analytische gegevensopslag
Spark SQL. Spark SQL is een API die is gebouwd op Spark en die ondersteuning biedt voor het maken van dataframes en tabellen die kunnen worden opgevraagd met behulp van SQL syntaxis. Ongeacht of de te analyseren gegevensbestanden onbewerkte bronbestanden zijn of nieuwe bestanden die zijn opgeschoond en voorbereid door een batchproces, kunnen gebruikers Spark SQL-tabellen op deze bestanden definiëren voor verdere query's op een analyse.
Hive. Naast batchverwerking van onbewerkte gegevens met behulp van Hive kunt u een Hive-database maken die Hive-tabellen en -weergaven bevat op basis van de mappen waarin de gegevens zijn opgeslagen, waardoor interactieve query's voor analyse en rapportage mogelijk zijn. HDInsight bevat een interactive Hive-clustertype dat gebruikmaakt van caching in het geheugen om de reactietijden van Hive-query's te verminderen. Gebruikers die vertrouwd zijn met SQL-achtige syntaxis, kunnen Interactive Hive gebruiken om gegevens te verkennen.
Zie Analytische gegevensopslag voor meer informatie.
Analyse en rapportage
Jupyter. Jupyter Notebooks biedt een browserinterface voor het uitvoeren van code in talen zoals R, Python of Scala. Wanneer u R Server of Spark gebruikt om gegevens te verwerken, of wanneer u Spark SQL gebruikt om een schema van tabellen te definiëren voor het uitvoeren van query's, kan Jupyter een goede keuze zijn voor het uitvoeren van query's op de gegevens. Wanneer u Spark gebruikt, kunt u de standaard Spark-dataframe-API of de Spark SQL-API gebruiken, evenals ingesloten SQL-instructies om query's uit te voeren op de gegevens en visualisaties te produceren.
Zoom in. Als u ad-hoc gegevensverkenning wilt uitvoeren, is Apache Drill een schemaloze query-engine SQL query-engine. Omdat er geen schema vereist is, kunt u gegevens opvragen uit verschillende gegevensbronnen en krijgt de engine automatisch inzicht in de structuur van de gegevens. U kunt Drill with Azure Blob Storage gebruiken met behulp van de Azure Blob Storage Plugin. Hiermee kunt u query's uitvoeren op gegevens in Blob Storage zonder dat u de gegevens moet verplaatsen.
Interactieve Hive-clients. Als u een interactief Hive-cluster gebruikt om query's uit te voeren op de gegevens, kunt u de Hive-weergave gebruiken in het Ambari-clusterdashboard, het opdrachtregelprogramma Beeline of een hulpprogramma op basis van ODBC (met behulp van het Hive ODBC-stuurprogramma), zoals Microsoft Excel of Power BI.
Zie Gegevensanalyse en rapportagetechnologie voor meer informatie.