Interaktiv datautforskning
I många lösningar business intelligence företag (BI) skapas rapporter och semantiska modeller av BI-specialister och hanteras centralt. Organisationer vill dock i allt högre grad göra det möjligt för användare att fatta datadrivna beslut. Dessutom anställer ett växande antal organisationer dataforskare eller dataanalytiker,vars uppgift är att utforska data interaktivt och tillämpa statistiska modeller och analytiska tekniker för att hitta trender och mönster i data. Interaktiv datagranskning kräver verktyg och plattformar som ger bearbetning med låg latens för ad hoc-frågor och datavisualiseringar.

Bi med självbetjäning
Bi med självbetjäning är ett namn som ges till en modern metod för affärsbeslut där användarna kan hitta, utforska och dela insikter från data i hela företaget. För att åstadkomma detta måste datalösningen ha stöd för flera krav:
- Identifiering av affärsdatakällor via en datakatalog.
- Hantering av huvuddata för att säkerställa konsekvens för definitioner och värden för dataentiteter.
- Interaktiva datamodellerings- och visualiseringsverktyg för företagsanvändare.
I en BI-lösning med självbetjäning hittar och använder företagsanvändare vanligtvis datakällor som är relevanta för deras specifika verksamhetsområde och använder intuitiva verktyg och produktivitetsprogram för att definiera personliga datamodeller och rapporter som de kan dela med sina kollegor.
Relevanta Azure-tjänster:
Dataexperimentering
När en organisation kräver avancerad analys och förutsägelsemodellering utförs vanligtvis det inledande förberedelsearbetet av specialistdataexperter. En dataexpert utforskar data och använder statistiska analystekniker för att hitta relationer mellan datafunktioner och önskade förutsagda etiketter. Datautforskning görs vanligtvis med hjälp av programmeringsspråk som Python eller R som har inbyggt stöd för statistisk modellering och visualisering. Skripten som används för att utforska data finns vanligtvis i specialiserade miljöer som Jupyter Notebooks. Dessa verktyg gör det möjligt för dataexperter att utforska data programmatiskt samtidigt som de dokumenterar och delar de insikter som de hittar.
Relevanta Azure-tjänster:
- Azure Notebooks
- Azure Machine Learning Studio (klassisk)
- Azure Machine Learning Experimentation Services
- Den Data Science Virtual Machine
Utmaningar
Efterlevnad av datasekretess. Du måste vara försiktig med att göra personliga data tillgängliga för användare för självbetjäning av analys och rapportering. Det finns sannolikt efterlevnadsöverväganden på grund av organisationsprinciper och även regelproblem.
Datavolym. Även om det kan vara användbart att ge användarna åtkomst till den fullständiga datakällan kan det resultera i mycket långvariga Excel- eller Power BI-åtgärder eller Spark SQL-frågor som använder stora klusterresurser.
Användarkunskap. Användare skapar sina egna frågor och aggregeringar för att kunna fatta affärsbeslut. Är du säker på att användarna har de nödvändiga analys- och frågekunskaperna för att få korrekta resultat?
Dela resultat. Det kan finnas säkerhetsöverväganden om användarna kan skapa och dela rapporter eller datavisualiseringar.
Arkitektur
Även om målet med det här scenariot är att stödja interaktiv dataanalys, omfattar datarensning, sampling och struktureringsuppgifter som ingår i data science ofta långvariga processer. Det gör en batchbearbetningsarkitektur lämplig.
Teknikval
Följande tekniker är rekommenderade alternativ för interaktiv datagranskning i Azure.
Datalagring
- Azure Storage blobcontainrareller Azure Data Lake Store. Dataexperter arbetar vanligtvis med rådata för att säkerställa att de har åtkomst till alla möjliga funktioner, avvikare och fel i data. I ett scenario med stordata har dessa data vanligtvis formen av filer i ett datalager.
Mer information finns i Datalagring.
Batchbearbetning
- R Server eller Spark. De flesta dataexperter använder programmeringsspråk med starkt stöd för matematiska och statistiska paket, till exempel R eller Python. När du arbetar med stora mängder data kan du minska svarstiden med hjälp av plattformar som gör det möjligt för dessa språk att använda distribuerad bearbetning. R Server kan användas på egen hand eller tillsammans med Spark för att skala ut R-bearbetningsfunktioner, och Spark har inbyggt stöd för Python för liknande utskalningsfunktioner på det språket.
- Hive. Hive är ett bra alternativ för att transformera data med SQL-liknande semantik. Användare kan skapa och läsa in tabeller med HiveQL-instruktioner, som semantiskt liknar SQL.
Mer information finns i Batchbearbetning.
Analysdatalager
Spark SQL. Spark SQL är ett API som bygger på Spark och som stöder skapandet av dataramar och tabeller som kan efterfrågas med SQL syntax. Oavsett om de datafiler som ska analyseras är rådatakfiler eller nya filer som har rensats och förberetts av en batchprocess kan användarna definiera Spark SQL-tabeller på dem för ytterligare frågor om en analys.
Hive. Förutom batchbearbetning av rådata med Hive kan du skapa en Hive-databas som innehåller Hive-tabeller och vyer baserat på mapparna där data lagras, vilket möjliggör interaktiva frågor för analys och rapportering. HDInsight innehåller en interaktiv Hive-klustertyp som använder minnescachelagring för att minska Svarstider för Hive-frågor. Användare som är bekväma med SQL syntax kan använda Interaktiv Hive för att utforska data.
Mer information finns i Analysdatalager.
Analyser och rapporter
Jupyter. Jupyter Notebooks tillhandahåller ett webbläsarbaserat gränssnitt för att köra kod på språk som R, Python eller Scala. När du använder R Server eller Spark för att batchbearbetning av data, eller när du använder Spark SQL för att definiera ett schema med tabeller för frågor, kan Jupyter vara ett bra alternativ för att fråga efter data. När du använder Spark kan du använda standard-API:et för Spark-dataram eller Spark SQL-API:et samt inbäddade SQL-uttryck för att köra frågor mot data och skapa visualiseringar.
Granska. Om du vill utföra ad hoc-datagranskning är Apache Drill en schemafri SQL frågemotor. Eftersom det inte krävs något schema kan du fråga efter data från en mängd olika datakällor, så kommer motorn automatiskt att förstå strukturen för data. Du kan använda drill med Azure Blob Storage med hjälp av plugin-programmet Azure Blob Storage. På så sätt kan du köra frågor mot data i Blob Storage utan att behöva flytta data.
Interaktiva Hive-klienter. Om du använder ett interaktivt Hive-kluster för att fråga efter data kan du använda Hive-vyn på instrumentpanelen för Ambari-klustret, Kommandoradsverktyget Beeline eller val annat ODBC-baserat verktyg (med Hive ODBC-drivrutinen), till exempel Microsoft Excel eller Power BI.
Mer information finns i Dataanalys och rapporteringsteknik.