Interaktivní zkoumání dat
V mnoha podnikových business intelligence (BI) jsou sestavy a sémantické modely vytvořené odborníky z BI a spravují centrálně. Stále ale organizace chtějí uživatelům umožnit provádět rozhodování na základě dat. Rostoucí počet organizací navíc přijímá vědečtí data nebo analytikům dat, jejichž úkolem je prozkoumat data interaktivně a použít statistické modely a analytické techniky pro hledání trendů a vzorů v datech. Interaktivní zkoumání dat vyžaduje nástroje a platformy, které zajišťují zpracování s nízkou latencí pro dotazy a vizualizace dat ad hoc.

Samoobslužná služba BI
Samoobslužná služba BI je název, kterým se přibližuje moderní přístup k rozhodování, ve kterém jsou uživatelé oprávněni vyhledávat, zkoumat a sdílet poznatky z dat v celém podniku. K tomu je potřeba, aby datové řešení podporovalo několik požadavků:
- Zjišťování zdrojů obchodních dat prostřednictvím katalogu dat
- Správa hlavních dat pro zajištění konzistence definic a hodnot datových entit
- Interaktivní nástroje pro modelování dat a vizualizace pro obchodní uživatele
V řešení BI pro samoobslužné uživatele firemní uživatelé obvykle hledají a využívají zdroje dat, které jsou relevantní pro svou konkrétní oblast podnikání, a používají intuitivní nástroje a kancelářské aplikace k definování osobních datových modelů a sestav, které mohou sdílet se svými kolegy.
Relevantní služby Azure:
Experimentování v oblasti datových věd
Když organizace vyžaduje pokročilou analýzu a prediktivní modelování, je prvotní přípravné práce obvykle prováděna odborníky ze specialistů na data. Odborník na data zkoumá data a aplikuje statistické analytické techniky pro hledání vztahů mezi funkcemi dat a požadovanými předpokládanými popisky. Průzkum dat se obvykle provádí pomocí programovacích jazyků, jako je Python nebo R, které nativně podporují statistické modelování a vizualizaci. Skripty používané k prozkoumávání dat se obvykle hostují ve specializovaných prostředích, jako jsou Jupyter poznámkové bloky. Tyto nástroje umožňují odborníkům přes data prozkoumat data prostřednictvím kódu programu při dokumentaci a sdílení informací, které najde.
Relevantní služby Azure:
- Azure Notebooks
- Azure Machine Learning Studio (Classic)
- Azure Machine Learning Služby experimentování
- Data Science Virtual Machine
Výzvy
Dodržování ochrany osobních údajů v datech. Musíte být opatrní na zpřístupnění osobních údajů uživatelům pro samoobslužné analýzy a vytváření sestav. Kvůli zásadám organizace a také problémům s předpisy se pravděpodobně budou brát v úvahu požadavky na dodržování předpisů.
Objem dat: i když může být užitečné poskytnout uživatelům přístup k úplnému zdroji dat, může to mít za následek velmi dlouho běžící operace Excel nebo Power BI nebo Spark SQL dotazy, které používají velký počet prostředků clusteru.
Znalostní báze uživatelů Uživatelé si můžou vytvořit své vlastní dotazy a agregace, aby informovali obchodní rozhodnutí. Jste si jisti, že uživatelé potřebují analytické a dotazovací dovednosti, abyste získali přesné výsledky?
Sdílení výsledků. Pokud uživatelé můžou vytvářet a sdílet sestavy nebo vizualizace dat, může dojít k bezpečnostním hlediskům.
Architektura
I když cílem tohoto scénáře je podporovat interaktivní analýzu dat, čištění dat, vzorkování a strukturování úloh zapojených do datové vědy často zahrnuje dlouhotrvající procesy. Díky tomu bude architektura dávkového zpracování vhodná.
Technologické volby
Následující technologie jsou doporučenými možnostmi pro interaktivní zkoumání dat v Azure.
Úložiště dat
- Azure Storage kontejnerů objektů Blob nebo Azure Data Lake Store. Odborníci na data obecně pracují s nezpracovanými zdrojovými daty, aby měli přístup ke všem možným funkcím, vydaným hodnotám a chybám v datech. Ve scénáři s velkými objemy dat tato data obvykle přebírají formu souborů v úložišti dat.
Další informace najdete v tématu úložiště dat.
Dávkové zpracování
- R Server nebo Spark. Většina datových vědců používá programovací jazyky s silnou podporou pro matematické a statistické balíčky, jako je R nebo Python. Při práci s velkými objemy dat můžete snížit latenci pomocí platforem, které umožňují těmto jazykům používat distribuované zpracování. R Server lze použít samostatně nebo ve spojení s sparkem k horizontálnímu navýšení kapacity funkcí zpracování R a spark nativně podporuje Python pro podobné možnosti škálování na více instancí v daném jazyce.
- Podregistr. podregistr je dobrou volbou pro transformaci dat pomocí sémantiky SQL jako. Uživatelé mohou vytvořit a načíst tabulky pomocí příkazů HiveQL, které jsou sémanticky podobné SQL.
Další informace najdete v tématu dávkové zpracování.
Analytické úložiště dat
Spark SQL. spark SQL je rozhraní API postavené na sparku, které podporuje vytváření dataframes a tabulek, které se dají dotazovat pomocí syntaxe SQL. bez ohledu na to, jestli jsou datové soubory, které se mají analyzovat, nezpracované zdrojové soubory nebo nové soubory, které se vyčistily a připravily pomocí dávkového procesu, můžou uživatelé pro další dotazování na analýzu definovat tabulky Spark SQL.
Podregistr. Kromě dávkového zpracování nezpracovaných dat pomocí podregistru můžete vytvořit databázi podregistru obsahující tabulky a zobrazení podregistru na základě složek, ve kterých jsou data uložená, a povolit tak interaktivní dotazy pro analýzu a vytváření sestav. HDInsight zahrnuje typ clusteru s interaktivním podpamětí, který využívá mezipaměť v paměti k omezení doby odezvy dotazů na podregistr. uživatelé, kteří jsou obeznámeni s syntaxí podobnou SQL, můžou pomocí interaktivního podregistru prozkoumat data.
Další informace najdete v tématu analytické úložiště dat.
Analýzy a generování sestav
Jupyter. Jupyter poznámkové bloky poskytují rozhraní založené na prohlížeči pro spouštění kódu v jazycích, jako je R, Python nebo Scala. při použití R Server nebo sparku k dávkovému zpracování dat nebo při použití spark SQL k definování schématu tabulek pro dotazování, Jupyter může být dobrou volbou pro dotazování dat. při použití sparku můžete použít standardní rozhraní spark dataframe api nebo rozhraní spark SQL api a také vložené SQL příkazy k dotazování na data a vygenerování vizualizací.
Přejít k podrobnostem. v případě, že chcete provést průzkum dat ad hoc, je Apache v nástroji pro dotazování SQL bez schématu. Vzhledem k tomu, že nevyžaduje schéma, můžete zadávat dotazy na data z nejrůznějších zdrojů dat a stroj bude automaticky rozumět struktuře dat. pomocí modulu plug-in azure Blob Storagemůžete použít přechod k azure Blob Storage. to vám umožní spouštět dotazy na data v Blob Storage bez nutnosti přesouvat data.
Interaktivní klienti podregistru. použijete-li pro dotazování dat cluster interaktivních podregistrů, můžete použít zobrazení podregistru na řídicím panelu clusteru Ambari, nástroji příkazového řádku Beeline nebo jakémkoli nástroji založeném na rozhraní odbc (pomocí ovladače rozhraní odbc pro podregistr), například Microsoft Excel nebo Power BI.
Další informace najdete v tématu technologie data Analytics a generování sestav.