Volba technologie pro analýzu dat v Azure

Cílem většiny řešení pro velké objemy dat je poskytnout přehled o datech prostřednictvím analýzy a vytváření sestav. To může zahrnovat předkonfigurované sestavy a vizualizace nebo interaktivní zkoumání dat.

Jaké máte možnosti při výběru technologie pro analýzu dat?

Existuje několik možností pro analýzu, vizualizace a vytváření sestav v Azure v závislosti na vašich potřebách:

Power BI

Power BI je sada nástrojů pro obchodní analýzy. Může se připojit ke stovkám zdrojů dat a lze ho použít k ad hoc analýze. Podívejte se na tento seznam aktuálně dostupných zdrojů dat. Pomocí Power BI Embedded můžete integrovat Power BI do vlastních aplikací bez nutnosti dalšího licencování.

Organizace mohou pomocí Power BI vytvářet sestavy a publikovat je v organizaci. Každý může vytvářet přizpůsobené řídicí panely s integrovanými zásady správného řízení a zabezpečením. Power BI používá Azure Active Directory (Azure AD) k ověřování uživatelů, kteří se přihlašují ke službě Power BI, a používá přihlašovací údaje Power BI pokaždé, když se uživatel pokusí o přístup k prostředkům, které vyžadují ověření.

Poznámkové bloky Jupyter

Poznámkové bloky Jupyter poskytují prostředí založené na prohlížeči, které datovým vědcům umožňuje vytvářet soubory poznámkových bloků, které obsahují kód Pythonu, Scala nebo R a text markdownu, což z něj dělá efektivní způsob spolupráce sdílením a dokumentací kódu a výsledků v jednom dokumentu.

Většina variant clusterů HDInsight, jako je Spark nebo Hadoop, je předem nakonfigurovaná s poznámkovými bloky Jupyter pro interakci s daty a odesílání úloh ke zpracování. V závislosti na typu clusteru HDInsight, který používáte, bude k dispozici jedno nebo více jader pro interpretaci a spuštění kódu. Například clustery Spark ve službě HDInsight poskytují jádra související se Sparkem, ze které si můžete vybrat a spouštět kód Pythonu nebo Scaly pomocí modulu Spark.

Poznámkové bloky Jupyter poskytují skvělé prostředí pro analýzu, vizualizaci a zpracování dat před vytvořením pokročilejších vizualizací pomocí nástroje BI nebo nástrojů pro vytváření sestav, jako je Power BI.

Poznámkové bloky Zeppelin

Další možností prostředí v prohlížeči jsou poznámkové bloky Zeppelin, podobně jako Jupyter ve funkcích. Některé clustery HDInsight jsou předem nakonfigurované s poznámkovými bloky Zeppelin. Pokud ale používáte cluster HDInsight Interactive Query (Hive LLAP), Zeppelin je v současné době vaší jedinou volbou pro poznámkový blok, který můžete použít ke spouštění interaktivních dotazů Hive. Navíc pokud používáte cluster HDInsightpřipojený k doméně, jsou poznámkové bloky Zeppelin jediným typem, který umožňuje přiřadit různá přihlášení uživatelů pro řízení přístupu k poznámkovým blokům a podkladovým tabulkám Hive.

Microsoft Azure Notebooky

Azure Notebooks je online služba založená na poznámkových blocích Jupyter, která umožňuje datovým vědcům vytvářet, spouštět a sdílet poznámkové bloky Jupyter v cloudových knihovnách. Azure Notebooks poskytuje prostředí pro spouštění pro Python 2, Python 3, F# a R a několik knihoven pro grafy pro vizualizaci dat, jako jsou ggplot, matplotlib, bokeh a seaborn.

Na rozdíl od poznámkových bloků Jupyter spuštěných v clusteru HDInsight, které jsou připojené k výchozímu účtu úložiště clusteru, Azure Notebooks neposkytuje žádná data. Data je nutné načíst různými způsoby, například stahováním dat z online zdroje, interakcí s objekty blob Azure nebo tabulkou Storage, připojením k databázi SQL nebo načítáním dat pomocí Průvodce kopírováním pro Azure Data Factory.

Klíčové výhody:

  • Bezplatná služba — nevyžaduje žádné předplatné Azure.
  • Není nutné instalovat Jupyter a podpůrné distribuce R nebo Pythonu — místně, stačí použít prohlížeč.
  • Správa vlastních online knihoven a přístup k nim z libovolného zařízení
  • Sdílejte své poznámkové bloky se spolupracovníky.

Požadavky:

  • Při offline režimu nebude možné získat přístup k poznámkovým blokům.
  • Omezené možnosti zpracování bezplatné služby poznámkového bloku nemusí stačit k trénování velkých nebo složitých modelů.

Klíčová kritéria výběru

Pokud chcete tyto volby zúžit, začněte zodpovězením těchto otázek:

  • Potřebujete se připojit k mnoha zdrojům dat a vytvořit centralizované místo pro vytváření sestav pro data rozložená v celé vaší doméně? Pokud ano, zvolte možnost, která vám umožní připojit se ke tisícům zdrojů dat.

  • Chcete vložit dynamické vizualizace na externí web nebo aplikaci? Pokud ano, zvolte možnost, která poskytuje možnosti vkládání.

  • Chcete navrhnout vizualizace a sestavy, když jsou offline? Pokud ano, zvolte možnost s možnostmi offline.

  • Potřebujete velký výpočetní výkon pro trénování velkých nebo složitých modelů AI nebo práci s velmi velkými datovými sadami? Pokud ano, zvolte možnost, která se může připojit ke clusteru s velkými daty.

Matice schopností

Následující tabulky shrnují hlavní rozdíly v možnostech.

Obecné možnosti

Schopnost Power BI Poznámkové bloky Jupyter Poznámkové bloky Zeppelin Microsoft Azure Notebooky
Připojení clusteru s velkými daty pro pokročilé zpracování Yes Yes Yes No
Spravovaná služba Yes Ano 1 Ano 1 Ano
Připojení na 100s zdrojů dat Yes No No No
Offline možnosti Ano 2 No No No
Možnosti vkládání Yes No No No
Automatická aktualizace dat Yes No No No
Přístup k mnoha open source balíčkům No Ano 3 Ano 3 Ano 4
Možnosti transformace a čištění dat Power Query, R 40 jazyků, včetně jazyků Python, R, Julia a Scala Více než 20 interpretů, včetně Pythonu, JDBC a R Python, F#, R
Ceny Bezplatná pro Power BI Desktop (vytváření), viz ceny možností hostování. Free Free Free
Spolupráce s více uživateli Ano Ano (prostřednictvím sdílení nebo s víceuživatelský server, jako je JupyterHub) Yes Ano (prostřednictvím sdílení)

[1] Pokud se používá jako součást spravovaného clusteru HDInsight.

[2] S použitím Power BI Desktop.

[2] V úložišti Maven můžete hledat balíčky, které přispěly komunitou.

[3] Balíčky Pythonu je možné nainstalovat pomocí pip nebo conda. Balíčky R je možné nainstalovat z cran nebo GitHub. Balíčky v jazyce F# je možné nainstalovat nuget.org pomocí správce závislostí Paket.