Wybieranie technologii analizy danych na platformie Azure

Celem większości rozwiązań typu big data jest udostępnienie szczegółowych informacji na temat danych przy użyciu analizy i raportowania. Może to obejmować wstępnie skonfigurowane raporty i wizualizacje lub interaktywną eksplorację danych.

Jakie są opcje wyboru technologii analizy danych?

Istnieje kilka opcji analizy, wizualizacji i raportowania na platformie Azure, w zależności od potrzeb:

Power BI

Power BI to zestaw narzędzi do analizy biznesowej. Może ona łączyć się z setkami źródeł danych i może być używana do analizy ad hoc. Zobacz tę listę aktualnie dostępnych źródeł danych. Użyj Power BI Embedded, aby zintegrować Power BI z własnymi aplikacjami bez konieczności dodatkowego licencjonowania.

Organizacje mogą używać Power BI do tworzenia raportów i publikowania ich w organizacji. Każdy może tworzyć spersonalizowane pulpity nawigacyjne z wbudowanym zarządzaniem i zabezpieczeniami. Power BI używa usługi Azure Active Directory (Azure AD) do uwierzytelniania użytkowników, którzy logują się do usługi Power BI, i używa poświadczeń logowania usługi Power BI za każdym razem, gdy użytkownik próbuje uzyskać dostęp do zasobów, które wymagają uwierzytelniania.

Notesy programu Jupyter

Notesy Jupyter Notebook zapewniają opartą na przeglądarce powłokę, która umożliwia badaczom danych tworzenie plików notesów zawierających kod Języka Python, Scala lub R i tekst markdown, dzięki czemu można efektywnie współpracować dzięki udostępnianiu i dokumentowaniu kodu oraz tworzeniu wyników w jednym dokumencie.

Większość różnych klastrów usługi HDInsight, takich jak Spark lub Hadoop, jest wstępnie skonfigurowana za pomocą notesów Jupyter do interakcji z danymi i przesyłania zadań do przetworzenia. W zależności od typu klastra usługi HDInsight zostanie podane co najmniej jedno jądro do interpretowania i uruchamiania kodu. Na przykład klastry Spark w umacie HDInsight zapewniają jądra powiązane z platformą Spark, które można wybrać do wykonania kodu w języku Python lub Scala przy użyciu aparatu Spark.

Notesy Jupyter zapewniają doskonałe środowisko do analizowania, wizualizowania i przetwarzania danych przed tworzeniem bardziej zaawansowanych wizualizacji za pomocą narzędzia do analizy danych/raportowania, takiego jak Power BI.

Notesy Zeppelin

Notesy Zeppelin są kolejną opcją dla powłoki opartej na przeglądarce, podobnie jak w programie Jupyter w funkcjonalności. Niektóre klastry usługi HDInsight są wstępnie skonfigurowane z notesami Zeppelin. Jeśli jednak używasz klastra usługi HDInsight Interactive Query (Hive LLAP), zeppelin jest obecnie jedynym wyborem notesu, który umożliwia uruchamianie interakcyjnych zapytań Hive. Ponadto, jeśli używasz przyłączony do domeny klaster usługi HDInsight,notesy Zeppelin są jedynym typem, który umożliwia przypisywanie różnych identyfikatorów logowania użytkowników w celu kontrolowania dostępu do notesów i bazowych tabel programu Hive.

Microsoft Azure notesów

Azure Notebooks to usługa oparta na notesach Jupyter Notebooks w trybie online, która umożliwia badaczom danych tworzenie, uruchamianie i udostępnianie notesów Jupyter Notebook w bibliotekach opartych na chmurze. Azure Notebooks udostępnia środowiska wykonawcze dla języka Python 2, Python 3, F# i R oraz udostępnia kilka bibliotek wykresów do wizualizacji danych, takich jak ggplot, matplotlib, bokeh i seaborn.

W przeciwieństwie do notesów Jupyter uruchomionych w klastrze usługi HDInsight, które są połączone z domyślnym kontem magazynu klastra, Azure Notebooks nie dostarcza żadnych danych. Dane należy ładować na różne sposoby, na przykład pobierając dane ze źródła online, komunikując się z usługami Azure Blobs lub Table Storage, łącząc się z bazą danych programu SQL lub ładując dane za pomocą Kreatora kopiowania na Azure Data Factory.

Najważniejsze korzyści:

  • Bezpłatna usługa — nie jest wymagana subskrypcja platformy Azure.
  • Nie trzeba instalować oprogramowania Jupyter i lokalnej obsługi dystrybucji języka R lub Python — wystarczy użyć przeglądarki.
  • Zarządzanie własnymi bibliotekami online i uzyskiwanie do nich dostępu z dowolnego urządzenia.
  • Udostępnianie notesów współpracownikom.

Zagadnienia do rozważenia:

  • Nie będzie można uzyskać dostępu do notesów w trybie offline.
  • Ograniczone możliwości przetwarzania bezpłatnej usługi notesu mogą nie być wystarczające do trenowania dużych lub złożonych modeli.

Kryteria wyboru klucza

Aby zawęzić wybór, zacznij od odpowiedzi na następujące pytania:

  • Czy musisz nawiązać połączenie z wieloma źródłami danych, zapewniając scentralizowane miejsce do tworzenia raportów dla danych rozrzuowanych w całej domenie? Jeśli tak, wybierz opcję umożliwiającą łączenie się ze źródłami danych z tysięcy.

  • Czy chcesz osadzać dynamiczne wizualizacje w zewnętrznej witrynie internetowej lub aplikacji? Jeśli tak, wybierz opcję, która zapewnia możliwości osadzania.

  • Czy chcesz projektować wizualizacje i raporty w trybie offline? Jeśli tak, wybierz opcję z możliwościami trybu offline.

  • Czy potrzebujesz dużej mocy obliczeniowej do trenowania dużych lub złożonych modeli AI, czy pracy z bardzo dużymi zestawami danych? Jeśli tak, wybierz opcję, która może połączyć się z klastrem danych big data.

Macierz możliwości

W poniższych tabelach przedstawiono podsumowanie najważniejszych różnic w możliwościach.

Możliwości ogólne

Możliwość Power BI Notesy programu Jupyter Notesy Zeppelin Microsoft Azure notesów
Połączenie do klastra danych big data w celu zaawansowanego przetwarzania Tak Tak Tak Nie
Usługa zarządzana Tak Tak 1 Tak 1 Tak
Połączenie do 100 źródeł danych Tak Nie Nie Nie
Możliwości w trybie offline Tak 2 Nie Nie Nie
Możliwości osadzania Tak Nie Nie Nie
Automatyczne odświeżanie danych Tak Nie Nie Nie
Dostęp do wielu open source pakietów Nie Tak 3 Tak 3 Tak 4
Opcje przekształcania/czyszczenia danych Power Query, R 40 języków, w tym Python, R, Julia i Scala Ponad 20 interpreterów, w tym Python, JDBC i R Python, F#, R
Cennik Bezpłatna Power BI Desktop (tworzenie) zobacz cennik opcji hostingu Bezpłatna Bezpłatna Bezpłatna
Współpraca z wieloma użytkownikami Tak Tak (za pośrednictwem udostępniania lub serwera z wieloma użytkownikami, takiego jak JupyterHub) Tak Tak (za pośrednictwem udostępniania)

[1] Gdy jest używany jako część zarządzanego klastra usługi HDInsight.

[2] Z użyciem Power BI Desktop.

[2] Możesz wyszukać w repozytorium Maven pakiety współtwłaścicieli społeczności.

[3] Pakiety języka Python można zainstalować przy użyciu narzędzia pip lub conda. Pakiety języka R można instalować z usług CRAN lub GitHub. Pakiety w F# można instalować za pośrednictwem nuget.org pomocą menedżera zależności Paket.