Выбор технологии анализа данных в Azure

Большинство решений по обработке больших данных предназначены для анализа и составления отчетов, что позволяет получить важную информацию. Это могут быть готовые отчеты и визуализации или средства интерактивного просмотра данных.

Варианты при выборе технологии для анализа данных

В Azure есть несколько предложений для анализа, визуализаций и отчетов. Вы можете выбрать вариант, который соответствует вашим требованиям:

Power BI

Power BI — это набор средств для бизнес-аналитики. Их можно подключить к сотням источников данных и использовать для ad-hoc-анализа. В этом списке перечислены поддерживаемые в настоящее время источники данных. Интегрируйте Power BI в пользовательские приложения при помощи Power BI Embedded. Для этого не требуются дополнительные лицензии.

В организациях можно использовать Power BI для создания отчетов и их публикации в организации. Все пользователи могут создавать панели мониторинга и настраивать их в соответствии со своими потребностями. В панели встроены функции защиты и управления. Для аутентификации пользователей, входящих в службу Power BI, используется Azure Active Directory (Azure AD). При каждом обращении пользователя к ресурсам, требующим аутентификации, применяются учетные данные входа Power BI.

Jupyter Notebook

Записные книжки Jupyter предоставляют браузерную оболочку, которая позволяет специалистами по обработке и анализу данных создавать файлы записных книжек с кодом Python, Scala или R и текстом разметки. Это очень эффективное средство, которое позволяет совместно работать с кодом, а также документировать код и результаты выполнения в одном документе.

Большинство типов кластеров HDInsight, например Spark и Hadoop, поставляются с предварительно настроенными записными книжками Jupyter для взаимодействия с данными и отправки заданий на обработку. В зависимости от типа используемого кластера HDInsight, для интерпретации и выполнения кода вам будет предоставлено одно или несколько ядер. Например, кластеры Spark на HDInsight предоставляют ядра, связанные со Spark. Их можно назначить для выполнения кода Python или Scala с использованием платформы Spark.

Записные книжки Jupyter предоставляют удобную среду для анализа, визуализации и обработки данных перед созданием более сложных визуализаций в средствах бизнес-аналитики и создания отчетов, таких как Power BI.

Записные книжки Zeppelin

Записные книжки Zeppelin — это еще один вариант браузерной оболочки, функциональные возможности которой аналогичны Jupiter. Некоторые кластеры HDInsight предоставляются с предварительно настроенными записными книжками Zeppelin. Если вы используете кластер HDInsight Interactive Query (Hive LLAP), единственным вариантом записной книжки, который можно использовать для интерактивных запросов Hive, сейчас является Zeppelin. Кроме того, если вы используете присоединенный к домену кластер HDInsight, Zeppelin является единственным типом записной книжки, который позволяет назначить разные имена входа для управления доступом к записным книжкам и базовым таблицам Hive.

Служба записных книжек Microsoft Azure

Служба записных книжек Azure — это сетевое решение на основе записных книжек Jupyter, которое позволяет специалистам по обработке и анализу данных создавать и запускать книжки Jupyter, а также совместно работать с ними в облачных библиотеках. Служба записных книжек Azure предоставляет среды выполнения Python 2, Python 3, F # и R, а также несколько библиотек создания диаграмм для визуализации данных, например ggplot, matplotlib, bokeh и seaborn.

В отличие от записных книжек Jupyter в кластере HDInsight, которые подключаются к учетной записи хранения по умолчанию для кластера, служба записных книжек Azure не предоставляют никаких данных. Эти данные можно загрузить любым из нескольких доступных способов, например скачать из онлайн-источника, извлечь из BLOB-объектов Azure, службы "Хранилище таблиц" или базы данных SQL либо же скопировать с помощью мастера копирования для службы "Фабрика данных Azure".

Основные преимущества:

  • Бесплатная служба — подписка Azure не требуется.
  • Не нужно устанавливать Jupyter и поддерживать дистрибутивы R или Python локально — просто используйте браузер.
  • Управление собственными сетевыми библиотеками и получение доступа к ним с любого устройства.
  • Предоставление общего доступа к записным книжкам участникам совместной работы.

Рекомендации:

  • Вы не сможете получить доступ к записным книжкам в автономном режиме.
  • Ограниченных возможностей обработки в бесплатной службе записных книжек может быть недостаточно для обучения больших или сложных моделей.

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

  • Нужно ли вам подключаться к нескольким источникам данных и создавать централизованное расположение для отчетов по данным из разных расположений в домене? Если нужно, то выберите вариант, который позволяет подключаться к сотням источников данных.

  • Вы хотите внедрить динамические визуализации во внешний веб-сайт или приложение? Если да, то выберите вариант с возможностями внедрения.

  • Нужно ли вам создавать визуализации и (или) отчеты в автономном режиме? Если да, то выберите вариант с возможностями автономной работы.

  • Нужны ли вам большие вычислительные мощности для обучения больших или сложных моделей искусственного интеллекта или для работы с очень большими наборами данных? Если да, то выберите вариант с поддержкой подключений к кластерам больших данных.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Общие возможности

Функция Power BI Jupyter Notebook Записные книжки Zeppelin Служба записных книжек Microsoft Azure
Подключение к кластеру больших данных для дополнительной обработки Да Да Да Нет
Управляемая служба Да Да 1 Да 1 Да
Подключение к сотням источников данных Да Нет Нет Нет
Возможности автономной работы Да 2 Нет Нет Нет
Возможности встраивания Да Нет Нет Нет
Автоматическое обновление данных Да Нет Нет Нет
Доступ к множеству пакетов с открытым исходным кодом Нет Да 3 Да 3 Да 4
Параметры преобразования и очистки данных Power Query, R 40 языков, включая Python, R, Julia и Scala Более 20 интерпретаторов, включая Python, JDBC и R Python, F#, R
Цены Бесплатно для Power BI Desktop (разработка), варианты размещения перечислены на странице с ценами Бесплатный Бесплатный Бесплатный
Многопользовательский режим Да Да (через предоставление совместного доступа или с применением многопользовательского сервера, например JupyterHub) Да Да (через предоставление совместного доступа)

[1] Если используется в рамках управляемого кластера HDInsight.

[2] С помощью Power BI Desktop.

[2] В репозитории Maven вы найдете пакеты, предоставленные сообществом.

[3] Пакеты Python можно установить с помощью pip или conda. Пакеты R можно установить из CRAN или GitHub. Пакеты для языка F# можно установить с сайта nuget.org или при помощи диспетчера зависимостей Paket.