Выбор технологии аналитики данных и отчетов в Azure

Большинство решений по обработке больших данных предназначены для анализа и составления отчетов, что позволяет получить важную информацию. Это могут быть готовые отчеты и визуализации или средства интерактивного просмотра данных.

Варианты при выборе технологии для анализа данных

В Azure есть несколько предложений для анализа, визуализаций и отчетов. Вы можете выбрать вариант, который соответствует вашим требованиям:

Power BI

Power BI — это набор средств для бизнес-аналитики. Их можно подключить к сотням источников данных и использовать для ad-hoc-анализа. В этом списке перечислены поддерживаемые в настоящее время источники данных. Интегрируйте Power BI в пользовательские приложения при помощи Power BI Embedded. Для этого не требуются дополнительные лицензии.

В организациях можно использовать Power BI для создания отчетов и их публикации в организации. Все пользователи могут создавать панели мониторинга и настраивать их в соответствии со своими потребностями. В панели встроены функции защиты и управления. Power BI использует идентификатор Microsoft Entra для проверки подлинности пользователей, которые входят в служба Power BI, и используют учетные данные входа Power BI, когда пользователь пытается получить доступ к ресурсам, которым требуется проверка подлинности.

Jupyter Notebook

Записные книжки Jupyter предоставляют браузерную оболочку, которая позволяет специалистами по обработке и анализу данных создавать файлы записных книжек с кодом Python, Scala или R и текстом разметки. Это очень эффективное средство, которое позволяет совместно работать с кодом, а также документировать код и результаты выполнения в одном документе.

Большинство типов кластеров HDInsight, например Spark и Hadoop, поставляются с предварительно настроенными записными книжками Jupyter для взаимодействия с данными и отправки заданий на обработку. В зависимости от типа используемого кластера HDInsight, для интерпретации и выполнения кода вам будет предоставлено одно или несколько ядер. Например, кластеры Spark на HDInsight предоставляют ядра, связанные со Spark. Их можно назначить для выполнения кода Python или Scala с использованием платформы Spark.

Записные книжки Jupyter предоставляют удобную среду для анализа, визуализации и обработки данных перед созданием более сложных визуализаций в средствах бизнес-аналитики и создания отчетов, таких как Power BI.

записные книжки Zeppelin;

Записные книжки Zeppelin — это еще один вариант браузерной оболочки, функциональные возможности которой аналогичны Jupiter. Некоторые кластеры HDInsight предоставляются с предварительно настроенными записными книжками Zeppelin. Если вы используете кластер HDInsight Interactive Query (Hive LLAP), единственным вариантом записной книжки, который можно использовать для интерактивных запросов Hive, сейчас является Zeppelin. Кроме того, если вы используете присоединенный к домену кластер HDInsight, Zeppelin является единственным типом записной книжки, который позволяет назначить разные имена входа для управления доступом к записным книжкам и базовым таблицам Hive.

Записные книжки Jupyter в VS Code

VS Code — это бесплатный редактор кода и платформа разработки, которую можно использовать локально или подключено к удаленным вычислениям. В сочетании с расширением Jupyter он предлагает полную среду для разработки Jupyter, которая может быть улучшена с помощью дополнительных расширений языка. Если вы хотите лучший в классе, бесплатный интерфейс Jupyter с возможностью использования вычислительных ресурсов, это отличный вариант. С помощью VS Code можно разрабатывать и запускать записные книжки для удаленных и контейнеров. Чтобы упростить переход из записных книжек Azure, мы сделали образ контейнера доступным, чтобы его можно было использовать с VS Code.

Jupyter (ранее IPython Notebook) — это проект с открытым исходным кодом, который позволяет легко объединить текст Markdown и исполняемый исходный код Python на одном холсте, называемом записной книжкой. Visual Studio Code поддерживает работу с Jupyter Notebook в собственном коде и с помощью файлов кода Python.

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

  • Нужно ли вам подключаться к нескольким источникам данных и создавать централизованное расположение для отчетов по данным из разных расположений в домене? Если нужно, то выберите вариант, который позволяет подключаться к сотням источников данных.

  • Нужно ли вам внедрять динамические визуализации в веб-сайт или приложение стороннего производителя? Если да, то выберите вариант с возможностями внедрения.

  • Нужно ли вам создавать визуализации и (или) отчеты в автономном режиме? Если да, то выберите вариант с возможностями автономной работы.

  • Нужны ли вам большие вычислительные мощности для обучения больших или сложных моделей искусственного интеллекта или для работы с очень большими наборами данных? Если да, то выберите вариант с поддержкой подключений к кластерам больших данных.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Общие возможности

Возможность Power BI Jupyter Notebook записные книжки Zeppelin; Записные книжки Jupyter в VS Code
Подключение к кластеру больших данных для дополнительной обработки Да Да Да Нет
Управляемая служба Да Да 1 Да 1 Да
Подключение к сотням источников данных Да No No No
Возможности автономной работы Да 2 No No No
Возможности встраивания Да No No No
Автоматическое обновление данных Да No No No
Доступ к множеству пакетов с открытым исходным кодом No Да 3 Да 3 Да 4
Параметры преобразования и очистки данных Power Query, R 40 языков, включая Python, R, Julia и Scala Более 20 интерпретаторов, включая Python, JDBC и R Python, F#, R
Цены Бесплатно для Power BI Desktop (разработка), варианты размещения перечислены на странице с ценами Бесплатно Бесплатно Бесплатно
Многопользовательский режим Да Да (через предоставление совместного доступа или с применением многопользовательского сервера, например JupyterHub) Да Да (через предоставление совместного доступа)

[1] Если используется в рамках управляемого кластера HDInsight.

[2] С помощью Power BI Desktop.

[2] В репозитории Maven вы найдете пакеты, предоставленные сообществом.

[3] Пакеты Python можно установить с помощью pip или conda. Пакеты R можно установить из CRAN или GitHub. Пакеты для языка F# можно установить с сайта nuget.org или при помощи диспетчера зависимостей Paket.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Следующие шаги