Что такое Обработка и анализ данных в Microsoft Fabric?

Microsoft Fabric предлагает Обработка и анализ данных возможности пользователям выполнять комплексные рабочие процессы обработки и анализа данных для обогащения данных и бизнес-аналитики. Вы можете выполнить широкий спектр действий в рамках всего процесса обработки и анализа данных, вплоть до изучения, подготовки и очистки данных до экспериментирования, моделирования, оценки моделей и обслуживания прогнозных аналитических сведений до отчетов бизнес-аналитики.

Пользователи Microsoft Fabric могут получить доступ к домашней странице Обработка и анализ данных. Оттуда они могут обнаруживать и получать доступ к различным соответствующим ресурсам. Например, они могут создавать эксперименты машинного обучения, модели и записные книжки. Они также могут импортировать существующие записные книжки на домашней странице Обработка и анализ данных.

Снимок экрана: домашняя страница для обработки и анализа данных.

Возможно, вы знаете, как работает типичный процесс обработки и анализа данных. Как известный процесс, большинство проектов машинного обучения следуют за ним.

На высоком уровне процесс включает следующие действия:

  • Формулировка и идея проблемы
  • Обнаружение и предварительная обработка данных
  • Экспериментирование и моделирование
  • Обогащение и эксплуатация
  • Получение аналитики

Схема процесса обработки и анализа данных.

В этой статье описываются возможности Microsoft Fabric Обработка и анализ данных с точки зрения процесса обработки и анализа данных. Для каждого шага процесса обработки и анализа данных в этой статье перечислены возможности Microsoft Fabric, которые могут помочь.

Формулировка и идея проблемы

Обработка и анализ данных пользователи в Microsoft Fabric работают на той же платформе, что и бизнес-пользователи и аналитики. Общий доступ к данным и совместная работа становятся более простыми в разных ролях в результате. Аналитики могут легко обмениваться отчетами и наборами данных Power BI с специалистами по обработке и анализу данных. Простота совместной работы между ролями в Microsoft Fabric упрощает передачу на этапе разработки проблем.

Обнаружение и предварительная обработка данных

Пользователи Microsoft Fabric могут взаимодействовать с данными в OneLake с помощью элемента Lakehouse. Lakehouse легко подключается к записной книжке для просмотра и взаимодействия с данными.

Пользователи могут легко считывать данные из Lakehouse непосредственно в кадр данных Pandas. Для изучения это позволяет легко считывать данные из OneLake.

Мощный набор инструментов доступен для конвейеров приема данных и оркестрации данных с конвейерами интеграции данных — встроенной частью Microsoft Fabric. Конвейеры данных легкой сборки могут получать доступ к данным и преобразовывать их в формат, который может использовать машинное обучение.

изучение данных

Важной частью процесса машинного обучения является понимание данных с помощью изучения и визуализации.

В зависимости от расположения хранилища данных Microsoft Fabric предлагает набор различных средств для изучения и подготовки данных для аналитики и машинного обучения. Записные книжки становятся одним из самых быстрых способов начать изучение данных.

Apache Spark и Python для подготовки данных

Microsoft Fabric предлагает возможности для преобразования, подготовки и изучения данных в большом масштабе. С помощью Spark пользователи могут использовать средства PySpark/Python, Scala и SparkR/SparklyR для предварительной обработки данных в масштабе. Мощные библиотеки визуализации с открытым кодом могут улучшить возможности изучения данных, чтобы лучше понять данные.

Wrangler для простой очистки данных

Интерфейс Microsoft Fabric Notebook добавил функцию для использования Data Wrangler, средства кода, который подготавливает данные и создает код Python. Благодаря этому можно легко ускорить емкие и простые задачи, например очистку данных, а также создавать повторяемость и автоматизацию с помощью созданного кода. Дополнительные сведения о Data Wrangler см. в разделе "Данные Wrangler" этого документа.

Моделирование экспериментов и машинного обучения

С помощью таких средств, как PySpark/Python, SparklyR/R, записные книжки могут обрабатывать обучение модели машинного обучения.

Алгоритмы и библиотеки машинного обучения могут помочь обучать модели машинного обучения. Средства управления библиотеками могут устанавливать эти библиотеки и алгоритмы. Поэтому пользователи могут использовать множество популярных библиотек машинного обучения для завершения обучения модели машинного обучения в Microsoft Fabric.

Кроме того, популярные библиотеки, такие как Scikit Learn, также могут разрабатывать модели.

Эксперименты MLflow и запуски могут отслеживать обучение модели машинного обучения. Microsoft Fabric предлагает встроенный интерфейс MLflow, с помощью которого пользователи могут взаимодействовать, регистрировать эксперименты и модели. Узнайте больше о том, как использовать MLflow для отслеживания экспериментов и управления моделями в Microsoft Fabric.

SynapseML

Библиотека с открытым кодом SynapseML (ранее известная как MMLSpark) с открытым исходным кодом, которую корпорация Майкрософт владеет и поддерживает, упрощает массово масштабируемое создание конвейера машинного обучения. Как экосистема инструментов расширяет платформу Apache Spark в нескольких новых направлениях. SynapseML объединяет несколько существующих платформ машинного обучения и новых алгоритмов Майкрософт в единый масштабируемый API. Библиотека SynapseML с открытым кодом включает в себя богатую экосистему средств машинного обучения для разработки прогнозных моделей, а также использование предварительно обученных моделей ИИ из служб ИИ Azure. Дополнительные сведения о SynapseML.

Обогащение и эксплуатация

Записные книжки могут обрабатывать пакетную оценку модели машинного обучения с помощью библиотек с открытым исходным кодом для прогнозирования или масштабируемой универсальной функции Spark Predict, которая поддерживает упакованные модели MLflow в реестре моделей Microsoft Fabric.

Получение аналитики

В Microsoft Fabric прогнозируемые значения можно легко записать в OneLake и легко использовать из отчетов Power BI с режимом Прямого озера Power BI. Это позволяет специалистам по обработке и анализу данных легко обмениваться результатами работы с заинтересованными лицами, а также упрощает эксплуатацию.

Записные книжки, содержащие пакетную оценку, можно запланировать запуск с помощью возможностей планирования записной книжки. Пакетная оценка также может быть запланирована в рамках действий конвейера данных или заданий Spark. Power BI автоматически получает последние прогнозы без необходимости загрузки или обновления данных благодаря режиму Direct Lake в Microsoft Fabric.

Внимание

Эта функция доступна в предварительной версии.

Специалисты по обработке и анализу данных и бизнес-аналитики проводят много времени, пытаясь понять, очистить и преобразовать данные, прежде чем они смогут начать любой значимый анализ. Бизнес-аналитики обычно работают с семантической моделью и кодируют свои знания о домене и бизнес-логику в меры Power BI. С другой стороны, специалисты по обработке и анализу данных могут работать с теми же данными, но обычно в другой среде кода или языке.

Семантическая связь (предварительная версия) позволяет специалистам по обработке и анализу данных установить связь между семантической моделью Power BI и Обработка и анализ данных Synapse в Microsoft Fabric с помощью библиотеки Python SemPy. SemPy упрощает аналитику данных путем записи и использования семантики данных, так как пользователи выполняют различные преобразования в семантических моделях. Используя семантику, специалисты по обработке и анализу данных могут:

  • избегайте необходимости повторной реализации бизнес-логики и знаний домена в коде.
  • простой доступ и использование мер Power BI в коде
  • используйте семантику для создания новых возможностей, таких как семантические функции
  • изучение и проверка функциональных зависимостей и связей между данными

С помощью SemPy организации могут ожидать следующего вида:

  • повышение производительности и ускорение совместной работы между командами, работающими в одном наборе данных.
  • повышение совместной работы между бизнес-аналитикой и командами искусственного интеллекта
  • снижение неоднозначности и более простая кривая обучения при подключении к новой модели или набору данных

Дополнительные сведения о семантической ссылке см. в разделе "Что такое семантическая ссылка (предварительная версия)?".