Руководство по принятию решений Microsoft Fabric: выбор хранилища данных

Используйте это справочное руководство и примеры сценариев, которые помогут вам выбрать хранилище данных для рабочих нагрузок Microsoft Fabric.

Свойства хранилища данных

Хранилище данных Lakehouse Power BI Datamart База данных KQL (Eventhouse)
Том данных Не ограничено Не ограничено До 100 ГБ Не ограничено
Тип данных структурированные Неструктурированные, полуструктурированные, структурированные структурированные Неструктурированные, полуструктурированные, структурированные
Основной пользователь разработчика Разработчик хранилища данных, инженер SQL Инженер данных, специалист по обработке и анализу данных Разработчик гражданина Специалист по обработке и анализу данных гражданина, инженер по обработке и анализу данных, специалист по обработке и анализу данных
Основной набор навыков разработчика SQL Spark(Scala, PySpark, Spark SQL, R) Нет кода, SQL Нет кода, KQL, SQL
Данные, упорядоченные по Базы данных, схемы и таблицы Папки и файлы, базы данных и таблицы База данных, таблицы, запросы Базы данных, схемы и таблицы
Операции чтения T-SQL, Spark (поддерживает чтение из таблиц с помощью сочетаний клавиш, пока не поддерживает доступ к представлениям, хранимым процедурам, вымыканиям и т. д.) Spark, T-SQL Spark, T-SQL, Power BI KQL, T-SQL, Spark, Power BI
Операции записи T-SQL Spark(Scala, PySpark, Spark SQL, R) Потоки данных, T-SQL KQL, Spark, экосистема соединителей
Транзакции с несколькими таблицами Да No No Да, для приема нескольких таблиц. См . политику обновления.
Основной интерфейс разработки Скрипты SQL Записные книжки Spark, определения заданий Spark Power BI Набор запросов KQL, база данных KQL
Безопасность Уровень объекта (таблица, представление, функция, хранимая процедура и т. д.), уровень столбца, уровень строки, DDL/DML, динамическое маскирование данных Уровень строк, уровень таблицы (при использовании T-SQL), нет для Spark Встроенный редактор RLS Безопасность на уровне строк
Доступ к данным с помощью сочетаний клавиш Да (косвенно через озеро) Да No Да
Может быть источником для сочетаний клавиш Да (таблицы) Да (файлы и таблицы) No Да
Запрос между элементами Да, запрос между таблицами lakehouse и склада Да, запрос между таблицами lakehouse и склада; запрос между lakehouses (включая сочетания клавиш с помощью Spark) No Да, запрос между базами данных KQL, lakehouses и хранилищами с сочетаниями клавиш
Расширенная аналитика Собственные элементы временных рядов, возможности полного геопространственного хранения и запроса
Расширенная поддержка форматирования Полное индексирование для бесплатных текстовых и полуструктурированных данных, таких как JSON
Задержка приема Прием в очереди, прием потоковой передачи имеет пару секунд задержки

Примечание.

Eventhouse — это рабочая область для нескольких баз данных KQL. База данных KQL общедоступна, в то время как Eventhouse находится в предварительной версии. Дополнительные сведения см. в обзоре Eventhouse (предварительная версия).

Сценарии

Ознакомьтесь с этими сценариями, чтобы помочь в выборе хранилища данных в Fabric.

Сценарий 1

Сьюзан, профессиональный разработчик, является новым для Microsoft Fabric. Они готовы приступить к очистке, моделированию и анализу данных, но необходимо решить создать хранилище данных или озеро. После просмотра сведений в предыдущей таблице основные точки принятия решений являются доступным набором навыков и потребностью в много табличных транзакциях.

Сьюзан провел много лет в создании хранилищ данных на реляционных ядрах СУБД и знаком с синтаксисом и функциональностью SQL. Думая о более крупной команде, основные потребители этих данных также квалифицированы с помощью аналитических средств SQL и SQL. Сьюзан решает использовать хранилище данных, что позволяет команде взаимодействовать в основном с T-SQL, а также разрешать пользователям Spark в организации получать доступ к данным.

Сценарий 2

Роб, инженер данных, должен хранить и моделировать несколько терабайт данных в Fabric. Команда имеет сочетание навыков PySpark и T-SQL. Большинство команд, выполняющих запросы T-SQL, являются потребителями, поэтому не требуется записывать инструкции INSERT, UPDATE или DELETE. Остальные разработчики комфортно работают в записных книжках, и так как данные хранятся в Delta, они могут взаимодействовать с аналогичным синтаксисом SQL.

Роб решает использовать lakehouse, который позволяет команде разработчиков данных использовать свои разнообразные навыки против данных, позволяя членам группы, которые высоко квалифицированы в T-SQL использовать данные.

Сценарий 3

Эш, разработчик гражданина, является разработчиком Power BI. Они знакомы с Excel, Power BI и Office. Им необходимо создать продукт данных для бизнес-подразделения. Они знают, что у них нет навыков для создания хранилища данных или озера, и они выглядят слишком много для своих потребностей и объемов данных. Они просматривают сведения в предыдущей таблице и видят, что основные точки принятия решений являются их собственными навыками и их потребность в самообслуживании, отсутствие возможностей кода и объем данных в размере 100 ГБ.

Эш работает с бизнес-аналитиками, знакомыми с Power BI и Microsoft Office, и знает, что у них уже есть подписка на емкость Premium. По мере того как они думают о своей более крупной команде, они понимают, что основные потребители этих данных могут быть аналитиками, знакомыми с безкода и аналитическими инструментами SQL. Эш решает использовать datamart Power BI, который позволяет команде быстро создавать возможности, используя интерфейс без кода. Запросы можно выполнять с помощью Power BI и T-SQL, а также разрешать пользователям Spark в организации также получать доступ к данным.

Сценарий 4

Daisy является бизнес-аналитиком, опытным с помощью Power BI для анализа узких мест цепочки поставок для крупной глобальной розничной сети. Им необходимо создать масштабируемое решение данных, которое может обрабатывать миллиарды строк данных и использовать для создания панелей мониторинга и отчетов, которые можно использовать для принятия бизнес-решений. Данные поступают из растений, поставщиков, грузоотправителей и других источников в различных структурированных, полуструктурированных и неструктурированных форматах.

Daisy решает использовать базу данных KQL из-за ее масштабируемости, быстрого реагирования, расширенных возможностей аналитики, включая анализ временных рядов, геопространственные функции и режим быстрого прямого запроса в Power BI. Запросы можно выполнять с помощью Power BI и KQL для сравнения текущих и предыдущих периодов, быстрого определения возникающих проблем или обеспечения геопространственного анализа наземных и морских маршрутов.