Что такое хранение данных в Microsoft Fabric?

Область применения: конечная точка аналитики SQL и хранилище в Microsoft Fabric

Microsoft Fabric предоставляет клиентам единый продукт, который обращается к каждому аспекту своего пространства данных, предлагая полную, с поддержкой SaaS данные, аналитику и платформу ИИ, которая ориентирована на озеро и открыта. Основа Microsoft Fabric позволяет новичкам через опытного профессионала использовать базу данных, аналитику, обмен сообщениями, Интеграция данных и бизнес-аналитику с помощью полнофункциональных, простых в использовании, общих возможностей SaaS с Microsoft OneLake в качестве центрального элемента.

Опыт SaaS, ориентированный на озеро, созданный для любого уровня навыка

Microsoft Fabric представляет хранилище данных, ориентированное на озеро, созданное на основе распределенного обработчика распределенной обработки корпоративного класса, которое обеспечивает высокую производительность в отрасли при устранении необходимости в настройке и управлении. Благодаря простому использованию интерфейса SaaS, тесно интегрированного с Power BI для простого анализа и создания отчетов, хранилище в Microsoft Fabric объединяет мир озер данных и складов с целью значительно упростить инвестиции организаций в их аналитику. Рабочие нагрузки хранения данных получают преимущества от широких возможностей подсистемы SQL в открытом формате данных, что позволяет клиентам сосредоточиться на подготовке данных, анализе и отчетности по одной копии своих данных, хранящихся в Microsoft OneLake.

Хранилище построено для любого уровня навыков - от разработчика гражданина до профессионального разработчика, DBA или инженера данных. Широкий набор возможностей, встроенных в рабочую область Microsoft Fabric, позволяет клиентам сократить время до аналитических сведений, используя легко потребляемую и всегда подключенную семантику модели, интегрированную с Power BI в режиме DirectLake. Это обеспечивает высокую производительность в отрасли, которая гарантирует, что отчет клиента всегда содержит самые последние данные для анализа и отчетности. Запросы между базами данных можно использовать для быстрого и простого использования нескольких источников данных, охватывающих несколько баз данных для быстрого анализа и дублирования данных.

Виртуальные хранилища с запросами между базами данных

Microsoft Fabric предоставляет клиентам возможность создавать виртуальные хранилища, содержащие данные из практически любого источника с помощью сочетаний клавиш. Клиенты могут создавать виртуальное хранилище, создавая ярлыки для своих данных, где бы он ни находился. Виртуальное хранилище может состоять из данных OneLake, Azure Data Lake служба хранилища или любого другого облачного хранилища в пределах одной границы и без дублирования данных.

Просто разблокируйте значение из различных источников данных через богатство запросов между базами данных в Microsoft Fabric. Межбазовые запросы позволяют клиентам быстро и легко использовать несколько источников данных для быстрого анализа и без дублирования данных. Данные, хранящиеся в разных источниках, можно легко объединить, что позволяет клиентам предоставлять широкие аналитические сведения, которые ранее требовали значительных усилий от групп интеграции данных и инженеров.

Запросы между базами данных можно создавать с помощью редактора визуальных запросов, который предлагает путь без кода для аналитики по нескольким таблицам. Редактор SQL-запросов или другие знакомые средства, такие как SQL Server Management Studio (SSMS), также можно использовать для создания запросов между базами данных.

Управление автономными рабочими нагрузками

Склады в Microsoft Fabric используют ведущий в отрасли механизм обработки распределенных запросов, который предоставляет клиентам рабочие нагрузки, имеющие границу естественной изоляции. Нет ручки, чтобы повернуться с автономным выделением и отказаться от ресурсов, чтобы обеспечить лучшую производительность породы с автоматическим масштабированием и параллелизмом, встроенным в. Истинная изоляция достигается путем разделения рабочих нагрузок с разными характеристиками, что гарантирует, что задания ETL никогда не вмешиваются в их нерегламентированную аналитику и рабочие нагрузки отчетов.

Открытый формат для простого взаимодействия с обработчиком

Данные в хранилище хранятся в формате файла parquet и публикуются как Delta Lake Logs, что позволяет транзакциям ACID и взаимодействию между обработчиками, которые можно использовать с помощью других рабочих нагрузок Microsoft Fabric, таких как Spark, Pipelines, Power BI и Azure Data Обозреватель. Клиентам больше не нужно создавать несколько копий своих данных, чтобы специалисты по данным могли использовать различные наборы навыков. Инженеры данных, которые привыкли работать в Python, могут легко использовать те же данные, которые моделировались и обслуживались специалистом по хранилищу данных, который привык работать в SQL. Параллельно специалисты бизнес-аналитики могут быстро и легко использовать те же данные, чтобы создать широкий набор визуализаций в Power BI с производительностью записи и без дублирования данных.

Разделение хранилища и вычислений

Вычислительные ресурсы и хранилище разделены в хранилище, что позволяет клиентам масштабироваться практически мгновенно для удовлетворения требований своего бизнеса. Это позволяет нескольким вычислительным ядрам читать из любого поддерживаемого источника хранилища с надежными гарантиями безопасности и полной транзакционной гарантией ACID.

Простое прием, загрузка и преобразование в масштабе

Данные можно получать в хранилище через конвейеры, потоки данных, запросы между базами данных или команду COPY INTO. После приема данные можно анализировать несколькими бизнес-группами с помощью таких функций, как общий доступ и запрос между базами данных. Время получения аналитических сведений ускоряется с помощью полностью интегрированного интерфейса бизнес-аналитики с помощью графического моделирования данных, простого для использования веб-интерфейса для запроса в редакторе хранилища.

Элементы хранения данных в Microsoft Fabric

Существует два отдельных элемента хранения данных: конечная точка аналитики SQL в Lakehouse и хранилище.

Конечная точка аналитики SQL в Lakehouse

Конечная точка аналитики SQL — это хранилище, которое автоматически создается из Lakehouse в Microsoft Fabric. Клиент может перейти с представления Lakehouse (который поддерживает проектирование данных и Apache Spark) в представление "SQL" того же Lakehouse. Конечная точка аналитики SQL доступна только для чтения, и данные можно изменять только в представлении Lakehouse с помощью Spark.

Через конечную точку аналитики SQL в Lakehouse пользователь имеет подмножество команд SQL, которые могут определять и запрашивать объекты данных, но не управлять данными. В конечной точке аналитики SQL можно выполнить следующие действия:

  • Запросите таблицы, ссылающиеся на данные в папках Delta Lake в озере.
  • Создайте представления, встроенные tvfs и процедуры для инкапсулировать семантику и бизнес-логику в T-SQL.
  • Управление разрешениями для объектов.

В рабочей области Microsoft Fabric конечная точка аналитики SQL помечена как "конечная точка аналитики SQL" в столбце Type . Каждый Lakehouse имеет автоматическую конечную точку аналитики SQL, которую можно использовать с помощью знакомых средств SQL, таких как SQL Server Management Studio, Azure Data Studio, Редактор запросов Microsoft Fabric SQL.

Снимок экрана: тип конечной точки аналитики SQL в рабочей области.

Чтобы приступить к работе с конечной точкой аналитики SQL, ознакомьтесь с разделом "Лучше вместе: озеро и хранилище в Microsoft Fabric".

Synapse Data Warehouse

В рабочей области Microsoft Fabric хранилище данных Synapse или хранилище помечены как "Хранилище" в столбце "Тип ". Хранилище поддерживает транзакции, DDL и DML-запросы.

Снимок экрана: тип хранилища в рабочей области.

В отличие от конечной точки аналитики SQL, которая поддерживает только запросы только для чтения и создания представлений и ТВФ, хранилище имеет полную поддержку DDL транзакций и DML и создается клиентом. Хранилище заполняется одним из поддерживаемых методов приема данных, таких как COPY INTO, Pipelines, Dataflows или межбазовый прием данных, например CREATE TABLE AS SELECT (CTAS), INSERT.. SELECT или SELECT INTO.

Сведения о начале работы с хранилищем см. в статье "Создание хранилища в Microsoft Fabric".

Сравнение хранилища и конечной точки аналитики SQL в Lakehouse

В этом разделе описываются различия между конечной точкой хранилища и аналитики SQL в Microsoft Fabric.

Схема рабочей области Fabric для хранения данных, включая конечную точку аналитики SQL и хранилище.

Конечная точка аналитики SQL — это хранилище только для чтения, которое автоматически создается при создании из Lakehouse в Microsoft Fabric. Разностные таблицы, созданные с помощью Spark в Lakehouse, автоматически обнаруживаются в конечной точке аналитики SQL в виде таблиц. Конечная точка аналитики SQL позволяет инженерам данных создавать реляционный слой на основе физических данных в Lakehouse и предоставлять их средствам анализа и отчетности с помощью строка подключения SQL. Затем аналитики данных могут использовать T-SQL для доступа к данным Lakehouse с помощью хранилища данных Synapse. Используйте конечную точку аналитики SQL для разработки хранилища для потребностей бизнес-аналитики и обслуживания данных.

Хранилище данных Synapse или хранилище — это традиционное хранилище данных и поддерживает все возможности транзакций T-SQL, такие как корпоративное хранилище данных. В отличие от конечной точки аналитики SQL, где таблицы и данные автоматически создаются, вы полностью управляете созданием таблиц, загрузкой, преобразованием и запросом данных в хранилище данных с помощью портала Microsoft Fabric или команд T-SQL.

Дополнительные сведения о запросе данных в Microsoft Fabric см. в статье "Запрос конечной точки аналитики SQL" или хранилища в Microsoft Fabric.

Сравнение различных возможностей хранения

Чтобы лучше всего обслуживать варианты использования аналитики, вы можете воспользоваться различными возможностями. Как правило, хранилище можно рассматривать как супермножество всех других возможностей, обеспечивая синергистичное отношение между всеми другими предложениями аналитики, которые предоставляют T-SQL.

В структуре есть пользователи, которые могут потребоваться решить между хранилищем, Lakehouse и даже datamart Power BI.

Предложение Microsoft Fabric

Склад

Конечная точка аналитики SQL в Lakehouse

Datamart Power BI


Лицензирование

Fabric или Power BI Premium

Fabric или Power BI Premium

Только Power BI Premium


Основные возможности

В T-SQL поддерживаются полные хранилища данных с поддержкой транзакций.

Только чтение, созданная системой конечная точка аналитики SQL для Lakehouse для запросов и обслуживания T-SQL. Поддерживает аналитику таблиц Lakehouse Delta и папок Delta Lake, на которые ссылается ярлыки.

Хранение данных без кода и запросЫ T-SQL


Профиль разработчика

Разработчики SQL или разработчики граждан

Инженер данных или разработчики SQL

Только разработчик гражданина


Рекомендуемый вариант использования

  • Хранилище данных для корпоративного использования
  • Хранилище данных поддержке отдела, подразделения или самостоятельного использования
  • Структурированный анализ данных в T-SQL с таблицами, представлениями, процедурами и функциями и расширенной поддержкой SQL для бизнес-аналитики
  • Изучение и запрос разностных таблиц из lakehouse
  • Промежуточные данные и зона архивации для анализа
  • Архитектура medallion lakehouse с зонами для бронзового, серебряного и золотого анализа
  • Связывание с хранилищем для вариантов использования аналитики предприятия
  • Варианты использования хранилища небольших подразделений или подразделений
  • Варианты использования хранилища данных самообслуживания
  • Целевая зона для потоков данных Power BI и простая поддержка SQL для бизнес-аналитики

Интерфейс разработки

  • Редактор хранилища с полной поддержкой приема данных T-SQL, моделирования, разработки и запроса пользовательского интерфейса для приема данных, моделирования и запроса запросов
  • Поддержка чтения и записи для 1-го и 3-го стороннего инструментов
  • Конечная точка аналитики SQL Lakehouse с ограниченной поддержкой T-SQL для представлений, табличных функций и запросов SQL
  • Интерфейсы пользовательского интерфейса для моделирования и запроса
  • Ограниченная поддержка T-SQL для 1-го и 3-го стороннего инструментов
  • Редактор Datamart с интерфейсом и поддержкой запросов
  • Интерфейсы пользовательского интерфейса для приема данных, моделирования и запроса
  • Поддержка только для чтения для 1-го и 3-го стороннего инструментов

Возможности T-SQL

Полная поддержка DQL, DML и DDL T-SQL, полная поддержка транзакций

Full DQL, No DML, limited DDL T-SQL Support, например SQL Views and TVFs

Только полный DQL


Загрузка данных

SQL, конвейеры, потоки данных

Spark, конвейеры, потоки данных, сочетания клавиш

Только потоки данных


Поддержка разностной таблицы

Считывает и записывает разностные таблицы

Считывает разностные таблицы

Неприменимо


Уровень хранения

Формат открытых данных — delta

Формат открытых данных — delta

Неприменимо


Автоматически созданная схема в конечной точке аналитики SQL Lakehouse

Конечная точка аналитики SQL управляет автоматически созданными таблицами, чтобы пользователи рабочей области не могли изменять их. Пользователи могут обогатить модель базы данных, добавив собственные схемы SQL, представления, процедуры и другие объекты базы данных.

Для каждой таблицы Delta в Lakehouse конечная точка аналитики SQL автоматически создает одну таблицу.

Таблицы в конечной точке аналитики SQL создаются с задержкой. После создания или обновления папки или таблицы Delta Lake в озере таблица хранилища, ссылающаяся на данные озера, не будет немедленно создана или обновлена. Изменения будут применены в хранилище через 5–10 секунд.

Типы данных схемы автогенерированного типа для конечной точки аналитики SQL см. в разделе "Типы данных" в Microsoft Fabric.