Настройка хранилища потоков данных для использования Azure Data Lake 2-го поколения

Данные, используемые с Power BI, хранятся во внутреннем хранилище, предоставляемом Power BI по умолчанию. С помощью интеграции потоков данных и Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения) вы можете хранить свои потоки данных в корпоративной учетной записи Azure Data Lake Storage 2-го поколения. Эта функция по сути позволяет "перенести собственное хранилище" в потоки данных Power BI и установить подключение на уровне клиента или рабочей области.

Причины использования рабочей области ADLS 2-го поколения или подключения клиента

После подключения потока данных Power BI настраивает и сохраняет ссылку, чтобы теперь можно было считывать и записывать данные в собственные ADLS 2-го поколения. Power BI хранит данные в формате общей модели данных (CDM), которая записывает метаданные о данных в дополнение к фактическим данным, созданным самим потоком данных. Эта функция разблокирует множество мощных возможностей и позволяет данным и связанным метаданным в формате CDM теперь обслуживать расширяемость, автоматизацию, мониторинг и сценарии резервного копирования. Когда вы делаете эти данные доступными и широко доступными в вашей среде, она позволяет демократизировать аналитические сведения и данные, созданные в вашей организации. Он также разблокирует возможность создания дополнительных решений с широким спектром сложности. Ваши решения могут быть осведомлены о пользовательских приложениях и решениях в Power Platform, Azure и доступных через экосистемы партнеров и независимых поставщиков программного обеспечения (ISV). Вы также можете создать приложение для чтения CSV-файла. Инженеры данных, специалисты по обработке и анализу данных теперь могут работать с, использовать и повторно использовать общий набор данных, которые курируются в ADLS 2-го поколения.

Существует два способа настройки хранилища ADLS 2-го поколения: можно использовать назначенную клиентом учетную запись ADLS 2-го поколения или использовать собственное хранилище ADLS 2-го поколения на уровне рабочей области.

Необходимые компоненты

  • Чтобы принести собственную учетную запись ADLS 2-го поколения, необходимо иметь разрешение владельца на уровне учетной записи хранения. Разрешения на уровне группы ресурсов или подписки не будут работать. Если вы являетесь администратором, вы по-прежнему должны назначить себе разрешение владельца. В настоящее время не поддерживаются учетные записи ADLS 2-го поколения служба хранилища за брандмауэром.

  • Учетная запись хранения должна быть создана с включенным иерархическим пространством имен (HNS ).

  • Учетная запись хранения должна быть создана в том же клиенте Microsoft Entra, что и клиент Power BI.

  • Пользователь должен иметь служба хранилища роль владельца данных BLOB-объектов, служба хранилища роль чтения данных BLOB-объектов и роль владельца на уровне учетной записи хранения (область должен быть этим ресурсом и не наследуется). Любые примененные изменения ролей могут занять несколько минут для синхронизации и должны синхронизироваться перед выполнением следующих действий в служба Power BI.

  • Регион клиента рабочей области Power BI должен совпадать с регионом учетной записи хранения.

  • Для защиты конечных точек требуется TLS (транспортная безопасность) версии 1.2 (или более поздней). Веб-браузеры и другие клиентские приложения, использующие версии TLS до TLS 1.2, не смогут подключаться.

  • Присоединение потока данных с ADLS 2-го поколения за многофакторной проверкой подлинности (MFA) не поддерживается.

  • Наконец, вы можете подключиться к любой adLS 2-го поколения с портала Администратор, но если вы подключаетесь непосредственно к рабочей области, перед подключением необходимо убедиться, что потоки данных в рабочей области отсутствуют.

Примечание.

Использование собственного хранилища (Azure Data Lake 2-го поколения) недоступно в служба Power BI для клиентов GCC для государственных организаций США. Дополнительные сведения о доступных функциях и которые не доступны, см. в статье о доступности функций Power BI для клиентов государственных организаций США.

В следующей таблице описаны разрешения для ADLS и Power BI, необходимые для ADLS 2-го поколения и Power BI:

Действие Разрешения ADLS Минимальные разрешения Power BI
Подключение ADLS 2-го поколения в клиент Power BI Ответственный Администратор Power BI
Подключение ADLS 2-го поколения в рабочую область Ответственный Администратор рабочей области
Создание потоков данных Power BI обратной записи в подключенную учетную запись ADLS Нет данных Участник рабочей области
Использование потока данных Power BI Нет данных Средство просмотра рабочей области

Подключение в Azure Data Lake 2-го поколения на уровне рабочей области

Перейдите в рабочую область, в которой нет потоков данных. Выберите параметры рабочей области. Перейдите на вкладку Подключение ions Azure и выберите раздел служба хранилища.

Screenshot of the Workspace settings pane on the Azure connections tab.

Параметр подключения Azure по умолчанию отображается, если администратор уже настроил учетную запись ADLS 2-го поколения. В этом случае у вас есть два варианта.

  • Используйте учетную запись ADLS 2-го поколения, выбрав поле " Использовать подключение Azure по умолчанию" или
  • Выберите Подключение в Azure, чтобы указать новую учетную запись служба хранилища Azure.

При выборе Подключение в Azure Power BI извлекает список подписок Azure, к которым у вас есть доступ. Заполните раскрывающийся список. Затем выберите действительную подписку Azure, группу ресурсов и учетную запись хранения с включенным параметром иерархического пространства имен, который является флагом ADLS 2-го поколения. Личная учетная запись, используемый для подключения к Azure, используется только один раз, чтобы задать начальное подключение и предоставить служба Power BI права учетной записи для чтения и записи данных, после чего исходная учетная запись пользователя больше не требуется для поддержания активности подключения.

Screenshot of the Settings window after choosing Connecting to Azure.

После выбора нажмите кнопку "Сохранить ", а теперь вы успешно подключили рабочую область к собственной учетной записи ADLS 2-го поколения. Power BI автоматически настраивает учетную запись хранения с необходимыми разрешениями и настраивает файловую систему Power BI, где будут записываться данные. На этом этапе все данные потока данных в этой рабочей области будут записываться непосредственно в эту файловую систему, которая может использоваться с другими службами Azure. Теперь у вас есть один источник для всех данных организации или отдела.

Конфигурация подключений Azure

Настройка подключений Azure — это необязательный параметр с дополнительными свойствами, которые можно задать при необходимости:

  • Хранилище уровня клиента, позволяющее задать значение по умолчанию и (или)
  • Хранилище уровня рабочей области, позволяющее указать подключение для каждой рабочей области.

При необходимости можно настроить хранилище на уровне клиента, если вы хотите использовать только централизованное озеро данных или использовать это хранилище по умолчанию. Мы не автоматически начинаем с использования по умолчанию, чтобы обеспечить гибкость в конфигурации, поэтому у вас есть гибкость для настройки рабочих областей, использующих это подключение, как показано в соответствии с вашими значениями. Если настроить учетную запись ADLS 2-го поколения, назначаемую клиентом, необходимо настроить каждую рабочую область для использования этого параметра по умолчанию.

При необходимости можно настроить разрешения хранилища на уровне рабочей области в качестве отдельного варианта, что обеспечивает полную гибкость настройки конкретной учетной записи ADLS 2-го поколения в рабочей области по рабочей области.

Чтобы свести к сводные данные, если разрешены разрешения хранилища на уровне клиента и хранилища на уровне рабочей области, администраторы рабочей области могут при необходимости использовать подключение ADLS по умолчанию или настроить другую учетную запись хранения отдельно от значения по умолчанию. Если хранилище клиента не задано, администраторы рабочей области могут дополнительно настроить учетные записи ADLS в рабочей области по рабочей области. Наконец, если выбрано хранилище на уровне клиента и хранилище уровня рабочей области не разрешено, администраторы рабочей области могут дополнительно настроить потоки данных для использования этого подключения.

Структура и формат подключений к рабочей области ADLS 2-го поколения

В учетной записи хранения ADLS 2-го поколения все потоки данных хранятся в контейнере powerbi файловой системы.

Структура контейнера PowerBI выглядит следующим образом: <workspace name>/<dataflow name>/model.json<workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> и<workspace name>/<dataflow name>/<table name>/<tablesnapshots>

Расположение, в котором потоки данных хранят данные в иерархии папок для ADLS 2-го поколения, совпадают с тем, находится ли рабочая область в общей емкости или емкости Premium.

В следующем примере используется таблица Orders примера Odata Northwind.

Screenshot of the file explorer showing an example using the Orders table of the Northwind Odata sample.

На предыдущем рисунке:

  • Model.json — это последняя версия потока данных.
  • Моментальные снимки model.json.являются всеми предыдущими версиями потока данных. Этот журнал полезен, если вам нужна предыдущая версия mashup или добавочные параметры.
  • Имя таблицы — это папка, содержащая полученные данные после завершения обновления потока данных.

Мы записываем только эту учетную запись хранения и не удаляем данные. Так что даже после отключения мы не удаляем из учетной записи ADLS, поэтому все файлы, упоминание в предыдущем списке, по-прежнему хранятся.

Примечание.

Потоки данных позволяют связывать или ссылаться на таблицы в других потоках данных. В таких потоках данных файл model.json может ссылаться на другой файл model.json другого потока данных в той же или другой рабочей области.

Перемещение файлов между учетными записями хранения ADLS 2-го поколения

При перемещении потока данных из одной учетной записи хранения ADLS 2-го поколения в другую необходимо убедиться, что пути в файле model.json обновляются, чтобы отразить новое расположение. Это связано с тем, что файл model.json содержит путь к потоку данных и пути к данным. Если пути не обновляются, поток данных не сможет найти данные и вызвать ошибки разрешений. Чтобы обновить пути, выполните следующие действия.

  • Откройте файл model.json в текстовом редакторе.
  • Найдите URL-адрес учетной записи хранения и замените его новым URL-адресом учетной записи хранения.
  • Сохраните файл.
  • Перезаписать существующий файл model.json в учетной записи хранения ADLS 2-го поколения.

Расширяемость подключений рабочей области ADLS 2-го поколения

Если вы подключаете ADLS 2-го поколения к Power BI, вы можете выполнить это действие на уровне рабочей области или клиента. Убедитесь, что у вас есть правильный уровень доступа. Дополнительные сведения см. в разделе "Предварительные требования".

Структура хранилища соответствует формату common Data Model. Дополнительные сведения о структуре хранилища и CDM см. в статье "Что такое структура хранилища для аналитических потоков данных" и использование общей модели данных для оптимизации Azure Data Lake Storage 2-го поколения.

После правильной настройки данные и метаданные в элементе управления. Многие приложения знают о CDM и данные можно расширить с помощью Azure, PowerApps и PowerAutomate. Вы также можете использовать сторонние экосистемы, соответствующие формату или считывая необработанные данные.

Отключение Azure Data Lake 2-го поколения от рабочей области или клиента

Чтобы удалить подключение на уровне рабочей области, сначала необходимо убедиться, что все потоки данных в рабочей области удаляются. После удаления всех потоков данных выберите "Отключить " в параметрах рабочей области. Это же относится к клиенту, но сначала необходимо убедиться, что все рабочие области также были отключены от учетной записи хранения клиента, прежде чем вы сможете отключиться на уровне клиента.

Отключение Azure Data Lake 2-го поколения

На портале Администратор в потоках данных можно отключить доступ для пользователей, использующих эту функцию, и запретить администраторам рабочей области использовать собственные служба хранилища Azure.

Возврат из Azure Data Lake 2-го поколения

После настройки хранилища потоков данных для использования Azure Data Lake 2-го поколения невозможно автоматически отменить изменения. Процесс возврата в управляемое Power BI хранилище вручную.

Чтобы отменить изменения миграцию, выполненную в 2-е поколение, необходимо удалить потоки данных и повторно создать их в одной рабочей области. Затем, так как мы не удаляем данные из ADLS 2-го поколения, перейдите к самому ресурсу и очистите данные. Это действие будет включать следующие шаги.

  1. Экспортируйте копию потока данных из Power BI. Или скопируйте файл model.json. Файл model.json хранится в ADLS.

  2. Удалите потоки данных.

  3. Отсоединение ADLS.

  4. Повторно создайте потоки данных с помощью импорта. Перед импортом необходимо удалить добавочные данные обновления (если применимо). Это действие можно сделать, удалив соответствующие разделы в файле model.json.

  5. Настройте политики добавочного обновления и повторного создания.

Подключение к данным с помощью соединителя ADLS 2-го поколения

В область этого документа описываются подключения потоков данных ADLS 2-го поколения, а не соединитель Power BI ADLS 2-го поколения. Работа с соединителем ADLS 2-го поколения является отдельным, возможно, аддитивным сценарием. Соединитель ADLS просто использует ADLS в качестве источника данных. Таким образом, использование Power Query Online для запроса к этим данным не должно быть в формате CDM, это может быть любой формат данных, который клиент хочет. Дополнительные сведения см. в Azure Data Lake Storage 2-го поколения.

Дополнительные сведения о потоках данных и Power BI см. в следующих статьях.