將資料流程儲存體設定為使用 Azure Data Lake Gen 2
根據預設,搭配 Power BI 使用的資料儲存在 Power BI 提供的內部儲存體中。 透過整合資料流程與 Azure Data Lake Storage Gen2 (ADLS Gen2),您可在組織的 Azure Data Lake Storage Gen2 帳戶中儲存資料流程。 這基本上可讓您「攜帶您自己的儲存體」來Power BI資料流程,並在租使用者或工作區層級建立連線。
使用 ADLS Gen 2 工作區或租使用者連線的原因
附加資料流程之後,Power BI設定並儲存參考,以便您現在可以將資料讀取和寫入您自己的 ADLS Gen 2。 Power BI會以 CDM 格式儲存資料,除了資料流程本身所產生的實際資料之外,還會擷取資料的相關中繼資料。 這可解除鎖定許多功能強大的功能,並讓 CDM 格式的資料和相關聯的中繼資料現在提供擴充性、自動化、監視和備份案例。 藉由在您自己的環境中提供此資料並廣泛存取,它可讓您將組織內建立的深入解析和資料大眾化。 它也可讓您建立進一步的解決方案,這些解決方案包括 CDM 感知 (,例如 Power Platform、Azure 中的自訂應用程式和解決方案,以及可透過合作夥伴和 ISV 生態系統取得的解決方案) ,或只能夠讀取 CSV。 您的資料工程師、資料科學家和分析師現在可以使用、使用及重複使用 ADLS Gen 2 中策劃的一組常見資料。
有兩種方式可以設定要使用的 ADLS Gen 2 存放區:您可以使用租使用者指派的 ADLS Gen 2 帳戶,或將自己的 ADLS Gen 2 存放區放在工作區層級。
必要條件
若要攜帶您自己的 ADLS Gen 2 帳戶,您必須擁有儲存體帳戶層的 擁有者 許可權。 資源群組或訂用帳戶層級的許可權 將無法 運作。 如果您是系統管理員,您仍然必須指派擁有 者 許可權。 目前不支援在防火牆後方儲存體帳戶的 ADLS Gen2。
儲存體帳戶必須在階層命名空間 (HNS) 已啟用的情況下才能建立。
儲存體帳戶必須建立在與Power BI租使用者相同的Azure Active Directory租使用者中。
使用者必須具有 Azure Blob 資料參與者角色,以及儲存體帳戶層級的擁有者角色。
Power BI工作區租使用者區域應該與儲存體帳戶區域相同。
需要 TLS (傳輸層安全性) 1.2 版 (或更新版本) ,才能保護您的端點。 網頁瀏覽器和其他使用 TLS 1.2 之前的 TLS 版本用戶端應用程式將無法連線。
不支援在多重要素驗證後附加具有 ADLS Gen 2 的資料流程, (MFA) 。
最後,您可以從系統管理入口網站連線到任何 ADLS Gen 2,但如果您直接連線到工作區,您必須先確定工作區中沒有資料流程再連線。
下表說明 ADLS 和 ADLS Gen 2 和 Power BI 所需的Power BI許可權:
動作 | ADLS 許可權 | 最低Power BI許可權 |
---|---|---|
連線 ADLS Gen 2 Power BI租使用者 | 擁有者 | Power BI 管理員 |
連線 ADLS Gen 2 至工作區 | 擁有者 | 工作區管理員 |
建立Power BI資料流程回寫至連接的 ADLS 帳戶 | 不適用 | 工作區參與者 |
取用Power BI資料流程 | 不適用 | 工作區檢視者 |
在工作區層級連線到 Azure Data Lake Gen 2
巡覽到沒有資料流程的工作區。 選取 [工作區設定]。 選取 [Azure 連線] 索引標籤,然後選取 [儲存體] 區段。
如果系統管理員已設定租使用者指派的 ADLS Gen 2 帳戶,則會顯示 [使用預設 Azure 連線 ] 選項。 您有兩個選擇:
- 選取名為 [ 使用預設 Azure 連線] 的方塊,以使用已設定的租使用者 ADLS Gen 2 帳戶,或
- 選取[連線至 Azure]以指向新的Azure 儲存體帳戶。
當您選取[連線至 Azure] 時,Power BI擷取您有權存取的 Azure 訂用帳戶清單。 填寫下拉式清單,然後選取已啟用階層命名空間選項的有效 Azure 訂用帳戶、資源群組和儲存體帳戶,也就是 ADLS Gen2 旗標。
選取之後,選取 [ 儲存 ],您現在已成功將工作區連線到您自己的 ADLS Gen2 帳戶。 Power BI會自動設定具有必要許可權的儲存體帳戶,並設定將寫入資料的Power BI檔案系統。 此時,此工作區內每個資料流程的資料都將會直接寫入此檔案系統,並可搭配其他 Azure 使用,為您所有的組織或部門資料建立單一來源。
瞭解組態
設定 Azure 連線是選擇性設定,具有可選擇性設定的其他屬性:
- 租使用者層級儲存體,可讓您設定預設值和/或
- 工作區層級儲存體,可讓您指定每個工作區的連線
如果您想要只使用集中式資料湖,或想要做為預設選項,您可以選擇性地設定租使用者層級儲存體。 我們不會自動開始使用預設值以允許設定中的彈性,因此您可以彈性地設定使用此連線的工作區, 如果您設定租使用者指派的 ADLS Gen 2 帳戶,您仍必須設定每個工作區以使用這個預設選項。
您可以選擇性地或另外將工作區層級的儲存體許可權設定為個別選項,以提供完整彈性,以依工作區依據工作區設定特定 ADLS Gen 2 帳戶。
總而言之,如果允許租使用者層級儲存體和工作區層級儲存體許可權,則工作區系統管理員可以選擇性地使用預設 ADLS 連線,或選擇設定與預設不同的另一個儲存體帳戶。 如果未設定租使用者儲存體,則工作區管理員可以選擇性地依工作區設定 ADLS 帳戶。 最後,如果已選取租使用者層級儲存體,且不允許工作區層級儲存體,則工作區管理員可以選擇性地設定其資料流程以使用此連線。
瞭解 ADLS Gen 2 工作區連線的結構和格式
在 ADLS Gen 2 儲存體帳戶中,所有資料流程都會儲存在檔案系統的 powerbi 容器中。
powerbi容器的結構看起來像這樣:<workspace name>/<dataflow name>/model.json <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots>
資料流程將資料儲存在 ADLS Gen 2 資料夾階層中的位置,取決於工作區位於共用容量或進階版容量。 下表顯示每個容量類型重新整理後的檔案結構。
進階容量 | 共用容量 |
---|---|
<workspace name>/<dataflow name>/<table name>/<tablesnapshots> |
<workspace name>/<dataflow name>/<table name>/<tablesnapshots> |
以下是使用 Northwind Odata 範例 Orders 資料表的範例。
在上圖中:
- model.json 是資料流程的最新版本。
- model.json.snapshots 是資料流程的所有舊版。 如果您需要舊版的混搭或累加設定,這會很有用。
- table.snapshots.csv是您從重新整理取得的資料。 這適用于累加式重新整理,也適用于因為資料大小而發生重新整理逾時問題的共用重新整理。 他們可以查看最新的快照集,以查看 csv 檔案中的資料量。
我們只會寫入此儲存體帳戶,且目前不會刪除資料。 這表示即使在中斷連結之後,我們也不會從 ADLS 帳戶中刪除,因此上述所有檔案仍會儲存。
注意
model.json 檔案可以參考另一個 model.json,也就是相同工作區中的另一個資料流程,或在另一個工作區的資料流程中。 model.json 參考table.snapshot.csv的唯一時間是累加式重新整理。
ADLS Gen 2 工作區連線的擴充性
如果您要將 ADLS Gen 2 連線至Power BI,您可以在工作區或租使用者層級執行此動作。 請確定您具有正確的存取層級。 在 必要條件中深入瞭解。
儲存體結構遵守 Common Data Model 格式。 若要深入瞭解儲存體結構和 CDM,請流覽什麼是分析資料流的儲存結構,以及通用資料模型和Azure Data Lake Storage Gen2。
正確設定之後,資料與中繼資料就會在您的控制項中。 許多應用程式都注意到 CDM,而且資料可以使用 Azure、PowerApps 和 PowerAutomate 來擴充,以及協力廠商生態系統,方法是符合格式或讀取原始資料。
從工作區或租用戶中斷連結 Azure Data Lake Gen 2
若要在工作區層級移除連線,您必須先確保工作區中的所有資料流程皆已刪除。 移除所有資料流程後,請選取工作區設定中的 [中斷連線]。 這同樣適用於租用戶,但您必須先確保所有工作區也都已經從租用戶的儲存體帳戶中斷連線,才能在租用戶層級中斷連線。
停用 Azure Data Lake Gen 2
在管理入口網站中的 [資料流程] 下方,您可停用使用者存取此功能,也可以不允許工作區系統管理員帶入自己的 Azure 儲存體。
從 Azure Data Lake Gen 2 還原
一旦資料流程儲存體設定為使用 Azure Data Lake Gen 2,就無法自動還原。 要返回Power BI受控儲存體的程式是手動的。
若要還原您對 Gen 2 所做的移轉,您必須刪除資料流程,並在相同的工作區中重新建立它們。 然後,因為我們不會從 ADLS Gen 2 刪除資料,請移至資源本身並清除資料。 這牽涉到下列步驟。
從Power BI匯出資料流程的複本。 或者,複製 model.json 檔案。 model.json 檔案會儲存在 ADLS 中。
刪除資料流程。
卸離 ADLS。
使用匯入重新建立資料流程。 請注意,如果適用) 必須在匯入之前刪除累加式重新整理資料 (。 這可以藉由刪除 model.json 檔案中的相關分割區來完成。
設定重新整理/重新建立累加式重新整理原則。
使用 ADLS Gen 2 連接器連線到資料
本檔的範圍描述 ADLS Gen 2 資料流程連線,而不是Power BI ADLS Gen 2 連接器。 使用 ADLS Gen 2 連接器是個別的可能加法案例。 ADLS 連接器只會使用 ADLS 作為資料來源。 這表示使用 PQO 來查詢該資料不需要採用 CDM 格式,它可以是客戶想要的任何資料格式。 若要深入瞭解此案例,請流覽使用 Power BI 分析Azure Data Lake Storage Gen2中的資料。
後續步驟
下列文章提供資料流程和 Power BI 的詳細資訊: