Power BI 使用案例:進階數據準備
注意
本文構成Power BI實作規劃系列文章的一部分。 此系列主要著重於 Microsoft Fabric 內的 Power BI 體驗。 如需系列簡介,請參閱 Power BI 實作規劃。
數據準備(有時稱為 ETL,這是擷 取、轉換和載入)活動的縮略字,通常牽涉到大量工作。 收集、清理、結合和擴充數據所牽涉到的時間、技能及工作,取決於源數據的質量和結構。
在集中式數據準備中投入時間和精力有助於:
- 增強重複使用性,並從數據準備工作中獲得最大值。
- 改善為多個小組提供一致數據的能力。
- 降低其他內容建立者所需的工作層級。
- 達到規模和效能。
進 階數據準備 使用案例會 擴充自助數據準備 案例。 進階數據準備是跨各種小組和各種使用案例的多個使用者增加數據流重複使用。
當數據流輸出提供給多個語意模型(先前稱為數據集)建立者時,個別工作區會根據數據流用途組織,特別在組織中位於不同的小組時,會很有説明。 當建立和管理數據流的人員與取用數據流的人員不同時,個別工作區也有助於管理安全性角色。
注意
進階數據準備案例是數據準備案例的第二個案例。 此案例是以集中式數據流完成的工作為基礎,如自助數據準備案例中所述。
進階數據準備案例是其中一個自助 BI 案例。 不過,集中式小組成員可以使用類似受控自助 BI 案例中所述的技術。 如需自助案例的完整清單,請參閱 Power BI 使用案例 一文。
為了簡潔起見,本文並未涵蓋內容共同作業和傳遞案例主題中所述的某些層面。 如需完整的涵蓋範圍,請先閱讀這些文章。
案例圖表
提示
如果您不熟悉自助數據準備使用案例,建議您檢閱。 進階自助數據準備案例是以該案例為基礎。
此進階數據準備案例的重點在於:
- 根據目的使用不同的數據流:預備、轉換或最終。 我們建議使用 可組合的建置組塊 ,以各種組合取得更大的重複使用,以支援特定的使用者需求。 本文稍後會說明可撰寫的建置組塊。
- 使用支持數據流建立者或數據流取用者的不同工作區。 取用數據流的數據模型工具可能位於不同的小組和/或有不同的使用案例。
- 使用鏈接數據表(也稱為 連結實體)、計算數據表(也稱為 計算實體),以及增強型計算引擎。
注意
有時候會交替使用語 意模型 和數據 模型 。 一般而言,從 Power BI 服務 的觀點來看,它稱為語意模型。 從開發觀點來看,它稱為 數據模型 (或 簡稱模型 )。 在本文中,這兩個詞彙都有相同的意義。 同樣地,語意模型建立者和數據模型工具具有相同的意義。
下圖描述支援進階數據準備案例的最常見用戶動作和 Power BI 元件的高階概觀。
提示
如果您想要將其內嵌在簡報、檔或部落格文章中,建議您下載案例圖表,或將其列印成牆面海報。 因為它是可調整的向量圖形 (SVG) 影像,因此您可以相應增加或減少,而不會遺失品質。
案例圖表描述下列使用者動作、工具和功能:
項目 | 說明 |
---|---|
數據流建立者會在數據流內開發數據表集合。 針對要重複使用的數據流,建立者屬於可跨組織界限的使用者(例如IT、企業BI或卓越中心)的集中式小組,這是常見的(但並非必要)。 | |
數據流會連線到來自一或多個數據源的數據。 | |
某些數據源可能需要內部部署數據網關或 VNet 閘道進行數據重新整理,例如位於私人組織網路內的數據源。 這些閘道用於在 Power Query Online 中撰寫數據流,以及重新整理數據流。 | |
所涉及的所有工作區都會將其授權模式設定為 Fabric 容量、進階版 容量、進階版 每位使用者或 Embedded。 這些授權模式允許跨工作區使用鏈接數據表和計算數據表,在此案例中是必要的。 | |
數據流建立者會使用 Power Query Online 來開發數據流,這是 以 Web 為基礎的 Power Query 版本。 | |
暫存數據流是在專用於集中管理數據流的工作區中建立。 暫存數據流會依原樣從來源複製原始數據。 若有的話,很少會套用轉換。 | |
轉換數據流(也稱為清理數據流)會在相同的工作區中建立。 它會使用 連結數據表 將數據源到暫存數據流。 計算數據表包含 準備、清理及重塑數據的轉換步驟。 | |
數據流建立者可以存取管理工作區中的內容,該工作區專用於集中管理數據流。 | |
有一或多個其他工作區可用來提供最終數據流的存取權,該數據流會將生產就緒的數據傳遞給數據模型。 | |
最終 數據流 會在數據模型工具可用的工作區中建立。 它會使用連結數據表將數據源到轉換數據流。 計算數據表(s) 代表已備妥的輸出,可讓獲授與工作區 查看器 角色的數據模型工具看到。 | |
語意模型建立者(誰取用數據流輸出)具有包含最終數據流輸出之工作區的查看器存取權。 數據流建立者也可以存取工作區中管理和發佈內容(未描述於案例圖表中)。 | |
語意模型建立者會在 Power BI Desktop中開發數據模型時,使用最終數據流 作為 數據源 。 準備好時,語意模型建立者會將包含數據模型的 Power BI Desktop 檔案 (.pbix) 發佈至 Power BI 服務 (案例圖中未描述)。 | |
網狀架構系統管理員會在 管理員 入口網站中管理設定。 | |
在 管理員 入口網站中,Power BI 系統管理員可以設定 Azure 連線,將數據流數據儲存在其 Azure Data Lake 儲存體 Gen2 (ADLS Gen2) 帳戶中。 設定 包括指派租用戶層級記憶體帳戶,以及啟用工作區層級記憶體許可權。 | |
根據預設,數據流會使用由 Power BI 服務 管理的內部記憶體來儲存數據。 或者,數據流的數據輸出可以儲存在組織的ADLS Gen2帳戶中。 | |
網狀架構系統管理員會在網狀架構入口網站中監督和監視活動。 |
重點
以下是強調進階數據準備案例的一些重點。
資料流程
數據流包含數據表集合(也稱為實體)。 每個數據表都是由查詢所定義,其中包含使用數據載入數據表所需的數據準備步驟。 建立數據流的所有工作都是在 Power Query Online 中完成。 您可以在多個產品中建立數據流,包括 Power Apps、Dynamics 365 Customer Insights 和 Power BI。
注意
您無法在 Power BI 服務 的個人工作區中建立數據流。
數據流的類型
使用 可組合建置組塊 是一種設計原則,可讓您管理、部署及保護系統元件,然後在各種組合中使用它們。 建立專用的模組化獨立數據流是最佳做法。 它們有助於達到數據重複使用和企業規模。 模組化數據流也更容易管理和測試。
案例圖表中會顯示三種類型的數據流:暫存數據流、轉換數據流和最終數據流。
暫存數據流
暫存數據流(有時稱為數據擷取數據流)會依原樣從來源複製原始數據。 使用最少的轉換擷取原始數據表示下游轉換數據流(如下所述)可以使用暫存數據流作為其來源。 此模組化在下列情況下很有用:
- 數據源的存取限制為縮小時間範圍和/或少數使用者。
- 需要時態一致性,以確保所有下游數據流(和相關語意模型)都提供同時從數據源擷取的數據。
- 由於來源系統限制或其支援分析查詢的能力,因此需要減少提交至數據源的查詢數目。
- 源數據的複本對於對帳程式和數據質量驗證很有用。
轉換數據流
轉換數據流(有時稱為清理的數據流)會從聯機到暫存數據流的鏈接數據表中,從其數據來源。 最佳做法是將轉換與數據擷取程式分開。
轉換數據流包含準備和重組數據所需的所有轉換步驟。 不過,仍著重於此層的可重複使用性,以確保數據流適用於多個使用案例和用途。
最終數據流
最終數據流代表備妥的輸出。 某些額外的轉換可能會根據使用案例和用途進行。 針對分析, 星型架構 數據表(維度或事實)是最終數據流的慣用設計。
授與工作區 查看器 角色的數據模型工具可以看到計算數據表。 下表的數據流數據表類型主題會說明此數據表類型。
注意
數據湖通常有 青銅、銀和金等區域。 這三種類型的數據流代表類似的設計模式。 若要做出最佳的數據架構決策,請思考誰將維護數據、預期的數據使用,以及人員存取數據所需的技能層級。
數據流的工作區
如果您要在單一工作區中建立所有數據流,則會大幅限制重複使用的程度。 使用單一工作區也會限制跨小組和/或針對不同使用案例支援多個使用者類型時可用的安全性選項。 我們建議使用 多個工作區。 當您需要從組織的各個區域支援自助建立者時,它們可提供更佳的彈性。
案例圖表中顯示的兩種工作區類型包括:
- 工作區 1: 它會儲存 集中管理的數據流 (有時稱為 後端工作區)。 它同時包含預備和轉換數據流,因為它們是由相同的人管理。 數據流建立者通常是來自集中式小組,例如IT、BI或卓越中心。 他們應該指派給工作區 管理員、 成員或 參與者 角色。
- 工作區 2: 它會儲存並傳遞 最終數據流輸出 給數據取用者(有時稱為 使用者工作區)。 語意模型建立者通常是自助分析師、進階使用者或公民數據工程師。 他們應該指派給工作區 查看器 角色,因為它們只需要 取用最終數據流的輸出 。 若要支援來自組織各個區域的語意模型建立者,您可以根據使用案例和安全性需求,建立許多工作區,例如此工作區。
提示
建議您檢閱支援語意模型建立者的方法,如自助數據準備使用案例中所述。 請務必瞭解語意模型建立者仍然可以在Power BI Desktop中使用Power Query的完整功能。 他們可以選擇新增查詢步驟,以進一步轉換數據流數據,或將數據流輸出與其他來源合併。
數據流數據表的類型
案例圖表會描述三種類型的數據流數據表(也稱為 實體)。
- 標準數據表: 查詢外部數據源,例如資料庫。 在案例圖中,標準數據表會在暫存數據流中描述。
- 鏈接數據表: 參考來自另一個數據流的數據表。 鏈接的數據表不會複製數據。 相反地,它允許針對多個用途重複使用標準數據表多次。 工作區檢視者看不到鏈接的數據表,因為它們繼承原始數據流的許可權。 在案例圖表中,鏈接的數據表會描述兩次:
- 在轉換數據流中,用於存取暫存數據流中的數據。
- 在轉換數據流中存取數據的最終數據流中。
- 計算數據表: 使用不同的數據流做為其來源來執行其他計算。 計算數據表允許自定義個別使用案例所需的輸出。 在案例圖表中,計算數據表會描述兩次:
- 在轉換數據流中,用於執行 一般轉換。
- 在傳遞輸出給語意模型建立者的最終數據流中。 由於計算數據表會再次保存數據(在數據流重新整理之後),因此數據模型化工具可以在最終數據流中存取計算數據表。 在此情況下,數據模型化工具應授與工作區 查看器 角色的存取權。
注意
有許多設計技術、模式和 最佳做法 ,可讓數據流從自助式流向企業就緒。 此外,工作區中已將其授權模式設定為 進階版或 進階版 容量的數據流可以受益於進階功能。 鏈接數據表和計算數據表(也稱為 實體)是兩個進階功能,對於增加數據流的重複使用性至關重要。
增強式計算引擎
增強型計算引擎是Power BI進階版提供的進階功能。
重要
本文有時是指 Power BI 進階版 或其容量訂用帳戶 (P SKU)。 請注意,Microsoft 目前正在合併購買選項,並淘汰每個容量 SKU 的 Power BI 進階版。 新的和現有的客戶應該考慮改為購買網狀架構容量訂用帳戶(F SKU)。
如需詳細資訊,請參閱 Power BI 進階版 授權和 Power BI 進階版 常見問題的重要更新。
增強型計算引擎可改善參考數據流之鏈接數據表(位於相同工作區內)的效能。 若要從增強型計算引擎獲得 最大好處 :
- 分割暫存和轉換數據流。
- 使用相同的工作區來儲存暫存和轉換數據流。
- 套用可在 查詢步驟中早期查詢折疊 的複雜作業。 將可折疊作業的優先順序有助於達到最佳重新整理效能。
- 使用 累加式重新整理 來減少重新整理持續時間和資源耗用量。
- 在開發階段早期且經常執行測試。
數據流和語意模型重新整理
數據流是語意模型的數據源。 在大部分情況下,涉及多個數據重新整理排程:每個數據流各一個,每個語意模型各一個。 或者,您可以使用從語意模型到數據流的 DirectQuery,這需要 Power BI 進階版 和增強型計算引擎(未在案例圖中描述)。
Azure Data Lake Storage Gen2
ADLS Gen2 帳戶是已啟用階層命名空間的特定 Azure 儲存體帳戶類型。 ADLS Gen2 具有 作業分析工作負載的效能、管理和安全性優勢 。 根據預設,Power BI 數據流會使用內部記憶體,這是由 Power BI 服務 管理的內建 Data Lake 帳戶。 或者,組織可以 連線到其組織中的 ADLS Gen2 帳戶,來攜帶自己的 Data Lake 。
以下是使用您自己的 Data Lake 的一些優點:
- 使用者(或進程)可以直接存取儲存在 Data Lake 中的數據流數據。 當數據流重複使用超出 Power BI 時,這很有説明。 例如,Azure Data Factory 可以存取數據流數據。
- 其他工具或系統可以管理 Data Lake 中的數據。 在此情況下,Power BI 可能會取用數據,而不是管理數據(未描述於案例圖表中)。
使用鏈接資料表或計算資料表時,請確定每個工作區都指派給相同的 ADLS Gen2 儲存器帳戶。
注意
ADLS Gen2 中的數據流數據會儲存在 Power BI 特定的容器內。 此容器描述於 自助數據準備 使用案例圖表中。
管理員 入口網站設定
管理員 入口網站中有兩個重要的設定:
- Azure 連線:管理員 入口網站的 [Azure 連線] 區段包含設定 ADLS Gen2 帳戶連線的設定。 此設定可讓Power BI系統管理員 將自己的Data Lake 帶入數據流。 設定之後, 工作區就可以使用該 Data Lake 帳戶 進行記憶體。
- 工作區層級記憶體: Power BI 系統管理員可以設定工作區層級的記憶體許可權。 啟用時,此設定可讓 工作區系統管理員將不同的記憶體帳戶用於租用戶層級設定的不同記憶體帳戶 。 啟用此設定對於在 Azure 中管理自己 Data Lake 的分散式業務單位很有説明。
閘道安裝
一般而言, 內部部署數據閘道 需要連線到位於私人組織網路或虛擬網路內的數據源。
資料閘道在:
- 在 Power Query Online 中撰寫數據流,以連線到私人組織數據。
- 重新整理連線至私人組織數據的數據流。
系統監督
活動記錄檔會記錄 Power BI 服務 中發生的用戶活動。 Power BI 系統管理員可以使用收集的活動記錄數據來執行 稽核 ,以協助他們瞭解使用模式和採用。 活動記錄對於支援治理工作、安全性稽核和合規性需求也很重要。 在進階數據準備案例中,活動記錄數據有助於追蹤數據流的管理和使用。
相關內容
如需可協助您進行Power BI實作決策的其他實用案例,請參閱 Power BI使用案例 一文。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應