Power BI 使用案例:自助式數據準備

注意

本文構成Power BI實作規劃系列文章的一部分。 此系列主要著重於 Microsoft Fabric 內的 Power BI 工作負載。 如需系列簡介,請參閱 Power BI 實作規劃

數據準備(有時稱為 ETL,這是擷 取、轉換和載入的縮略字)通常涉及大量工作,視源數據的質量和結構而定。 自助數據準備使用案例著重於商務分析師重新使用數據準備活動的能力。 它藉由將數據準備工作從 Power Query(在個別 Power BI Desktop 檔案內)重新移至 Power Query Online(使用 Power BI 數據流)來達成可重複使用的目標。 邏輯的集中化有助於達成單一 事實 來源,並減少其他內容建立者所需的工作層級。

數據流是使用 Power Query Online 在數個工具之一中建立的:Power BI 服務、Power Apps 或 Dynamics 365 Customer Insights。 在 Power BI 中建立的數據流稱為 分析 數據流。 在 Power Apps 中建立的數據流可以是兩種類型一:標準分析。 此案例僅涵蓋使用在 Power BI 服務 內建立和管理的Power BI數據流。

注意

自助數據準備案例是自助 BI 案例之一。 如需自助案例的完整清單,請參閱 Power BI 使用案例 一文。

為了簡潔起見,本文並未涵蓋內容共同作業和傳遞案例主題中所述的某些層面。 如需完整的涵蓋範圍,請先閱讀這些文章。

案例圖表

下圖描述支援自助數據準備的最常見用戶動作和 Power BI 元件的高階概觀。 主要重點是在 Power Query Online 中建立數據流,該數據流會成為多個語意模型(先前稱為數據集)的數據源。 目標是讓許多語意模型利用數據流一次完成的數據準備。

圖表顯示自助數據準備,也就是集中處理數據清理和轉換工作的數據流。下表說明圖表中的專案。

提示

如果您想要將其內嵌在簡報、檔或部落格文章中,建議您下載案例圖表,或將其列印成牆面海報。 因為它是可調整的向量圖形 (SVG) 影像,因此您可以相應增加或減少,而不會遺失品質。

案例圖表描述下列使用者動作、工具和功能:

項目 說明
專案 1. 數據流建立者會在Power BI 資料流內開發數據表集合。 針對要重複使用的數據流,建立者通常(但不需要)屬於支援跨組織界限的使用者(例如 IT、企業 BI 或卓越中心)的集中式小組。
專案 2. 數據流會連線到來自一或多個數據源的數據。
專案 3. 某些數據源可能需要內部部署數據網關或 VNet 閘道進行數據重新整理,例如位於私人組織網路內的數據源。 這些閘道都用於在 Power Query Online 中撰寫數據流,這是 以 Web 為基礎的 Power Query 版本,以及重新整理數據流。
專案 4. 數據流是使用Power Query Online所開發。 Power Query Online 中熟悉的 Power Query 介面讓從 Power BI Desktop 轉換變得簡單。
專案 5. 數據流會儲存為工作區中專門用來儲存和保護數據流的專案。 需要數據流重新整理排程,才能讓數據保持在最新狀態(案例圖表中未描述)。
專案 6. 數據流可由內容建立者重複使用為數據源,也可以由位於不同工作區的其他語意模型重複使用。
專案 7. 語意模型建立者會使用Power BI Desktop開發新的數據模型。 語意模型建立者可以使用Power BI Desktop內Power Query的完整功能。 他們可以選擇性地套用其他查詢步驟,以進一步轉換數據流數據或合併數據流輸出。
專案 8. 準備好時,語意模型建立者會將包含數據模型的 Power BI Desktop 檔案 (.pbix) 發佈至 Power BI 服務。 語意模型的重新整理會與數據流分開管理(未描述於案例圖表中)。
專案 9. 其他自助語意模型建立者可以使用數據流作為數據源,在Power BI Desktop中建立新的數據模型。
專案 10。 在 管理員 入口網站中,Power BI 系統管理員可以設定 Azure 連線,將數據流數據儲存在其 Azure Data Lake 儲存體 Gen2 (ADLS Gen2) 帳戶中。 設定 包括指派租用戶層級記憶體帳戶,以及啟用工作區層級記憶體許可權。
專案11。 Power BI 系統管理員會在 管理員 入口網站中管理設定。
專案 12. 根據預設,數據流會使用由 Power BI 服務 管理的內部記憶體來儲存數據。 或者,數據流的數據輸出可以儲存在組織的 ADLS Gen2 帳戶中。 這種記憶體有時稱為 「攜帶您自己的數據湖」。 將數據流數據儲存在 Data Lake 的優點是,它可以由其他 BI 工具存取和取用。
專案 13。 ADLS Gen2 中的數據流數據會儲存在稱為 文件系統的Power BI特定容器內。 在此容器中,每個工作區都有一個資料夾。 系統會為每個數據流以及每個數據表建立子資料夾。 每次重新整理數據流數據時,Power BI 都會產生快照集。 快照集是自我描述,其中包含元數據和數據檔。
專案 14. Azure 系統管理員會管理組織 ADLS Gen2 帳戶的許可權。
專案 15. Power BI 系統管理員會監督和監視 Power BI 服務 中的活動。

提示

建議您也檢閱進 階數據準備 使用案例。 其以此案例中引進的概念為基礎。

重點

以下是關於自助數據準備案例的一些重點。

資料流程

數據流包含數據表集合(也稱為實體)。 建立數據流的所有工作都是在 Power Query Online完成。 您可以在多個產品建立數據流,包括 Power Apps、Dynamics 365 Customer Insights 和 Power BI。

注意

您無法在 Power BI 服務 的個人工作區中建立數據流。

支援語意模型建立者

此案例圖表描述如何使用Power BI數據流,為其他自助語意模型建立者提供備妥的數據。

注意

語意模型會使用數據流作為數據源。 報表無法直接連線到數據流。

以下是使用Power BI數據流的一些優點:

  • 語意模型建立者會使用在Power BI Desktop 中找到的相同熟悉Power Query介面。
  • 數據流所定義的數據準備和數據轉換邏輯可以重複使用許多次,因為它是集中式的。
  • 對數據流進行數據準備邏輯變更時,可能不需要更新相依的數據模型。 拿掉或重新命名資料行,或變更資料行數據類型,將需要更新相依的數據模型。
  • 預先準備的數據可以輕鬆地提供給 Power BI 語意模型建立者使用。 重複使用對常用數據表特別有説明,尤其是 維度數據表,例如日期、客戶和產品。
  • 語意模型建立者所需的工作層級會減少,因為數據準備工作已 與數據模型工作分離
  • 較少的語意模型建立者需要直接存取來源系統。 來源系統可能很難查詢,而且可能需要特殊訪問許可權。
  • 因為語意模型會重新整理連接到數據流,而不是數據流從中擷取數據的來源系統,因此減少在來源系統上執行的重新整理次數。
  • 數據流數據代表時間的快照集,並在許多語意模型使用時提升一致性。
  • 將數據準備邏輯分離到數據流有助於改善語意模型重新整理成功。 如果數據流重新整理失敗,語意模型將會使用上次成功的數據流重新整理重新整理。

提示

套用 星型架構 設計原則來建立數據流數據表。 星型架構設計非常適合用來建立Power BI語意模型。 此外,請精簡數據流輸出以套用易記名稱,並使用特定的數據類型。 這些技術可提升相依語意模型中的一致性,並協助減少語意模型建立者需要執行的工作量。

語意模型建立者彈性

當語意模型建立者連線到 Power BI Desktop 中的數據流時,建立者不限於使用確切的數據流輸出。 它們仍然具有Power Query的完整功能。 如果需要其他數據準備工作,或數據需要進一步轉換,這項功能就很有用。

數據流進階功能

數據流有許多設計技術、模式和最佳做法,可將數據流從自助帶到企業就緒。 工作區中的數據流,其授權模式設定為每個使用者 進階版,進階版 容量網狀架構容量可受益於進階功能

重要

本文有時是指 Power BI 進階版 或其容量訂用帳戶 (P SKU)。 請注意,Microsoft 目前正在合併購買選項,並淘汰每個容量 SKU 的 Power BI 進階版。 新的和現有的客戶應該考慮改為購買網狀架構容量訂用帳戶(F SKU)。

如需詳細資訊,請參閱 Power BI 進階版 授權的重要更新和 Power BI 進階版 常見問題

注意

其中一個進 階功能 是數據流的累加式重新整理。 雖然語意模型的累加式重新整理是Power BI Pro功能,但數據流的累加式重新整理是 進階版功能。

若要深入了解數據流進階功能,請參閱進 階數據準備 使用案例。

數據流和語意模型重新整理

如先前所述,數據流是語意模型的數據源。 在大部分情況下,涉及多個數據重新整理排程:一個用於數據流,一個用於每個語意模型。 或者,您可以從語意模型使用 DirectQuery 到數據流,這是 進階版 功能(未在案例圖中描述)。

Azure Data Lake Storage Gen2

在 Microsoft Azure 中,ADLS Gen2 帳戶是已啟用階層命名空間的特定 Azure 儲存體 帳戶類型。 ADLS Gen2 具有 作業分析工作負載的效能、管理和安全性優勢 。 根據預設,Power BI 數據流會使用內部記憶體,這是由 Power BI 服務 管理的內建 Data Lake 帳戶。 或者,組織可以 連線到其組織的ADLS Gen2帳戶來攜帶自己的Data Lake

以下是使用組織 Data Lake 帳戶的一些優點:

  • Power BI 資料流所儲存的數據可以由其他使用者或進程從 Data Lake 存取。 當數據流重複使用超出 Power BI 時,這很有説明。 例如,Azure Data Factory 可以存取數據。
  • Data Lake 中的數據可以(選擇性地)由其他工具或系統管理。 在此情況下,Power BI 可能會取用數據,而不是管理數據(未描述於案例圖表中)。

租用戶層級記憶體

管理員 入口網站的 [Azure 連線] 區段包含設定ADLS Gen2 帳戶連線的設定。 設定此設定可啟用 自備 Data Lake。 設定之後,您可以將 工作區設定為使用該 Data Lake 帳戶

重要

設定 Azure 連線 並不表示 Power BI 租使用者中的所有數據流預設都會儲存在此帳戶中。 若要使用明確的記憶體帳戶(而不是內部記憶體),每個工作區都必須特別連線。

在工作區中建立任何數據流之前,請務必先設定工作區 Azure 連線。 相同的 Azure 記憶體帳戶用於 Power BI 語意模型備份

工作區層級記憶體

Power BI 系統管理員可以設定設定,以允許工作區層級的記憶體許可權(在 管理員 入口網站的 Azure 連線區段中)。 啟用時,此設定可讓 工作區系統管理員使用與租用戶層級所定義的記憶體帳戶不同的記憶體帳戶 。 啟用此設定特別適用於在 Azure 中管理自己 Data Lake 的分散式業務單位。

注意

管理員 入口網站中的工作區層級記憶體許可權會套用至 Power BI 租使用者中的所有工作區。

Common Data Model 格式

ADLS Gen2 帳戶中的數據會儲存在 Common Data Model (CDM) 結構中。 CDM 結構是一種元數據格式,可決定如何儲存自我描述架構和數據。 CDM 結構會以標準化的格式啟用語意一致性,以便跨多個應用程式共用數據(案例圖中未描述)。

發佈至不同的工作區

將數據流發佈至 與儲存相依語意模型不同的工作區 有數個優點。 其中一個優點是清楚負責管理內容類型的人員(如果您有不同人員處理不同責任)。 另一個優點是,可以為每個內容類型指派特定的工作區許可權。

注意

您無法在 Power BI 服務 的個人工作區中建立數據流。

階數據準備 使用案例說明如何設定多個工作區,以在支持企業級自助建立者時提供更好的彈性。

閘道安裝

一般而言, 內部部署數據閘道 需要連線到位於私人組織網路或虛擬網路內的數據源。

資料閘道在:

  • 在 Power Query Online 中撰寫數據流,以連線到私人組織數據。
  • 重新整理連線至私人組織數據的數據流。

提示

數據流需要標準模式的集中式數據閘道 使用數據流時,不支援個人模式中的閘道。

系統監督

活動記錄檔會記錄 Power BI 服務 中發生的用戶活動。 Power BI 系統管理員可以使用收集的活動記錄數據來執行 稽核 ,以協助他們瞭解使用模式和採用。 活動記錄對於支援治理工作、安全性稽核和合規性需求也很重要。 透過自助數據準備案例,追蹤數據流的使用方式特別有用。

在系列中的下一篇文章中,瞭解 進階數據準備 使用案例。