Scenariusze użycia usługi Power BI: samoobsługowe przygotowywanie danych

Uwaga

Ten artykuł stanowi część serii artykułów dotyczących planowania implementacji usługi Power BI. Ta seria koncentruje się głównie na obciążeniu usługi Power BI w usłudze Microsoft Fabric. Aby zapoznać się z wprowadzeniem do serii, zobacz Planowanie implementacji usługi Power BI.

Przygotowywanie danych (czasami określane jako ETL, czyli skrót od wyodrębniania, przekształcania i ładowania) często wiąże się ze znaczną ilością pracy w zależności od jakości i struktury danych źródłowych. Scenariusz użycia samoobsługowego przygotowywania danych koncentruje się na możliwości ponownego użycia działań związanych z przygotowywaniem danych przez analityków biznesowych. Osiąga to cel ponownego wykorzystania przez przeniesienie pracy przygotowywania danych z dodatku Power Query (w ramach poszczególnych plików programu Power BI Desktop) do usługi Power Query Online (przy użyciu przepływu danych usługi Power BI). Centralizacja logiki pomaga osiągnąć pojedyncze źródło prawdy i zmniejszyć poziom wysiłku wymaganego przez innych twórców zawartości.

Przepływy danych są tworzone przy użyciu usługi Power Query Online w jednym z kilku narzędzi: usługa Power BI, Power Apps lub Dynamics 365 Customer Szczegółowe informacje. Przepływ danych utworzony w usłudze Power BI jest określany jako analityczny przepływ danych. Przepływy danych utworzone w usłudze Power Apps mogą być jednym z dwóch typów: standardowym lub analitycznym. Ten scenariusz obejmuje tylko użycie przepływu danych usługi Power BI utworzonego i zarządzanego w ramach usługa Power BI.

Uwaga

Scenariusz samoobsługowego przygotowywania danych jest jednym ze scenariuszy samoobsługowej analizy biznesowej. Aby uzyskać pełną listę scenariuszy samoobsługi, zobacz artykuł Scenariusze użycia usługi Power BI.

W przypadku zwięzłości niektóre aspekty opisane w temacie dotyczącym współpracy i dostarczania zawartości nie zostały omówione w tym artykule. Aby uzyskać pełne pokrycie, najpierw przeczytaj te artykuły.

Diagram scenariusza

Na poniższym diagramie przedstawiono ogólne omówienie najpopularniejszych akcji użytkownika i składników usługi Power BI, które obsługują samoobsługowe przygotowywanie danych. Głównym celem jest utworzenie przepływu danych w usłudze Power Query Online, który staje się źródłem danych dla wielu modeli semantycznych (wcześniej nazywanych zestawami danych). Celem jest korzystanie z wielu semantycznych modeli, które są wykonywane raz przez przepływ danych.

Diagram przedstawia samoobsługowe przygotowywanie danych, które dotyczy przepływów danych w celu scentralizowanego czyszczenia i przekształcania danych. Elementy na diagramie zostały opisane w poniższej tabeli.

Napiwek

Zachęcamy do pobrania diagramu scenariusza, jeśli chcesz go osadzić w prezentacji, dokumentacji lub wpisie w blogu albo wydrukować go jako plakat na ścianie. Ponieważ jest to obraz skalowalnej grafiki wektorowej (SVG), można go skalować w górę lub w dół bez utraty jakości.

Diagram scenariusza przedstawia następujące akcje użytkownika, narzędzia i funkcje:

Produkt Opis
Element 1. Twórca przepływu danych opracowuje kolekcję tabel w przepływie danych usługi Power BI. W przypadku przepływu danych przeznaczonego do ponownego użycia często (ale nie jest to wymagane), aby twórca należał do scentralizowanego zespołu obsługującego użytkowników w granicach organizacji (takich jak IT, analiza biznesowa przedsiębiorstwa lub Centrum doskonałości).
Element 2. Przepływ danych łączy się z danymi z co najmniej jednego źródła danych.
Element 3. Niektóre źródła danych mogą wymagać lokalnej bramy danych lub bramy sieci wirtualnej na potrzeby odświeżania danych, takich jak te, które znajdują się w prywatnej sieci organizacyjnej. Te bramy są używane zarówno do tworzenia przepływu danych w usłudze Power Query Online, która jest internetową wersją dodatku Power Query, jak i odświeżania przepływu danych.
Element 4. Przepływy danych są opracowywane przy użyciu dodatku Power Query Online. Znany interfejs dodatku Power Query w usłudze Power Query Online sprawia, że przejście z programu Power BI Desktop jest proste.
Element 5. Przepływ danych jest zapisywany jako element w obszarze roboczym przeznaczonym do przechowywania i zabezpieczania przepływów danych. Harmonogram odświeżania przepływu danych jest wymagany do przechowywania bieżących danych (nie przedstawiono na diagramie scenariusza).
Element 6. Przepływ danych może być ponownie używany jako źródło danych przez twórców zawartości oraz przez inne semantyczne modele, które mogą znajdować się w różnych obszarach roboczych.
Element 7. Twórca modelu semantycznego opracowuje nowy model danych przy użyciu programu Power BI Desktop. Twórca modelu semantycznego może korzystać z pełnych możliwości dodatku Power Query w programie Power BI Desktop. Opcjonalnie mogą zastosować inne kroki zapytania, aby jeszcze bardziej przekształcić dane przepływu danych lub scalić dane wyjściowe przepływu danych.
Element 8. Gdy wszystko będzie gotowe, twórca semantycznego modelu publikuje plik programu Power BI Desktop (pbix), który zawiera model danych do usługa Power BI. Odświeżanie modelu semantycznego jest zarządzane oddzielnie od przepływu danych (nie przedstawiono go na diagramie scenariusza).
Element 9. Inni twórcy semantycznych modeli samoobsługowych mogą tworzyć nowe modele danych w programie Power BI Desktop przy użyciu przepływu danych jako źródła danych.
Element 10. W portalu Administracja administratorzy usługi Power BI mogą skonfigurować połączenia platformy Azure w celu przechowywania danych przepływu danych na koncie usługi Azure Data Lake Storage Gen2 (ADLS Gen2). Ustawienia obejmować przypisywanie konta magazynu na poziomie dzierżawy i włączanie uprawnień magazynu na poziomie obszaru roboczego.
Element 11. Administratorzy usługi Power BI zarządzają ustawieniami w portalu Administracja.
Element 12. Domyślnie przepływy danych przechowują dane przy użyciu magazynu wewnętrznego zarządzanego przez usługa Power BI. Opcjonalnie dane wyjściowe przepływu danych mogą być przechowywane na koncie usługi ADLS Gen2 organizacji. Ten typ magazynu jest czasami nazywany usługą Bring Your Own Data Lake. Zaletą przechowywania danych przepływu danych w usłudze Data Lake jest możliwość uzyskiwania do nich dostępu i korzystania z nich przez inne narzędzia analizy biznesowej.
Element 13. Dane przepływu danych w usłudze ADLS Gen2 są przechowywane w kontenerze specyficznym dla usługi Power BI znanym jako system plików. W tym kontenerze istnieje folder dla każdego obszaru roboczego. Podfolder jest tworzony dla każdego przepływu danych, a także dla każdej tabeli. Usługa Power BI generuje migawkę za każdym razem, gdy dane przepływu danych są odświeżane. Migawki są opisywane samodzielnie, składające się z metadanych i plików danych.
Element 14. Administratorzy platformy Azure zarządzają uprawnieniami dla konta usługi ADLS Gen2 organizacji.
Element 15. Administratorzy usługi Power BI nadzorują i monitorują aktywność w usługa Power BI.

Napiwek

Zalecamy również przejrzenie zaawansowanego scenariusza użycia przygotowywania danych. Opiera się na pojęciach wprowadzonych w tym scenariuszu.

Kwestie kluczowe

Poniżej przedstawiono kilka kluczowych kwestii, które należy podkreślić w scenariuszu samoobsługowego przygotowywania danych.

Przepływy danych

Przepływ danych składa się z kolekcji tabel (nazywanych również jednostkami). Wszystkie prace nad utworzeniem przepływu danych są wykonywane w usłudze Power Query Online. Przepływy danych można tworzyć w wielu produktach, w tym w usługach Power Apps, Dynamics 365 Customer Szczegółowe informacje i Power BI.

Uwaga

Nie można tworzyć przepływów danych w obszarze roboczym osobistym w usługa Power BI.

Obsługa twórców semantycznych modeli

Diagram scenariusza przedstawia użycie przepływu danych usługi Power BI w celu udostępnienia przygotowanych danych innym autorom modelu semantycznego samoobsługi.

Uwaga

Model semantyczny używa przepływu danych jako źródła danych. Raport nie może połączyć się bezpośrednio z przepływem danych.

Poniżej przedstawiono niektóre zalety korzystania z przepływów danych usługi Power BI:

  • Twórcy modelu semantycznego używają tego samego znanego interfejsu dodatku Power Query znajdującego się w programie Power BI Desktop.
  • Logika przygotowywania i przekształcania danych zdefiniowana przez przepływ danych może być wielokrotnie ponownie wykorzystywana, ponieważ jest scentralizowana.
  • Gdy logika przygotowywania danych zostanie wprowadzona w przepływie danych, może nie wymagać aktualizacji zależnych modeli danych. Usunięcie lub zmiana nazw kolumn lub zmiana typów danych kolumn będzie wymagać aktualizacji zależnych modeli danych.
  • Wstępnie przygotowane dane można łatwo udostępnić twórcom semantycznych modeli usługi Power BI. Ponowne użycie jest szczególnie przydatne w przypadku często używanych tabel — zwłaszcza tabel wymiarów, takich jak data, klient i produkt.
  • Poziom nakładu pracy wymagany przez twórców modelu semantycznego jest mniejszy, ponieważ prace nad przygotowywaniem danych zostały oddzielone od pracy modelowania danych.
  • Mniej twórców modelu semantycznego wymaga bezpośredniego dostępu do systemów źródłowych. Systemy źródłowe mogą być złożone do wykonywania zapytań i mogą wymagać wyspecjalizowanych uprawnień dostępu.
  • Liczba odświeżeń wykonywanych w systemach źródłowych jest ograniczona, ponieważ odświeżanie modelu semantycznego łączy się z przepływami danych, a nie z systemami źródłowymi, z których przepływy danych wyodrębniają dane.
  • Dane przepływu danych reprezentują migawkę w czasie i promują spójność, gdy są używane przez wiele semantycznych modeli.
  • Oddzielenie logiki przygotowywania danych do przepływów danych może pomóc zwiększyć sukces odświeżania modelu semantycznego. Jeśli odświeżanie przepływu danych zakończy się niepowodzeniem, semantyczne modele będą odświeżane przy użyciu ostatniego pomyślnego odświeżania przepływu danych.

Napiwek

Tworzenie tabel przepływu danych przez zastosowanie zasad projektowania schematu gwiazdy. Projekt schematu gwiazdy doskonale nadaje się do tworzenia modeli semantycznych usługi Power BI. Ponadto uściślij dane wyjściowe przepływu danych, aby zastosować przyjazne nazwy i używać określonych typów danych. Te techniki promują spójność w zależnych modelach semantycznych i pomagają zmniejszyć ilość pracy, jaką muszą wykonywać twórcy modelu semantycznego.

Elastyczność twórcy modelu semantycznego

Gdy twórca modelu semantycznego łączy się z przepływem danych w programie Power BI Desktop, twórca nie jest ograniczony do używania dokładnych danych wyjściowych przepływu danych. Nadal mają one pełną funkcjonalność dodatku Power Query. Ta funkcja jest przydatna, jeśli jest wymagana dodatkowa praca nad przygotowaniem danych lub dane wymagają dalszej transformacji.

Zaawansowane funkcje przepływu danych

Istnieje wiele technik projektowania, wzorców i najlepszych rozwiązań dla przepływów danych, które mogą pobierać je z samoobsługi do gotowości przedsiębiorstwa. Przepływy danych w obszarze roboczym z ustawionym trybem licencji na Premium na użytkownika, pojemność Premium lub pojemność sieci szkieletowej mogą korzystać z zaawansowanych funkcji.

Ważne

Czasami w tym artykule opisano usługę Power BI Premium lub jej subskrypcje pojemności (jednostki SKU P). Należy pamiętać, że firma Microsoft obecnie konsoliduje opcje zakupu i cofnie usługę Power BI Premium na jednostki SKU pojemności. Nowi i istniejący klienci powinni rozważyć zakup subskrypcji pojemności sieci szkieletowej (jednostki SKU F).

Aby uzyskać więcej informacji, zobacz Ważne aktualizacje dostępne w licencjonowaniu usługi Power BI Premium i Power BI Premium — często zadawane pytania.

Uwaga

Jedną z zaawansowanych funkcji jest odświeżanie przyrostowe dla przepływów danych. Chociaż odświeżanie przyrostowe dla modeli semantycznych jest funkcją usługi Power BI Pro, odświeżanie przyrostowe dla przepływów danych jest funkcją Premium.

Aby dowiedzieć się więcej o zaawansowanych funkcjach przepływu danych, zobacz zaawansowany scenariusz użycia przygotowywania danych.

Odświeżanie przepływu danych i modelu semantycznego

Jak wspomniano wcześniej, przepływ danych jest źródłem danych dla modeli semantycznych. W większości przypadków jest zaangażowanych wiele harmonogramów odświeżania danych: jeden dla przepływu danych i jeden dla każdego modelu semantycznego. Alternatywnie można użyć trybu DirectQuery z modelu semantycznego do przepływu danych, który jest funkcją Premium (nie przedstawiono na diagramie scenariusza).

Azure Data Lake Storage Gen2

Na platformie Microsoft Azure konto usługi ADLS Gen2 jest określonym typem konta usługi Azure Storage, które ma włączoną hierarchiczną przestrzeń nazw . Usługa ADLS Gen2 ma zalety wydajności, zarządzania i zabezpieczeń dla obciążeń analitycznych operacyjnych. Domyślnie przepływy danych usługi Power BI używają magazynu wewnętrznego, który jest wbudowanym kontem usługi Data Lake zarządzanym przez usługa Power BI. Opcjonalnie organizacje mogą korzystać z własnego magazynu data lake , łącząc się z kontem usługi ADLS Gen2 w organizacji.

Poniżej przedstawiono niektóre zalety korzystania z konta usługi Data Lake organizacji:

  • Dane przechowywane przez przepływ danych usługi Power BI mogą (opcjonalnie) być dostępne z usługi Data Lake przez innych użytkowników lub procesy. Jest to przydatne, gdy ponowne użycie przepływu danych wykracza poza usługę Power BI. Na przykład dostęp do danych można uzyskać za pomocą usługi Azure Data Factory.
  • Dane w usłudze Data Lake mogą (opcjonalnie) być zarządzane przez inne narzędzia lub systemy. W takim przypadku usługa Power BI może korzystać z danych, a nie zarządzać nimi (nie przedstawiono na diagramie scenariusza).

Magazyn na poziomie dzierżawy

Sekcja Połączenia platformy Azure w portalu Administracja zawiera ustawienie umożliwiające skonfigurowanie połączenia z kontem usługi ADLS Gen2. Skonfigurowanie tego ustawienia umożliwia korzystanie z własnego magazynu data lake. Po skonfigurowaniu można ustawić obszary robocze tak, aby używały tego konta usługi Data Lake.

Ważne

Ustawienie połączeń platformy Azure nie oznacza, że wszystkie przepływy danych w dzierżawie usługi Power BI są domyślnie przechowywane na tym koncie. Aby można było używać jawnego konta magazynu (zamiast magazynu wewnętrznego), każdy obszar roboczy musi być ściśle połączony.

Przed utworzeniem przepływów danych w obszarze roboczym w obszarze roboczym należy ustawić połączenia platformy Azure. To samo konto usługi Azure Storage jest używane na potrzeby semantycznych kopii zapasowych modelu usługi Power BI.

Magazyn na poziomie obszaru roboczego

Administrator usługi Power BI może skonfigurować ustawienie, aby zezwolić na uprawnienia magazynu na poziomie obszaru roboczego (w sekcji Połączenia platformy Azure w portalu Administracja). Po włączeniu tego ustawienia administratorzy obszaru roboczego mogą używać innego konta magazynu niż to, które zostało zdefiniowane na poziomie dzierżawy. Włączenie tego ustawienia jest szczególnie przydatne w przypadku zdecentralizowanych jednostek biznesowych, które zarządzają własnym magazynem data lake na platformie Azure.

Uwaga

Uprawnienie magazynu na poziomie obszaru roboczego w portalu Administracja dotyczy wszystkich obszarów roboczych w dzierżawie usługi Power BI.

Format Common Data Model

Dane na koncie usługi ADLS Gen2 są przechowywane w strukturze usługi Common Data Model (CDM). Struktura CDM to format metadanych, który określa sposób przechowywania schematu samoopisującego, a także danych. Struktura CDM umożliwia spójność semantyczną w formacie, który jest ustandaryzowany do udostępniania danych w wielu aplikacjach (nie przedstawiono na diagramie scenariusza).

Publikowanie w oddzielnych obszarach roboczych

Istnieje kilka zalet publikowania przepływu danych w obszarze roboczym, który jest oddzielony od miejsca przechowywania zależnych modeli semantycznych. Jedną z zalet jest jasność co do tego, kto jest odpowiedzialny za zarządzanie typami zawartości (jeśli masz różne osoby obsługujące różne obowiązki). Kolejną zaletą jest możliwość przypisania określonych uprawnień obszaru roboczego dla każdego typu zawartości.

Uwaga

Nie można tworzyć przepływów danych w obszarze roboczym osobistym w usługa Power BI.

W zaawansowanym scenariuszu użycia przygotowywania danych opisano sposób konfigurowania wielu obszarów roboczych w celu zapewnienia lepszej elastyczności podczas obsługi twórców samoobsługi na poziomie przedsiębiorstwa.

Konfiguracja bramy

Zazwyczaj lokalna brama danych jest wymagana do nawiązywania połączenia ze źródłami danych, które znajdują się w prywatnej sieci organizacyjnej lub sieci wirtualnej.

Brama danych jest wymagana, gdy:

  • Tworzenie przepływu danych w usłudze Power Query Online łączącego się z prywatnymi danymi organizacyjnymi.
  • Odświeżanie przepływu danych łączącego się z prywatnymi danymi organizacyjnymi.

Napiwek

Przepływy danych wymagają scentralizowanej bramy danych w trybie standardowym. Brama w trybie osobistym nie jest obsługiwana podczas pracy z przepływami danych.

Nadzór systemowy

Dziennik aktywności rejestruje działania użytkowników, które występują w usługa Power BI. Administratorzy usługi Power BI mogą używać zebranych danych dziennika aktywności do przeprowadzania inspekcji w celu ułatwienia im zrozumienia wzorców użycia i wdrożenia. Dziennik aktywności jest również przydatny do wspierania działań związanych z ładem, inspekcji zabezpieczeń i wymagań dotyczących zgodności. W scenariuszu samoobsługowego przygotowywania danych szczególnie przydatne jest śledzenie użycia przepływów danych.

W następnym artykule z serii dowiesz się więcej o zaawansowanym scenariuszu użycia przygotowywania danych.