Magazynowanie i analiza danych

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Azure Table Storage

W tym przykładowym scenariuszu przedstawiono potok danych, który integruje duże ilości danych z wielu źródeł w ujednoliconą platformę analizy na platformie Azure. Ten konkretny scenariusz opiera się na rozwiązaniu sprzedaży i marketingu, ale wzorce projektowe są istotne dla wielu branż wymagających zaawansowanej analizy dużych zestawów danych, takich jak handel elektroniczny, handel detaliczny i opieka zdrowotna.

Architektura

Architecture for a data warehousing and analysis scenario in Azure

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

Dane przepływa przez rozwiązanie w następujący sposób:

  1. Dla każdego źródła danych wszystkie aktualizacje są okresowo eksportowane do obszaru przejściowego w usłudze Azure Data Lake Storage.
  2. Usługa Azure Data Factory przyrostowo ładuje dane z usługi Azure Data Lake Storage do tabel przejściowych w usłudze Azure Synapse Analytics. Dane są czyszczone i przekształcane podczas tego procesu. Technologia PolyBase może zrównać proces dla dużych zestawów danych.
  3. Po załadowaniu nowej partii danych do magazynu zostanie odświeżony utworzony wcześniej model tabelaryczny usług Azure Analysis Services. Ten semantyczny model upraszcza analizę danych biznesowych i relacji.
  4. Analitycy biznesowi używają usługi Microsoft Power BI do analizowania danych magazynowanych za pośrednictwem modelu semantycznego usług Analysis Services.

Elementy

Firma ma źródła danych na wielu różnych platformach:

  • Lokalny program SQL Server
  • Środowisko lokalne Oracle
  • Azure SQL Database
  • Azure Table Storage
  • Azure Cosmos DB

Dane są ładowane z tych różnych źródeł danych przy użyciu kilku składników platformy Azure:

  • Usługa Azure Data Lake Storage służy do etapu danych źródłowych przed ich załadowaniem do usługi Azure Synapse.
  • Usługa Data Factory organizuje przekształcanie przygotowanych danych w wspólną strukturę w usłudze Azure Synapse. Usługa Data Factory używa technologii PolyBase podczas ładowania danych do usługi Azure Synapse w celu zmaksymalizowania przepływności.
  • Usługa Azure Synapse to rozproszony system do przechowywania i analizowania dużych zestawów danych. Korzystanie z masowego przetwarzania równoległego (MPP) sprawia, że nadaje się do uruchamiania analizy o wysokiej wydajności. Usługa Azure Synapse może używać technologii PolyBase do szybkiego ładowania danych z usługi Azure Data Lake Storage.
  • Usługi Analysis Services udostępnia semantyczny model danych. Może również zwiększyć wydajność systemu podczas analizowania danych.
  • Usługa Power BI to zestaw narzędzi do analizy biznesowej do analizowania danych i udostępniania szczegółowych informacji. Usługa Power BI może wykonywać zapytania dotyczące modelu semantycznego przechowywanego w usługach Analysis Services lub wysyłać zapytania bezpośrednio do usługi Azure Synapse.
  • Microsoft Entra ID uwierzytelnia użytkowników, którzy łączą się z serwerem usług Analysis Services za pośrednictwem usługi Power BI. Usługa Data Factory może również używać identyfikatora Entra firmy Microsoft do uwierzytelniania w usłudze Azure Synapse za pośrednictwem jednostki usługi lub tożsamości zarządzanej dla zasobów platformy Azure.

Alternatywy

Szczegóły scenariusza

W tym przykładzie pokazano firmę sprzedażową i marketingową, która tworzy programy zachęt. Programy te nagradzają klientów, dostawców, sprzedawców i pracowników. Dane są fundamentalne dla tych programów, a firma chce ulepszyć szczegółowe informacje uzyskane za pośrednictwem analizy danych przy użyciu platformy Azure.

Firma potrzebuje nowoczesnego podejścia do analizy danych, dzięki czemu decyzje są podejmowane przy użyciu odpowiednich danych w odpowiednim czasie. Cele firmy obejmują:

  • Łączenie różnych rodzajów źródeł danych z platformą w skali chmury.
  • Przekształcanie danych źródłowych w wspólną taksonomię i strukturę w celu zapewnienia spójności i łatwego porównywania danych.
  • Ładowanie danych przy użyciu wysoce równoległego podejścia, które może obsługiwać tysiące programów zachęt bez wysokich kosztów wdrażania i utrzymywania infrastruktury lokalnej.
  • Znacznie skraca czas potrzebny do zbierania i przekształcania danych, dzięki czemu można skoncentrować się na analizowaniu danych.

Potencjalne przypadki użycia

Tego podejścia można również użyć do:

  • Ustanów magazyn danych, aby był jednym źródłem prawdy dla danych.
  • Integrowanie relacyjnych źródeł danych z innymi zestawami danych bez struktury.
  • Użyj semantycznego modelowania i zaawansowanych narzędzi do wizualizacji w celu prostszej analizy danych.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Technologie w tej architekturze zostały wybrane, ponieważ spełniają wymagania firmy dotyczące skalowalności i dostępności, pomagając jednocześnie kontrolować koszty.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Zapoznaj się z przykładem cen dla scenariusza magazynowania danych za pośrednictwem kalkulatora cen platformy Azure. Dostosuj wartości, aby zobaczyć, jak wymagania wpływają na koszty.

  • Usługa Azure Synapse umożliwia niezależne skalowanie poziomów zasobów obliczeniowych i magazynu. Opłaty za zasoby obliczeniowe są naliczane za godzinę i można skalować lub wstrzymać te zasoby na żądanie. Opłaty za zasoby magazynu są naliczane za terabajt, więc koszty będą rosnąć w miarę pozyskiwania większej ilości danych.
  • Koszty usługi Data Factory zależą od liczby operacji odczytu/zapisu, operacji monitorowania i działań orkiestracji wykonywanych w obciążeniu. Koszty usługi Data Factory wzrosną wraz z każdym dodatkowym strumieniem danych i ilością danych przetwarzanych przez poszczególne.
  • Usługi Analysis Services są dostępne w warstwach deweloperskich, podstawowych i standardowych. Ceny wystąpień są naliczane na podstawie jednostek przetwarzania zapytań (QPU) i dostępnej pamięci. Aby obniżyć koszty, zminimalizuj liczbę uruchamianych zapytań, ilość przetwarzanych danych i częstotliwość ich uruchamiania.
  • Usługa Power BI ma różne opcje produktów dla różnych wymagań. Usługa Power BI Embedded udostępnia opcję opartą na platformie Azure na potrzeby osadzania funkcji usługi Power BI wewnątrz aplikacji. Wystąpienie usługi Power BI Embedded jest uwzględnione w powyższym przykładzie cenowym.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następującego współautora.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki