Kompleksowa analiza w usłudze Azure Synapse

Azure Synapse Analytics

Azure Cosmos DB

Azure Data Factory

Azure Databricks

Azure Event Hubs

Rozwiązanie opisane w tym artykule łączy szereg usług platformy Azure, które będą pozyskiwać, przechowywać, przetwarzać, wzbogacać i udostępniać dane oraz szczegółowe informacje z różnych źródeł (ustrukturyzowane, częściowo ustrukturyzowane, nieustrukturyzowane i przesyłane strumieniowo).

Architektura

Pobierz plik programu Visio z tą architekturą.

Uwaga

Usługi objęte tą architekturą są tylko podzbiorem znacznie większej rodziny usług platformy Azure. Podobne wyniki można osiągnąć przy użyciu innych usług lub funkcji, które nie są objęte tym projektem.
Konkretne wymagania biznesowe dotyczące przypadku użycia analizy mogą wymagać użycia różnych usług lub funkcji, które nie są brane pod uwagę w tym projekcie.

Przepływ danych

Przypadki użycia analizy omówione w architekturze są ilustrowane przez różne źródła danych po lewej stronie diagramu. Dane przepływają przez rozwiązanie z dołu w następujący sposób:

Uwaga

W poniższych sekcjach usługa Azure Data Lake jest używana jako strona główna danych na różnych etapach cyklu życia danych. Usługa Azure Data Lake jest zorganizowana według różnych warstw i kontenerów w następujący sposób:

Warstwa Nieprzetworzona to obszar docelowy danych przychodzących z systemów źródłowych. Jak wskazuje nazwa, dane w tej warstwie są w postaci nieprzetworzonej, niefiltrowanej i nieoczyszczonej.
W następnym etapie cyklu życia dane są przesyłane do warstwy Wzbogacone, w której dane są czyszczone, filtrowane i ewentualnie przekształcane.
Następnie dane są przesyłane do warstwy Nadzorowane, w której przechowywane są dane gotowe do użycia przez użytkownika.

Zapoznaj się z dokumentacją stref i kontenerów usługi Data Lake, aby zapoznać się z pełnym przeglądem warstw i kontenerów usługi Azure Data Lake oraz ich zastosowań.

Usługi danych platformy Azure, natywny dla chmury protokół HTAP z usługami Azure Cosmos DB i Dataverse

Przetwarzaj

Usługa Azure Synapse Link dla usług Azure Cosmos DB i Azure Synapse Link dla usługi Dataverse umożliwia uruchamianie analizy niemal w czasie rzeczywistym na danych aplikacji operacyjnych i biznesowych przy użyciu aparatów analitycznych dostępnych w obszarze roboczym usługi Azure Synapse: bezserwerowych i pul platformy Spark.
W przypadku korzystania z usługi Azure Synapse Link dla usługi Azure Cosmos DB użyj zapytania bezserwerowego SQL lub notesu puli platformy Spark. Możesz uzyskać dostęp do magazynu analitycznego usługi Azure Cosmos DB, a następnie połączyć zestawy danych z danych operacyjnych niemal w czasie rzeczywistym z danymi z usługi Data Lake lub z magazynu danych.
W przypadku korzystania z usługi Azure Synapse Link dla usługi Dataverse użyj zapytania bezserwerowego SQL lub notesu puli platformy Spark. Możesz uzyskać dostęp do wybranych tabel usługi Dataverse, a następnie połączyć zestawy danych z danych aplikacji biznesowych niemal w czasie rzeczywistym z danymi z usługi Data Lake lub z magazynu danych.

Przechowuj

Wynikowe zestawy danych z zapytań bezserwerowych SQL mogą być utrwalane w usłudze Data Lake. Jeśli używasz notesów platformy Spark, wynikowe zestawy danych mogą być utrwalane w magazynie data lake lub data warehouse (pula SQL).

Służyć

Załaduj odpowiednie dane z puli SQL usługi Azure Synapse lub usługi Data Lake do zestawów danych usługi Power BI w celu wizualizacji i eksploracji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.

Relacyjne bazy danych

Pozyskiwanie

Potoki usługi Azure Synapse umożliwiają ściąganie danych z wielu różnych baz danych, zarówno lokalnych, jak i w chmurze. Potoki mogą być wyzwalane na podstawie wstępnie zdefiniowanego harmonogramu w odpowiedzi na zdarzenie lub mogą być jawnie wywoływane za pośrednictwem interfejsów API REST.

Przechowuj

W warstwie nieprzetworzonej usługi Data Lake należy zorganizować magazyn data lake zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów używanych w poszczególnych warstwach i formatach plików używanych w poszczególnych scenariuszach analitycznych.
Z potoku usługi Azure Synapse użyj działania Copy data (Kopiowanie danych), aby przygotować dane skopiowane z relacyjnych baz danych do pierwotnej warstwy usługi Azure Data Lake Store Gen 2 data lake. Dane można zapisać w formacie tekstowym rozdzielonym lub skompresowanym jako pliki Parquet.

Przetwarzaj

Użyj przepływów danych, zapytań bezserwerowych SQL lub notesów platformy Spark, aby weryfikować, przekształcać i przenosić zestawy danych z warstwy Raw za pośrednictwem warstwy Wzbogacone i do warstwy Nadzorowane w usłudze Data Lake.
1. W ramach przekształceń danych można wywoływać modele trenowania maszynowego z pul SQL przy użyciu standardowych notesów T-SQL lub Spark. Te modele uczenia maszynowego mogą służyć do wzbogacania zestawów danych i generowania dalszych analiz biznesowych. Te modele uczenia maszynowego mogą być używane z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego z usługi Azure ML.

Służyć

Końcowy zestaw danych można obsłużyć bezpośrednio z warstwy data lake Curated lub użyć działania Kopiowania danych, aby pozyskać końcowy zestaw danych do tabel puli SQL przy użyciu polecenia COPY na potrzeby szybkiego pozyskiwania.
Załaduj odpowiednie dane z puli SQL usługi Azure Synapse lub usługi Data Lake do zestawów danych usługi Power BI na potrzeby wizualizacji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.

Częściowo ustrukturyzowane źródła danych

Pozyskiwanie

Potoki usługi Azure Synapse umożliwiają ściąganie danych z różnych częściowo ustrukturyzowanych źródeł danych, zarówno lokalnych, jak i w chmurze. Na przykład:
- Pozyskiwanie danych ze źródeł opartych na plikach zawierających pliki CSV lub JSON.
- Połączenie do baz danych No-SQL, takich jak Azure Cosmos DB lub MongoDB.
- Wywoływanie interfejsów API REST udostępnianych przez aplikacje SaaS, które będą działać jako źródło danych dla potoku.

Przechowuj

W warstwie nieprzetworzonej usługi Data Lake należy zorganizować magazyn data lake zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów używanych w poszczególnych warstwach i formatach plików używanych w poszczególnych scenariuszach analitycznych.
Z potoku usługi Azure Synapse użyj działania Copy data (Kopiowanie danych), aby przygotować dane skopiowane ze źródeł danych częściowo ustrukturyzowanych do pierwotnej warstwy usługi Azure Data Lake Store Gen 2 data lake. Zapisz dane, aby zachować oryginalny format uzyskany ze źródeł danych.

Przetwarzaj

W przypadku potoków wsadowych/mikrosadowych użyj przepływów danych, zapytań bezserwerowych SQL lub notesów platformy Spark, aby weryfikować, przekształcać i przenosić zestawy danych do warstwy Nadzorowane w usłudze Data Lake. Zapytania bezserwerowe SQL uwidaczniają bazowe pliki CSV, Parquet lub JSON jako tabele zewnętrzne, dzięki czemu mogą być odpytywane przy użyciu języka T-SQL.
1. W ramach przekształceń danych można wywoływać modele uczenia maszynowego z pul SQL przy użyciu standardowych notesów języka T-SQL lub Spark. Te modele uczenia maszynowego mogą służyć do wzbogacania zestawów danych i generowania dalszych analiz biznesowych. Te modele uczenia maszynowego mogą być używane z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego z usługi Azure ML.
W przypadku scenariuszy analizy danych telemetrycznych i szeregów czasowych niemal w czasie rzeczywistym użyj pul eksploratora danych, aby łatwo pozyskiwać, konsolidować i korelować dzienniki oraz dane zdarzeń IoT w wielu źródłach danych. Za pomocą pul eksploratora danych można używać zapytań Kusto (KQL) do przeprowadzania analizy szeregów czasowych, klastrowania geoprzestrzennych i wzbogacania uczenia maszynowego.

Służyć

Końcowy zestaw danych można obsłużyć bezpośrednio z warstwy data lake Curated lub użyć działania Kopiowania danych, aby pozyskać końcowy zestaw danych do tabel puli SQL przy użyciu polecenia COPY na potrzeby szybkiego pozyskiwania.
Załaduj odpowiednie dane z pul SQL usługi Azure Synapse, pul eksploratora danych lub magazynu data lake do zestawów danych usługi Power BI na potrzeby wizualizacji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.

Źródła danych, które nie są ustrukturyzowane

Pozyskiwanie

Potoki usługi Azure Synapse umożliwiają ściąganie danych z różnych niestrukturalnych źródeł danych, zarówno lokalnych, jak i w chmurze. Na przykład:
- Pozyskiwanie wideo, obrazu, dźwięku lub wolnego tekstu ze źródeł opartych na plikach zawierających pliki źródłowe.
- Wywoływanie interfejsów API REST udostępnianych przez aplikacje SaaS, które będą działać jako źródło danych dla potoku.

Przechowuj

W warstwie Raw data lake organizuj magazyn data lake, postępując zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów do użycia w poszczególnych warstwach oraz formatów plików używanych w poszczególnych scenariuszach analitycznych.
Z potoku usługi Azure Synapse użyj działania Copy data (Kopiowanie danych), aby przygotować dane skopiowane ze źródeł danych niestrukturalnych do warstwy pierwotnej usługi Azure Data Lake Store Gen 2 data lake. Zapisz dane, zachowując oryginalny format uzyskany ze źródeł danych.

Przetwarzaj

Notesy platformy Spark umożliwiają weryfikowanie, przekształcanie, wzbogacanie i przenoszenie zestawów danych z warstwy Nieprzetworzonej za pośrednictwem warstwy Wzbogacone i do warstwy Wyselekcjonowanej w usłudze Data Lake.
1. W ramach przekształceń danych można wywoływać modele uczenia maszynowego z pul SQL przy użyciu standardowych notesów języka T-SQL lub Spark. Te modele uczenia maszynowego mogą służyć do wzbogacania zestawów danych i generowania dalszych analiz biznesowych. Te modele uczenia maszynowego mogą być używane z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego z usługi Azure ML.

Służyć

Końcowy zestaw danych można obsłużyć bezpośrednio z warstwy data lake Curated lub użyć działania Kopiowania danych, aby pozyskać końcowy zestaw danych do tabel magazynu danych przy użyciu polecenia COPY na potrzeby szybkiego pozyskiwania.
Załaduj odpowiednie dane z puli SQL usługi Azure Synapse lub usługi Data Lake do zestawów danych usługi Power BI na potrzeby wizualizacji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji.
Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.

Przesyłanie strumieniowe

Pozyskiwanie

Użyj usługi Azure Event Hubs lub Azure IoT Hubs do pozyskiwania strumieni danych generowanych przez aplikacje klienckie lub urządzenia IoT. Usługa Event Hubs lub usługa IoT Hub będzie następnie pozyskiwać i przechowywać dane przesyłane strumieniowo, zachowując sekwencję odebranych zdarzeń. Użytkownicy mogą następnie łączyć się z punktami końcowymi usługi Event Hubs lub IoT Hub i pobierać komunikaty do przetwarzania.

Przechowuj

W warstwie nieprzetworzonej usługi Data Lake należy zorganizować magazyn data lake zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów używanych w poszczególnych warstwach i formatach plików używanych w poszczególnych scenariuszach analitycznych.
Skonfiguruj punkty końcowe usługi Event Hubs Capture lub IoT Hub Storage, aby zapisać kopię zdarzeń w warstwie Nieprzetworzonej usługi Azure Data Lake Store Gen 2 data lake. Ta funkcja implementuje wzorzec architektury Lambda "zimna ścieżka" i umożliwia przeprowadzanie analizy historycznej i trendu na danych strumienia zapisanych w usłudze Data Lake przy użyciu zapytań bezserwerowych SQL lub notesów platformy Spark zgodnie ze wzorcem dla częściowo ustrukturyzowanych źródeł danych opisanych powyżej.

Przetwarzaj

W przypadku szczegółowych informacji w czasie rzeczywistym użyj zadania usługi Stream Analytics, aby zaimplementować "gorącą ścieżkę" wzorca architektury lambda i uzyskać szczegółowe informacje na podstawie przesyłanych danych strumienia. Zdefiniuj co najmniej jedno dane wejściowe dla strumienia danych pochodzącego z usługi Event Hubs lub usługi IoT Hub, jedno zapytanie do przetwarzania wejściowego strumienia danych i jedno wyjście usługi Power BI, do którego będą wysyłane wyniki zapytania.
1. W ramach przetwarzania danych za pomocą usługi Stream Analytics można wywoływać modele uczenia maszynowego, aby wzbogacić zestawy danych strumienia i podejmować decyzje biznesowe na podstawie wygenerowanych przewidywań. Te modele uczenia maszynowego można używać z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego w usłudze Azure Machine Learning.
Użyj innych danych wyjściowych zadania usługi Stream Analytics, aby wysyłać przetworzone zdarzenia do pul SQL usługi Azure Synapse LUB pul eksploratora danych w celu uzyskania dalszych przypadków użycia analizy.
W przypadku scenariuszy analizy danych telemetrycznych i szeregów czasowych niemal w czasie rzeczywistym użyj pul eksploratora danych, aby łatwo pozyskiwać zdarzenia IoT bezpośrednio z usługi Event Hubs lub IoT Hubs. Za pomocą pul eksploratora danych można używać zapytań Kusto (KQL) do przeprowadzania analizy szeregów czasowych, klastrowania geoprzestrzennych i wzbogacania uczenia maszynowego.

Służyć

Analitycy biznesowi używają następnie zestawów danych i pulpitów nawigacyjnych usługi Power BI w czasie rzeczywistym do wizualizacji szybko zmieniających się szczegółowych informacji generowanych przez zapytanie usługi Stream Analytics.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.

Składniki

W architekturze użyto następujących usług platformy Azure:

Alternatywy

W powyższej architekturze potoki usługi Azure Synapse są odpowiedzialne za aranżację potoków danych. Potoki usługi Azure Data Factory zapewniają również te same możliwości, co opisano w tym artykule.
Usługa Azure Databricks może być również używana jako aparat obliczeniowy używany do przetwarzania danych ze strukturą i bez struktury bezpośrednio w usłudze Data Lake.
W powyższej architekturze usługa Azure Stream Analytics jest usługą odpowiedzialną za przetwarzanie danych przesyłanych strumieniowo. Pule platformy Azure Synapse Spark i usługa Azure Databricks mogą również służyć do wykonywania tej samej roli za pośrednictwem wykonywania notesów.
Klastry platformy Kafka usługi Azure HDInsight mogą być również używane do pozyskiwania danych przesyłanych strumieniowo i zapewnienia odpowiedniego poziomu wydajności i skalowalności wymaganej przez duże obciążenia przesyłania strumieniowego.
Za pomocą usługi Azure Functions można również wywoływać usługi Azure Cognitive Services lub Azure Machine Edukacja niestandardowych modeli uczenia maszynowego z potoku usługi Azure Synapse.
Aby zapoznać się z porównaniem innych alternatyw, zobacz:

Szczegóły scenariusza

W tym przykładowym scenariuszu pokazano, jak korzystać z usługi Azure Synapse Analytics z szeroką rodziną usług Azure Data Services w celu utworzenia nowoczesnej platformy danych, która jest w stanie sprostać najczęstszym wyzwaniom związanym z danymi w organizacji.

Potencjalne przypadki użycia

Tego podejścia można również użyć do:

Ustanów architekturę produktu danych, która składa się z magazynu danych dla danych strukturalnych i magazynu danych typu data lake dla częściowo ustrukturyzowanych i nieustrukturyzowanych danych. Możesz wdrożyć pojedynczy produkt danych dla scentralizowanych środowisk lub wielu produktów danych dla środowisk rozproszonych, takich jak Usługa Data Mesh. Zobacz więcej informacji na temat stref docelowych Zarządzanie danymi i danych.
Integrowanie relacyjnych źródeł danych z innymi zestawami danych bez struktury przy użyciu technologii przetwarzania danych big data.
Użyj semantycznego modelowania i zaawansowanych narzędzi do wizualizacji w celu prostszej analizy danych.
Udostępnianie zestawów danych w organizacji lub zaufanych partnerów zewnętrznych.
Zaimplementuj rozwiązania do wyszukiwania wiedzy, aby wyodrębnić cenne informacje biznesowe ukryte na obrazach, plikach PDF, dokumentach itd.

Zalecenia

Odnajdywanie i zarządzanie

Nadzór nad danymi jest częstym wyzwaniem w dużych środowiskach przedsiębiorstwa. Z jednej strony analitycy biznesowi muszą mieć możliwość odnajdywania i zrozumienia zasobów danych, które mogą pomóc im w rozwiązywaniu problemów biznesowych. Z drugiej strony dyrektorzy danych chcą uzyskać szczegółowe informacje na temat prywatności i bezpieczeństwa danych biznesowych.

Microsoft Purview

Usługa Microsoft Purview umożliwia odnajdywanie danych i szczegółowe informacje na temat zasobów danych, klasyfikacji danych i poufności, które obejmują cały krajobraz danych organizacji.
Usługa Microsoft Purview może pomóc w utrzymaniu słownika biznesowego z określoną terminologią biznesową wymaganą dla użytkowników w celu zrozumienia semantyki tego, co oznaczają zestawy danych i sposobu ich użycia w całej organizacji.
Możesz zarejestrować wszystkie źródła danych i zorganizować je w kolekcje, które również służą jako granica zabezpieczeń metadanych.
Skonfiguruj regularne skanowania , aby automatycznie katalogować i aktualizować odpowiednie metadane dotyczące zasobów danych w organizacji. Usługa Microsoft Purview może również automatycznie dodawać informacje o pochodzenia danych na podstawie informacji z potoków usługi Azure Data Factory lub Azure Synapse.
Klasyfikacja danych i etykiety poufności danych można dodawać automatycznie do zasobów danych na podstawie wstępnie skonfigurowanych lub stosowanych reguł celnych podczas regularnych skanowań.
Specjaliści ds. ładu danych mogą korzystać z raportów i szczegółowych informacji generowanych przez firmę Microsoft Purview, aby zachować kontrolę nad całym krajobrazem danych i chronić organizację przed wszelkimi problemami z zabezpieczeniami i prywatnością.

Usługi platformy

Aby poprawić jakość rozwiązań platformy Azure, postępuj zgodnie z zaleceniami i wytycznymi zdefiniowanymi w przewodniku Azure Well-Architected Framework pięć filarów doskonałości architektury: Optymalizacja kosztów, Doskonałość operacyjna, Wydajność wydajności, Niezawodność i Zabezpieczenia.

Zgodnie z poniższymi zaleceniami poniższe usługi powinny być brane pod uwagę w ramach projektu:

Microsoft Entra ID: usługi tożsamości, logowanie jednokrotne i uwierzytelnianie wieloskładnikowe w obciążeniach platformy Azure.
Azure Cost Management: nadzór finansowy nad obciążeniami platformy Azure.
Azure Key Vault: bezpieczne zarządzanie poświadczeniami i certyfikatami. Na przykład potoki usługi Azure Synapse, pule platformy Azure Synapse Spark i usługa Azure ML mogą pobierać poświadczenia i certyfikaty z usługi Azure Key Vault używane do bezpiecznego uzyskiwania dostępu do magazynów danych.
Azure Monitor: zbieranie, analizowanie i podejmowanie działań na temat danych telemetrycznych zasobów platformy Azure w celu proaktywnego identyfikowania problemów i maksymalizacji wydajności i niezawodności.
Microsoft Defender dla Chmury: wzmacnianie i monitorowanie stanu zabezpieczeń obciążeń platformy Azure.
Azure DevOps i GitHub: implementowanie rozwiązań DevOps w celu wymuszania automatyzacji i zgodności z potokami programowania i wdrażania obciążeń dla usług Azure Synapse i Azure ML.
Azure Policy: implementowanie standardów organizacyjnych i ładu w celu zapewnienia spójności zasobów, zgodności z przepisami, zabezpieczeń, kosztów i zarządzania.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Technologie w tej architekturze zostały wybrane, ponieważ każda z nich zapewnia niezbędne funkcje do obsługi najbardziej typowych wyzwań związanych z danymi w organizacji. Te usługi spełniają wymagania dotyczące skalowalności i dostępności, pomagając jednocześnie kontrolować koszty. Usługi objęte tą architekturą są tylko podzbiorem znacznie większej rodziny usług platformy Azure. Podobne wyniki można osiągnąć przy użyciu innych usług lub funkcji, które nie są objęte tym projektem.

Konkretne wymagania biznesowe dotyczące przypadków użycia analizy mogą również poprosić o użycie różnych usług lub funkcji, które nie są brane pod uwagę w tym projekcie.

Podobną architekturę można również zaimplementować w środowiskach przedprodukcyjnych, w których można opracowywać i testować obciążenia. Rozważ konkretne wymagania dotyczące obciążeń i możliwości każdej usługi dla ekonomicznego środowiska przedprodukcyjnego.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Ogólnie rzecz biorąc, możesz szacować koszty za pomocą kalkulatora cen platformy Azure. Idealna pojedyncza warstwa cenowa i całkowity całkowity koszt każdej usługi zawartej w architekturze zależy od ilości danych do przetworzenia i przechowywania oraz oczekiwanego akceptowalnego poziomu wydajności. Skorzystaj z poniższego przewodnika, aby dowiedzieć się więcej o tym, jak każda usługa jest wyceniona:

Architektura bezserwerowa usługi Azure Synapse Analytics umożliwia niezależne skalowanie poziomów zasobów obliczeniowych i magazynu. Opłaty za zasoby obliczeniowe są naliczane na podstawie użycia i można skalować lub wstrzymać te zasoby na żądanie. Opłaty za zasoby magazynu są naliczane za terabajt, więc koszty będą rosnąć w miarę pozyskiwania większej ilości danych.
Opłaty za usługę Azure Data Lake Gen 2 są naliczane na podstawie ilości przechowywanych danych i na podstawie liczby transakcji do odczytu i zapisu danych.
Opłaty za usługi Azure Event Hubs i Azure IoT Hubs są naliczane na podstawie ilości zasobów obliczeniowych wymaganych do przetwarzania strumieni komunikatów.
Opłaty za usługę Azure Machine Edukacja pochodzą z ilości zasobów obliczeniowych używanych do trenowania i wdrażania modeli uczenia maszynowego.
Opłaty za usługi Cognitive Services są naliczane na podstawie liczby wywołań do interfejsów API usługi.
Usługa Microsoft Purview jest wyceniona na podstawie liczby zasobów danych w katalogu i ilości mocy obliczeniowej wymaganej do ich skanowania.
Opłaty za usługę Azure Stream Analytics są naliczane na podstawie ilości mocy obliczeniowej wymaganej do przetwarzania zapytań strumienia.
Usługa Power BI ma różne opcje produktów dla różnych wymagań. Usługa Power BI Embedded udostępnia opcję opartą na platformie Azure na potrzeby osadzania funkcji usługi Power BI wewnątrz aplikacji. Wystąpienie usługi Power BI Embedded jest uwzględnione w powyższym przykładzie cenowym.
Usługa Azure Cosmos DB jest wyceniona na podstawie ilości magazynu i zasobów obliczeniowych wymaganych przez bazy danych.

Wdrażanie tego scenariusza

Ten akcelerator wdrażania umożliwia zaimplementowanie całej architektury referencyjnej lub wybranie obciążeń potrzebnych dla przypadku użycia analizy. Możesz również wybrać, czy usługi są dostępne za pośrednictwem publicznych punktów końcowych, czy mają być dostępne tylko za pośrednictwem prywatnych punktów końcowych.

Witryna Azure Portal
Interfejs wiersza polecenia platformy Azure

Użyj poniższego przycisku, aby wdrożyć odwołanie przy użyciu witryny Azure Portal.

Uruchom następujące polecenie, aby wdrożyć całą architekturę referencyjną przy użyciu publicznych punktów końcowych. Kliknij przycisk Wypróbuj, aby użyć osadzonej powłoki.

az deployment group create --resource-group azsynapse-e2e \
    --template-uri https://raw.githubusercontent.com/Azure/azure-synapse-analytics-end2end/main/Deploy/AzureAnalyticsE2E.json \
    --parameters networkIsolationMode=default synapseSqlAdminPassword=use-complex-password-here

Uruchom następujące polecenie, aby wdrożyć całą architekturę referencyjną przy użyciu prywatnych punktów końcowych. Kliknij przycisk Wypróbuj, aby użyć osadzonej powłoki.

az deployment group create --resource-group azsynapse-e2e \
    --template-uri https://raw.githubusercontent.com/Azure/azure-synapse-analytics-end2end/main/Deploy/AzureAnalyticsE2E.json \
    --parameters networkIsolationMode=vNet synapseSqlAdminPassword=use-complex-password-here

Aby uzyskać szczegółowe informacje i dodatkowe opcje wdrażania, zobacz repozytorium GitHub akceleratora wdrażania z dokumentacją i kodem używanym do definiowania tego rozwiązania.

Współautorzy

Ten artykuł jest aktualizowany i obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Fabio Braga | Główny architekt techniczny MTC

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki

Zapoznaj się z wytycznymi zdefiniowanymi w scenariuszu zarządzania danymi i analizy danych platformy Azure dla skalowalnego środowiska analitycznego na platformie Azure.
Zapoznaj się ze ścieżkami inżynierowie danych Edukacja w witrynie Microsoft learn, aby dowiedzieć się więcej na temat zawartości i laboratoriów dotyczących usług zaangażowanych w tę architekturę referencyjną.
Zapoznaj się z dokumentacją i wdróż architekturę referencyjną przy użyciu akceleratora wdrażania dostępnego w witrynie GitHub.

Kompleksowa analiza w usłudze Azure Synapse

Architektura

Przepływ danych

Usługi danych platformy Azure, natywny dla chmury protokół HTAP z usługami Azure Cosmos DB i Dataverse

Przetwarzaj

Przechowuj

Służyć

Relacyjne bazy danych

Pozyskiwanie

Przechowuj

Przetwarzaj

Służyć

Częściowo ustrukturyzowane źródła danych

Pozyskiwanie

Przechowuj

Przetwarzaj

Służyć

Źródła danych, które nie są ustrukturyzowane

Pozyskiwanie

Przechowuj

Przetwarzaj

Służyć

Przesyłanie strumieniowe

Pozyskiwanie

Przechowuj

Przetwarzaj

Służyć

Składniki

Alternatywy

Szczegóły scenariusza

Potencjalne przypadki użycia

Zalecenia

Odnajdywanie i zarządzanie

Microsoft Purview

Usługi platformy

Kwestie wymagające rozważenia

Optymalizacja kosztów

Wdrażanie tego scenariusza

Współautorzy

Następne kroki

Powiązane zasoby

Opinia

Opinia

Dodatkowe zasoby