Nowoczesny magazyn danych dla małych i średnich firm

Azure Data Lake
Azure SQL Database
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

To przykładowe obciążenie pokazuje kilka sposobów, na które małe firmy (SMB) mogą zmodernizować starsze magazyny danych i eksplorować narzędzia i możliwości danych big data bez nadmiernego zwiększania bieżących budżetów i zestawów umiejętności. Te kompleksowe rozwiązania do magazynowania danych platformy Azure można łatwo zintegrować z narzędziami, takimi jak Azure Machine Edukacja, Microsoft Power Platform, Microsoft Dynamics i inne technologie firmy Microsoft.

Architektura

Diagram that shows how SMBs can modernize legacy data stores.

Pobierz plik programu Visio z tą architekturą.

Starsze magazyny danych SMB mogą zawierać kilka typów danych:

  • Dane bez struktury, takie jak dokumenty i grafiki
  • Dane częściowo ustrukturyzowane, takie jak dzienniki, woluminy CSV, pliki JSON i XML
  • Dane relacyjne ze strukturą, w tym bazy danych korzystające z procedur składowanych na potrzeby działań wyodrębniania-transformacji/wyodrębniania-ładowania-ładowania (ETL/ELT)

Przepływ danych

Poniższy przepływ danych demonstruje pozyskiwanie wybranego typu danych:

  1. Potoki usługi Azure Synapse Analytics pozyskiwają starsze magazyny danych na platformę Azure.

    • Potoki organizują przepływ migrowanych lub częściowo refaktoryzowanych starszych baz danych i pakietów usług SSIS do usługi Azure SQL Database. To podejście metodą "lift-and-shift" jest najszybsze do wdrożenia i oferuje bezproblemowe przejście z lokalnego rozwiązania SQL do ostatecznej platformy Azure jako usługi (PaaS). Bazy danych można zmodernizować przyrostowo po migracji metodą "lift and shift".

    • Potoki mogą również przekazywać dane nieustrukturyzowane, częściowo ustrukturyzowane i ustrukturyzowane do usługi Azure Data Lake Storage na potrzeby scentralizowanego magazynu i analizy z innymi źródłami. Użyj tego podejścia, gdy łączenie danych zapewnia większą korzyść biznesową niż po prostu przeplatanie danych.

  2. Źródła danych usługi Microsoft Dynamics mogą służyć do tworzenia scentralizowanych pulpitów nawigacyjnych analizy biznesowej na rozszerzonych zestawach danych przy użyciu narzędzi do analizy bezserwerowej usługi Synapse. W celu dalszej analizy możesz przywrócić połączone, przetworzone dane do usług Dynamics i Power BI.

  3. Dane w czasie rzeczywistym ze źródeł przesyłania strumieniowego mogą również wprowadzać system za pośrednictwem usługi Azure Event Hubs. W przypadku klientów z wymaganiami dotyczącymi pulpitu nawigacyjnego w czasie rzeczywistym usługa Azure Stream Analytics może natychmiast analizować te dane.

  4. Dane mogą również wprowadzać scentralizowane usługę Data Lake w celu dalszej analizy, magazynowania i raportowania.

  5. Narzędzia do analizy bezserwerowej są dostępne w obszarze roboczym usługi Azure Synapse Analytics. Te narzędzia używają bezserwerowej puli SQL lub możliwości obliczeniowych platformy Apache Spark do przetwarzania danych w usłudze Data Lake Storage Gen2. Pule bezserwerowe są dostępne na żądanie i nie wymagają żadnych aprowizowanych zasobów.

    Pule bezserwerowe idealnie nadają się do:

    • Eksploracje nauki o danych ad hoc w formacie T-SQL.
    • Wczesne tworzenie prototypów dla jednostek magazynu danych.
    • Definiowanie widoków, których użytkownicy mogą używać, na przykład w usłudze Power BI, w scenariuszach, które mogą tolerować opóźnienie wydajności.

Usługa Azure Synapse jest ściśle zintegrowana z potencjalnymi konsumentami połączonych zestawów danych, takich jak azure Machine Edukacja. Inni użytkownicy mogą obejmować usługi Power Apps, Azure Logic Apps, aplikacje usługi Azure Functions i aplikacje internetowe usługi aplikacja systemu Azure Service.

Elementy

  • Azure Synapse Analytics to usługa analityczna, która łączy integrację danych, magazynowanie danych przedsiębiorstwa i analizę danych big data. W tym rozwiązaniu:

    • Obszar roboczy usługi Azure Synapse promuje współpracę między inżynierami danych, analitykami danych, analitykami danych i specjalistami ds. analizy biznesowej (BI).
    • Potoki usługi Azure Synapse organizują i pozyskiwają dane do usług SQL Database i Data Lake Storage Gen2.
    • Bezserwerowe pule SQL usługi Azure Synapse analizują dane bez struktury i częściowo ustrukturyzowane w usłudze Data Lake Storage Gen2 na żądanie.
    • Bezserwerowe pule platformy Apache Spark w usłudze Azure Synapse wykonują eksplorację typu code-first w usłudze Data Lake Storage Gen2 z językami Spark, takimi jak Spark SQL, pySpark i Scala.
  • Azure SQL Database to inteligentna, skalowalna, relacyjna usługa bazy danych utworzona dla chmury. W tym rozwiązaniu usługa SQL Database przechowuje magazyn danych przedsiębiorstwa i wykonuje działania ETL/ELT korzystające z procedur składowanych.

  • Usługa Azure Event Hubs to platforma przesyłania strumieniowego danych w czasie rzeczywistym i usługa pozyskiwania zdarzeń. Usługa Event Hubs może pozyskiwać dane z dowolnego miejsca i bezproblemowo integrować się z usługami danych platformy Azure.

  • Usługa Azure Stream Analytics to usługa analizy bezserwerowej w czasie rzeczywistym do przesyłania strumieniowego danych. Usługa Stream Analytics oferuje szybką, elastyczną skalowalność, niezawodność i odzyskiwanie klasy korporacyjnej oraz wbudowane możliwości uczenia maszynowego.

  • Usługa Azure Machine Edukacja to zestaw narzędzi do tworzenia modeli nauki o danych i zarządzania cyklem życia. Edukacja maszyny to jeden z przykładów platformy Azure i usługi firmy Microsoft, które mogą korzystać z połączonych, przetworzonych danych z usługi Data Lake Storage Gen2.

Alternatywy

  • Usługa Azure IoT Hub może zastąpić lub uzupełnić usługę Event Hubs. Wybrane rozwiązanie zależy od źródła danych przesyłanych strumieniowo oraz tego, czy potrzebujesz klonowania i dwukierunkowej komunikacji z urządzeniami raportowania.

  • Usługi Azure Data Factory można używać do integracji danych zamiast potoków usługi Azure Synapse. Wybór zależy od kilku czynników:

    • Potoki usługi Azure Synapse ułatwiają projektowanie rozwiązań i umożliwiają współpracę w jednym obszarze roboczym usługi Azure Synapse.
    • Potoki usługi Azure Synapse nie obsługują ponownego hostowania pakietów usług SSIS, które są dostępne w usłudze Azure Data Factory.
    • Usługa Synapse Monitor Hub monitoruje potoki usługi Azure Synapse, a usługa Azure Monitor może monitorować usługę Data Factory.

    Aby uzyskać więcej informacji i porównanie funkcji między potokami usługi Azure Synapse i usługą Data Factory, zobacz Integracja danych w usłudze Azure Synapse Analytics i Azure Data Factory.

  • Możesz użyć dedykowanych pul SQL usługi Synapse Analytics do przechowywania danych przedsiębiorstwa zamiast używania usługi SQL Database. Zapoznaj się z przypadkami użycia i zagadnieniami w tym artykule i powiązanymi zasobami, aby podjąć decyzję.

Szczegóły scenariusza

Małe i średnie firmy (SMB) stają przed wyborem podczas modernizacji lokalnych magazynów danych dla chmury. Mogą one wdrażać narzędzia do obsługi danych big data w celu zapewnienia przyszłej rozszerzalności lub zachować tradycyjne rozwiązania oparte na języku SQL na potrzeby wydajności kosztów, łatwości konserwacji i bezproblemowego przejścia.

Jednak podejście hybrydowe łączy łatwą migrację istniejącego majątku danych z możliwością dodawania narzędzi i procesów big data w niektórych przypadkach użycia. Źródła danych oparte na języku SQL mogą nadal działać w chmurze i w miarę potrzeb modernizować.

W tym przykładowym obciążeniu pokazano kilka sposobów modernizacji starszych magazynów danych i eksplorowania narzędzi i możliwości danych big data bez nadmiernego zwiększania bieżących budżetów i zestawów umiejętności. Te kompleksowe rozwiązania do magazynowania danych platformy Azure można łatwo zintegrować z platformą Azure i usługi firmy Microsoft oraz narzędziami, takimi jak Azure Machine Edukacja, Microsoft Power Platform i Microsoft Dynamics.

Potencjalne przypadki użycia

Z tego obciążenia może korzystać kilka scenariuszy:

  • Migrowanie tradycyjnego, lokalnego magazynu danych relacyjnych, który jest mniejszy niż 1 TB i intensywnie używa pakietów usług SQL Server Integration Services (SSIS) do organizowania procedur składowanych.

  • Łączenie istniejących danych usługi Dynamics lub Power Platform Dataverse z danymi wsadowymi i źródłami usługi Azure Data Lake w czasie rzeczywistym.

  • Używanie innowacyjnych technik do interakcji ze scentralizowanymi danymi usługi Data Lake Storage Gen2. Techniki obejmują analizę bezserwerową, wyszukiwanie wiedzy, łączenie danych między domenami i eksplorację danych użytkowników końcowych.

  • Konfigurowanie firm handlu elektronicznego w celu wdrożenia magazynu danych w celu optymalizacji ich operacji.

To rozwiązanie nie jest zalecane w przypadku:

  • Wdrożenie magazynów danych greenfield , które szacuje się na > 1 TB w ciągu jednego roku.

  • Migrowanie lokalnych magazynów danych o > rozmiarze 1 TB lub przewidywanych wzrost do tego rozmiaru w ciągu roku.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Poniższe zagadnienia dotyczą tego scenariusza.

Dostępność

SQL Database to usługa PaaS, która może spełniać wymagania dotyczące wysokiej dostępności i odzyskiwania po awarii (DR). Pamiętaj, aby wybrać jednostkę SKU spełniającą Twoje wymagania. Aby uzyskać wskazówki, zobacz Wysoka dostępność usługi Azure SQL Database.

Operations

Usługa SQL Database używa programu SQL Server Management Studio (SSMS) do tworzenia i obsługi starszych artefaktów, takich jak procedury składowane.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Zobacz przykładowy cennik scenariusz magazynowania danych SMB w kalkulatorze cen platformy Azure. Dostosuj wartości, aby zobaczyć, jak wymagania wpływają na koszty.

  • Usługa SQL Database opiera się na kosztach wybranych warstw obliczeniowych i usług oraz liczbie rdzeni wirtualnych i jednostek transakcji bazy danych (DTU). W przykładzie przedstawiono pojedynczą bazę danych z aprowizowaną usługą Compute i ośmioma rdzeniami wirtualnymi na podstawie założenia, że należy uruchomić procedury składowane w usłudze SQL Database.

  • Cennik usługi Data Lake Storage Gen2 zależy od ilości przechowywanych danych i częstotliwości używania danych. Przykładowe ceny obejmują 1 TB przechowywanych danych z kolejnymi założeniami transakcyjnymi. Rozmiar 1 TB odnosi się do rozmiaru magazynu data lake, a nie oryginalnego starszego rozmiaru bazy danych.

  • Potoki usługi Azure Synapse bazują na liczbie działań potoku danych, godzinach integration runtime, rozmiarze klastra przepływu danych oraz opłatach za wykonywanie i operacje. Koszty potoków zwiększają się wraz z dodatkowymi źródłami danych i ilościami przetwarzanych danych. W tym przykładzie przyjęto założenie, że jedno źródło danych jest wsadowe co godzinę przez 15 minut w środowisku Integration Runtime hostowanym na platformie Azure.

  • Pula platformy Azure Synapse Spark opiera się na cenach dotyczących rozmiaru węzła, liczby wystąpień i czasu pracy. W tym przykładzie przyjęto założenie, że jeden mały węzeł obliczeniowy z pięcioma godzinami w tygodniu do 40 godzin w miesiącu.

  • Bezserwerowa pula SQL usługi Azure Synapse opiera się na cenach przetworzonych danych. W przykładzie przyjęto założenie, że 50 TB przetworzyło miesiąc. Ten rysunek odnosi się do rozmiaru magazynu data lake, a nie oryginalnego starszego rozmiaru bazy danych.

  • Opłaty za usługę Event Hubs są naliczane na podstawie warstwy, aprowizowanych jednostek przepływności i odebranego ruchu przychodzącego. W tym przykładzie przyjęto założenie, że jedna jednostka przepływności w warstwie Standardowa ponad milion zdarzeń na miesiąc.

  • Usługa Stream Analytics opiera koszty na liczbie aprowizowanych jednostek przesyłania strumieniowego. W przykładzie przyjęto założenie, że jedna jednostka przesyłania strumieniowego jest używana w ciągu miesiąca.

Współautorzy

Ten artykuł jest aktualizowany i obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

  • Galina Polyakova | Starszy architekt rozwiązań w chmurze

Następne kroki