Opis przetwarzania strumieniowego

Ukończone

Przetwarzanie strumieniowe odnosi się do ciągłego pozyskiwania, przekształcania i analizy strumieni danych generowanych przez aplikacje, urządzenia IoT i czujniki oraz innych źródeł w celu uzyskania szczegółowych informacji z akcjami niemal w czasie rzeczywistym. Analiza strumienia danych często obejmuje używanie operacji czasowych, takich jak agregacje w oknach, sprzężenia czasowe i funkcje analizy czasowej do mierzenia zmian lub różnic w czasie. Cele analizowania strumienia danych:

  • Ciągłe monitorowanie danych przy użyciu okien pól czasu w celu lepszego zrozumienia, jak konkretne obszary zainteresowania zmieniają się lub zmieniają się w czasie
  • Identyfikowanie i reagowanie na anomalie lub nieprawidłowości w danych w czasie rzeczywistym
  • Ciągłe analizowanie nowych danych w celu identyfikowania problemów i reagowania na nie w czasie rzeczywistym
  • Wyzwalanie określonych akcji po zidentyfikowaniu określonych progów

Wykładnicza propagacja połączonych aplikacji, urządzeń i czujników napędzała konieczność analizowania danych przesyłanych strumieniowo w czasie ich docierania i korzystania z ukrytej wiedzy zawartej w danych w celu podejmowania decyzji biznesowych niemal w czasie rzeczywistym. Przykładowe przypadki użycia analizy danych przesyłanych strumieniowo obejmują:

  • Wykrywanie anomalii w celu identyfikowania potencjalnie fałszywych transakcji w branżach finansowych
  • Rekomendacje produktów dla klientów online w czasie rzeczywistym
  • Monitorowanie potoków i systemów dystrybucji przez firmy transportowe
  • Generowanie harmonogramów konserwacji predykcyjnej dla sprzętu przemysłowego i produkcyjnego
  • Analiza tonacji wpisów w mediach społecznościowych

Metody przetwarzania strumieni danych

Podstawowym podejściem do przetwarzania strumieniowego jest ciągłe analizowanie nowych danych, przekształcanie przychodzących danych w celu ułatwienia wglądu w szczegółowe dane niemal w czasie rzeczywistym. Obliczenia i agregacje można wykonać względem danych przy użyciu analizy czasowej i wysłać do pulpitu nawigacyjnego Power BI w celu wizualizacji i analizy w czasie rzeczywistym. Takie podejście zwykle obejmuje utrwalanie danych przesyłanych strumieniowo do magazynu danych, takiego jak Azure Data Lake Storage (ADLS) Gen2, w celu dalszej analizy lub bardziej zaawansowanych obciążeń analitycznych.

Alternatywnym podejściem do przetwarzania danych przesyłanych strumieniowo jest utrwalanie danych przychodzących w magazynie danych, takim jak Azure Data Lake Storage (ADLS) Gen2. Następnie można przetwarzać dane statyczne w partiach w późniejszym czasie. To podejście jest często używane w celu skorzystania z niższych kosztów obliczeń podczas przetwarzania dużych zestawów istniejących danych.