Zarządzanie danymi głównymi za pomocą platformy Azure i cluedIn

Azure Data Factory
Azure SQL Database
Azure Synapse Analytics
Azure Monitor

Ta architektura CluedIn udostępnia firmom metryki dotyczące jakości pozyskiwanych danych, inteligentnego wykrywania zanieczyszczonych danych i przygotowywania ich do czyszczenia przez inżynierów danych i stewardów danych. Zastrzeżone algorytmy uczenia maszynowego logiki rozmyte ułatwiają użytkownikom biznesowym i kuratorom etykietowanie danych oraz nauczą system identyfikowania, poprawiania i zapobiegania problemom z jakością danych w czasie.

Architektura

Diagram showing CluedIn architectural structure and data flow.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

Rozwiązanie CluedIn składa się z różnych warstw funkcjonalnych uruchamianych w klastrze Kubernetes w usłudze Azure Kubernetes Service (AKS). Kombinacja aplikacji mikrousług platformy .NET Core obsługuje różne funkcje, takie jak pozyskiwanie danych, przetwarzanie danych przesyłanych strumieniowo, kolejkowanie i interfejs użytkownika.

  1. Warstwa przeszukiwania CluedIn pozyskuje dane ze źródeł chmury klienta, takich jak Azure SQL DB, Azure Cosmos DB, PostgreSQL i Salesforce za pośrednictwem łączników usługi Azure Data Factory.

    CluedIn pobiera również dane wejściowe z lokalnych systemów dostępnych, takich jak SAP, Oracle, IBM i Hadoop, lub może używać agentów lokalnych do przeszukiwania danych innych niż publiczne.

  2. Magistrala usług przedsiębiorstwa łączy się za pośrednictwem portów 5672 i 15672 dla punktów końcowych administratora. Przeszukiwarki wysyłają dane do magistrali, a warstwa przetwarzania zużywa dane z magistrali przez port 5672.

  3. Warstwa dziennika transakcji pobiera wyniki z warstwy przetwarzania.

  4. W warstwie trwałości bazy danych używają danych z dziennika transakcji i utrwalają je w celu zapewnienia spójności ostatecznej w różnych magazynach danych. Wszystkie sklepy działają w trybie wysokiej dostępności (HA).

    W przeciwieństwie do wirtualizacji danych warstwa trwałości CluedIn pozyskiwa części danych źródłowych i zachowuje najwyższą wierność wersji danych i jej struktury. Ta wysoka dokładność oznacza, że usługa CluedIn Data Fabric może obsługiwać żądania biznesowe dotyczące danych w dowolnym formacie lub modelu.

  5. Warstwa abstrakcji danych łączy się z różnymi magazynami danych za pośrednictwem portów dla każdego magazynu.

  6. Dostęp do danych odbywa się za pośrednictwem wywołań graphQL, REST i WebSocket za pośrednictwem portu 443. GrafQL i REST używają modelu ściągania, a obiekty WebSocket używają modelu wypychania.

    CluedIn chroni dostęp do danych poprzez ograniczanie przepustowości i zapobieganie fałszerzowaniu żądań między lokacjami (CSRF).

  7. Aplikacja internetowa CluedIn ASP.NET Core komunikuje się za pośrednictwem kombinacji wywołań REST i GraphQL za pośrednictwem portu 443.

    Cała komunikacja z przeglądarki do aplikacji używa zestawu definicji ruchu przychodzącego, które wymagają tylko jednego publicznego adresu IP. W środowisku produkcyjnym cała komunikacja odbywa się za pośrednictwem protokołu SSL (Secure Socket Layer).

  8. Aplikacja CluedIn udostępnia oczyszczone, przetworzone dane do usług analitycznych, takich jak Power BI i Azure Synapse Analytics, na potrzeby generowania szczegółowych informacji. System wykonuje kopię zapasową i przechowuje wszystkie dane w bazach danych SQL lub Redis.

Elementy

CluedIn działa w usłudze Azure Kubernetes Service (AKS), wysoce dostępnej, bezpiecznej i w pełni zarządzanej usłudze Kubernetes na potrzeby wdrażania konteneryzowanych aplikacji i zarządzania nimi. Usługa AKS oferuje bezserwerową platformę Kubernetes, zintegrowaną ciągłą integrację/ciągłe wdrażanie oraz zabezpieczenia i ład klasy korporacyjnej.

CluedIn używa i obsługuje wiele źródeł i usług bazy danych, w tym:

  • Azure SQL Database, zarządzana usługa relacyjnej bazy danych w chmurze, która jest zawsze aktualna i może automatycznie skalować zasoby na żądanie.
  • Usługa Azure SQL Managed Instance zapewnia szeroką zgodność aparatu programu SQL Server z istniejącymi aplikacjami programu SQL Server. Usługa SQL Managed Instance zapewnia lokalne infrastruktury baz danych z korzyściami chmury platformy Azure, takimi jak elastyczne skalowanie, ujednolicone zarządzanie i model rozliczeń w chmurze.
  • Azure Cosmos DB, w pełni zarządzana, nierelacyjna bezserwerowa baza danych NoSQL na potrzeby nowoczesnego tworzenia aplikacji.
  • Azure Data Lake, skalowalna usługa magazynu i analizy danych.
  • Azure Data Factory, w pełni zarządzane, bezserwerowe rozwiązanie integracji danych do pozyskiwania, przygotowywania i przekształcania danych na dużą skalę. CluedIn używa ponad 90 wbudowanych łączników usługi Data Factory do uzyskiwania danych ze źródeł, takich jak Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow i wszystkie usługi danych platformy Azure.

CluedIn udostępnia przetwarzane, zarządzane dane dla wielu aplikacji i usług analitycznych, w tym:

  • Azure Databricks, szybka, łatwa i wspólna usługa analizy oparta na platformie Apache Spark.
  • Azure Synapse Analytics to nieograniczona usługa analizy, która łączy magazynowanie danych przedsiębiorstwa i analizę danych big data.
  • Log Analytics, narzędzie witryny Azure Portal do edytowania, uruchamiania i analizowania zapytań z danych dziennika usługi Azure Monitor.
  • Azure Cognitive Services, kompleksowa rodzina usług sztucznej inteligencji i interfejsów API poznawczych na potrzeby tworzenia inteligentnych aplikacji.
  • Power BI, usługa analizy biznesowej firmy Microsoft, która łączy interaktywne wizualizacje i analizę biznesową z łatwym w użyciu interfejsem tworzenia raportów.

Szczegóły scenariusza

Nowoczesne przedsiębiorstwa bazuje na wielu procesach i projektach na danych, ale dane pierwotne muszą być przygotowane do użycia. Przypadki użycia danych z zaawansowanej analizy do uczenia maszynowego wymagają podobnych procesów przygotowywania danych i uwagi.

  1. Projekty danych zaczynają się od odnajdywania danych, aby określić, gdzie są dane i jakie systemy są używane.
  2. Następnie integracja danych łączy wiele źródeł danych w ujednolicony lub połączony zestaw danych.
  3. Następnym krokiem jest normalizacja, standaryzacja, zharmonizowanie i czyszczenie danych, dzięki czemu maszyny mogą przetwarzać je w jednolity, spójny i wysoki poziom wierności.
  4. Na koniec dane muszą być łatwo i łatwo dostępne dla potrzeb biznesowych.

Podczas tych procesów ład musi zapewnić kontrolę danych i ochronę prywatności dzięki jasnej własności, pełnej możliwości śledzenia oraz dziennikowi inspekcji źródeł danych, przetwarzaniu i używaniu.

Platforma CluedIn hermetyzuje te procesy i filary zarządzania danymi w spójne, spójne, kompleksowe rozwiązanie master Zarządzanie danymi (MDM). CluedIn używa techniki integracji danych nazywanej łącznością ostateczną, która daje lepsze wyniki niż klasyczne modele wyodrębniania, przekształcania, ładowania lub wyodrębniania, ładowania, przekształcania (ELT). Ostateczna łączność używa zapytań GraphQL do bezproblemowego łączenia danych z wielu silosowych źródeł danych.

W przypadku łączności ostatecznej dane nie są przyłączone ani łączone podczas wprowadzania ani ładowania do innych systemów. Zamiast tego cluedIn ładuje dane tak, jak to jest, i taguje rekordy przy użyciu metadanych. W końcu rekordy z tymi samymi tagami scalają lub tworzą relację na grafie.

Ta zaawansowana technika scalania danych stanowi podstawę rozwiązań opartych na danych. Usługa CluedIn Data Fabric integruje dane z potokiem, który czyści, przygotowuje, modele, zarządza, wzbogaca, deduplikuje i kataloguje dane, aby były łatwo dostępne i dostępne dla celów biznesowych.

CluedIn udostępnia firmom metryki dotyczące jakości pozyskiwanych danych, inteligentnego wykrywania zanieczyszczonych danych i przygotowywania ich do czyszczenia przez inżynierów danych i stewardów danych. Zastrzeżone algorytmy uczenia maszynowego logiki rozmyte ułatwiają użytkownikom biznesowym i kuratorom etykietowanie danych oraz nauczą system identyfikowania, poprawiania i zapobiegania problemom z jakością danych w czasie.

CluedIn obejmuje ład klasy korporacyjnej w celu zapewnienia, że możesz bezpiecznie i bezpiecznie używać danych. CluedIn może przesyłać strumieniowo oczyszczone, zarządzane dane bezpośrednio do systemów analizy, takich jak Power BI, Azure Databricks, Azure Synapse Analytics lub Azure Cognitive Services, aby ułatwić dostęp do reszty firmy. Natywna obsługa skalowania automatycznego wykorzystuje możliwości platformy Azure w celu zapewnienia skalowalnego środowiska dla największych obciążeń danych.

Potencjalne przypadki użycia

Tworzenie pojedynczego widoku danych

  • Ze względu na semantyczne modelowanie CluedIn sprawia, że tworzenie pojedynczego widoku danych głównych jest znacznie łatwiejsze do osiągnięcia w porównaniu z tradycyjnymi podejściami. Klienci CluedIn używają cluedIn do tworzenia połączonego, historycznego i wysokiej jakości widoku najważniejszych danych biznesowych. CluedIn obsługuje nie tylko opanowanie klasycznych domen głównych, takich jak Osoby, firmy, dostawcy i produkty — obsługuje i niekończącą się liczbę różnych domen, a także domeny bez struktury, takie jak pliki, poczta, zdarzenia i inne. Jeśli potrzebujesz scentralizowanego repozytorium danych głównych, które jest czyste, wzbogacone, zarządzane, kontrolowane pod kątem jakości i katalogowane, cluedIn jest dobrym rozwiązaniem dla przypadków użycia.

Sieć szkieletowa danych

  • CluedIn jest dostawcą Firmy Gartner Cool w 2020 r., ze względu na możliwość organizowania danych z ponad 10,100 i 1000 różnych i złożonych źródeł danych w ujednoliconym centrum danych. Jeśli musisz z łatwością rozmieścić dane z wielu różnych źródeł danych, możesz użyć narzędzia CluedIn jako sieci szkieletowej danych, aby to osiągnąć. Może to zapewnić infrastrukturę przesyłania strumieniowego danych, która może również aktywnie czyścić i opanować dane, gdy przepływa do odbiorców podrzędnych.

Zaawansowane scalanie i łączenie danych głównych

  • Unikatowe podejście do modelowania danych cluedIn wykorzystuje grafową bazę danych, która umożliwia scalanie złożonych danych i łączenie ich z prostotą. W przeciwieństwie do tradycyjnych podejść, aby rozwiązać to wyzwanie, cluedIn dodaje dodatkowe analizy uczenia maszynowego i grafów do scalania, dopasowywania i łączenia rekordów z bardzo wysoką precyzją.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Niezawodność

Niezawodność zapewnia, że aplikacja może spełnić zobowiązania podjęte przez klientów. Aby uzyskać więcej informacji, zobacz Omówienie filaru niezawodności.

  • CluedIn automatycznie wykonuje codzienne kopie zapasowe bazy danych i domyślnie przechowuje je w magazynie długoterminowym przez 30 dni. Cała platforma jest oparta na nadmiarowych, odpornych na uszkodzenia stosach, które utrzymują kopie zapasowe dla wszystkich podsystemów. Przez cały czas systemy monitorowania zapewniają, że usługi są tak niezamierzone, jak to możliwe. CluedIn jest zgodna ze standardami branżowymi dotyczącymi nadmiarowości infrastruktury.

  • CluedIn powierzchnie i przechowuje tylko reprezentację danych, a nie oryginalną wersję. Jeśli cluedIn wykryje destrukcyjne włamanie danych, może tymczasowo wyczyścić dane CluedIn z serwerów. Gdy włamanie ustąpi, cluedIn regathers dane, aby wrócić do pierwotnego stanu.

  • Wszystkie magazyny danych działają w trybie wysokiej dostępności.

Skalowalność

  • CluedIn działa w kontenerach platformy Docker i używa platformy Kubernetes do hostowania i organizowania różnych elementów aplikacji. Ta architektura oznacza, że cluedIn działa dobrze w środowiskach elastycznych i może automatycznie skalować do wymaganych rozmiarów i infrastruktury.

  • Natywna obsługa skalowania automatycznego wykorzystuje możliwości platformy Azure w celu zapewnienia skalowalnego środowiska dla największych obciążeń danych.

  • Modelowanie wykresu bez schematu automatycznie wywnioskuje model danych ze źródłowych danych. Nowe źródła danych automatycznie łączą się ze wszystkimi innymi źródłami danych, a nie muszą być jawnie zintegrowane. Liczba źródeł danych może być skalowana w nieskończoność bez zwiększania złożoności integracji.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.

  • Zabezpieczenia CluedIn udzielają uprawnień i kontroli dostępu do różnych usług za pośrednictwem kontroli dostępu opartej na rolach platformy Azure przy użyciu kontroli klucza zabezpieczeń usługi Azure Key Vault oraz śledzenia i rejestrowania dostępu usługi Azure Monitor.

  • Oprócz uwierzytelnionych kont użytkowników usługa CluedIn obsługuje również platformy logowania jednokrotnego i tożsamości. Żądania do aplikacji CluedIn używają zaszyfrowanych tokenów dostępu, które nie mają korelacji z tożsamością użytkownika.

  • CluedIn zarządza przechowywanymi reprezentacjami danych za wieloma warstwami zapory i serwera proxy oraz uwierzytelnia je przy użyciu zestawu unikatowych kluczy.

  • CluedIn przechowuje wszystkie dane źródłowe z 256-bitowym szyfrowaniem AES, które jest silniejsze niż lub równe poziomowi szyfrowania obsługiwanych źródeł danych.

  • Ograniczanie przepustowości i zapobieganie csrF chroni dostęp do danych.

DevOps

  • CluedIn używa potoków ciągłej integracji i ciągłego dostarczania (CI/CD) usługi Azure Pipelines do obsługi wdrożeń i aktualizacji rolowanych w środowisku usługi AKS.

  • Funkcja CluedIn obsługuje testy jednostkowe, integracyjne i funkcjonalne w celu zapewnienia, że dane są przekształcane zgodnie z oczekiwaniami. Zwirtualizowane potoki przetwarzania mogą być uruchamiane w pamięci na potrzeby testowania piaskownicy. Asercji klasy produkcyjnej mogą ułatwić debugowanie i śledzenie problemów z danymi.

  • W przypadku środowisk testowych i produkcyjnych cluedIn udostępnia wykres menedżera pakietów Helm umożliwiający szybkie zainstalowanie cluedIn w klastrze Kubernetes. W pełni skryptowe procesy wdrażania danych obsługują konfigurację, testowanie i wdrażanie.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Ceny cluedIn są otwarte i przejrzyste. Cennik można zobaczyć na swojej stronie internetowej.

Ustalanie rozmiaru i uruchamianie wersji próbnej platformy Azure

Możesz rozpocząć 7-dniową wersję próbną cluedIn w swojej witrynie internetowej, która może również pomóc w zakresie kosztów hostingu platformy Azure przy użyciu wstępnie utworzonych szacunków platformy Azure dla różnych środowisk o różnych rozmiarach.

Wdrażanie tego scenariusza

Następne kroki

  • Aby uzyskać więcej informacji na temat cluedIn, zobacz witrynę internetową CluedIn.
  • Aby uzyskać dokumentację cluedIn, zobacz dokumentację cluedIn.
  • Aby zapoznać się z przykładową kompleksową platformą danych platformy Azure, zobacz Kompleksowa platforma danych platformy Azure.