Bearbeiten

Masterdatenverwaltung mit Azure und CluedIn

Azure Data Factory
Azure SQL-Datenbank
Azure Synapse Analytics
Azure Monitor

Diese CluedIn-Architektur stellt Unternehmen Metriken für die Qualität der von CluedIn erfassten Daten zur Verfügung, die intelligent „schmutzige“ Daten erkennen und diese für die Bereinigung durch Data Engineers und Data Stewards aufbereiten. Proprietäre Fuzzylogik-Machine-Learning-Algorithmen helfen Geschäftskunden und Kuratoren dabei, Daten zu beschriften und dem System beizubringen, Qualitätsprobleme bei Daten im Laufe der Zeit zu identifizieren, zu korrigieren und zu verhindern.

Aufbau

Diagram showing CluedIn architectural structure and data flow.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Die CluedIn-Lösung besteht aus verschiedenen Funktionsebenen, die in einem Kubernetes-Cluster in Azure Kubernetes Service (AKS) ausgeführt werden. Eine Kombination aus .NET Core-Microserviceanwendungen verarbeitet verschiedene Funktionen wie die Datenerfassung, die Streamingdatenverarbeitung, Warteschlangen und die Benutzeroberfläche.

  1. Die Durchforstungsebene von CluedIn erfasst Daten aus Cloudquellen von Kunden wie Azure SQL-Datenbank, Azure Cosmos DB, PostgreSQL und Salesforce-Datenbanken über Azure Data Factory-Connectors.

    CluedIn akzeptiert auch Eingaben von zugänglichen lokalen Systemen wie SAP, Oracle, IBM und Hadoop und kann lokale Agents für das Durchforsten nicht öffentlicher Daten verwenden.

  2. Der Enterprise Service Bus stellt für Administratorendpunkte eine Verbindung über die Ports 5672 und 15672 her. Crawler senden Daten an den Bus, und die Verarbeitungsebene verwendet Daten aus dem Bus über Port 5672.

  3. Die Transaktionsprotokollebene verwendet die Ergebnisse aus der Verarbeitungsebene.

  4. Auf der Persistenzebene nutzen Datenbanken Daten aus dem Transaktionsprotokoll und speichern sie persistent, um eine letztendliche Konsistenz in den verschiedenen Datenspeichern sicherzustellen. Alle Speicher verwenden den Hochverfügbarkeitsmodus (High Availability, HA).

    Anders als bei der Datenvirtualisierung erfasst die Persistenzebene von CluedIn Teile der Quelldaten und bewahrt die Version der Daten und ihrer Struktur mit der höchsten Genauigkeit auf. Durch diese hohe Genauigkeit kann CluedIn Data Fabric Geschäftsanforderungen für Daten in einem beliebigen Format oder Modell verarbeiten.

  5. Die Datenabstraktionsebene stellt über die Ports für jeden Speicher eine Verbindung mit den verschiedenen Datenspeichern her.

  6. Der Datenzugriff erfolgt über GraphQL-, REST- und WebSockets-Aufrufe über Port 443. GraphQL und REST verwenden ein Pullmodell und WebSockets ein Pushmodell.

    CluedIn schützt den Datenzugriff durch Drosselung und die Verhinderung von siteübergreifender Anforderungsfälschung (Cross-Site Request Forgery, CSRF).

  7. Die CluedIn-ASP.NET Core-Webanwendung kommuniziert über eine Kombination aus REST- und GraphQL-Aufrufen über Port 443.

    Für die gesamte Kommunikation des Browsers mit der Anwendung wird eine Gruppe von Eingangsdefinitionen verwendet, für die nur eine einzige öffentliche IP-Adresse erforderlich ist. In Produktionsumgebungen erfolgt die gesamte Kommunikation über Secure Sockets Layer (SSL).

  8. Die CluedIn-Anwendung stellt bereinigte, verarbeitete Daten für Analysedienste wie Power BI und Azure Synapse Analytics zum Generieren von Erkenntnissen bereit. Das System sichert und speichert alle Daten in SQL- oder Redis-Datenbanken.

Komponenten

CluedIn wird in Azure Kubernetes Service (AKS) ausgeführt, einem hoch verfügbaren, sicheren und vollständig verwalteten Kubernetes-Dienst für die Bereitstellung und Verwaltung von containerisierten Anwendungen. AKS bietet eine serverlose Kubernetes-Instanz, Integration von CI/CD und Sicherheit und Governance auf Unternehmensniveau.

CluedIn verwendet und unterstützt viele Datenbankquellen und Dienste, z. B.:

  • Azure SQL-Datenbank: Dies ist ein verwalteter Dienst für relationale Clouddatenbanken, der immer auf dem neuesten Stand ist und Ressourcen bei Bedarf automatisch skalieren kann.
  • Azure SQL Managed Instance: Dieser Dienst bietet eine umfassende Kompatibilität der SQL Server-Engine mit vorhandenen SQL Server-Anwendungen. SQL Managed Instance bietet lokale Datenbankinfrastrukturen mit Azure-Cloudvorteilen wie der elastischen Skalierung, einer gemeinsamen Verwaltung und einem Cloudabrechnungsmodell.
  • Azure Cosmos DB: Dies ist eine vollständig verwaltete nicht relationale serverlose NoSQL-Datenbank für moderne App-Entwicklung.
  • Azure Data Lake: Dies ist ein skalierbarer Datenspeicherungs- und Analysedienst.
  • Azure Data Factory: Hierbei handelt es sich um eine vollständig verwaltete serverlose Datenintegrationslösung für das Erfassen, Aufbereiten und Transformieren von Daten im großen Stil. CluedIn verwendet über 90 integrierte Data Factory-Connectors zum Abrufen von Daten aus Quellen wie Amazon Redshift, Google BigQuery, dem HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow und allen Azure Data Services.

CluedIn stellt verarbeitete, den Governanceanforderungen entsprechende Daten für viele Analyseanwendungen und -dienste bereit, z. B.:

  • Azure Databricks: Dies ist ein schneller, einfacher und zusammenarbeitsorientierter Analysedienst, der auf Apache Spark basiert.
  • Azure Synapse Analytics: Hierbei handelt es sich um einen unbegrenzten Analysedienst, der Data Warehousing auf Unternehmensniveau mit Big Data-Analysen vereint.
  • Log Analytics: Dies ist ein Tool im Azure-Portal zum Bearbeiten, Ausführen und Analysieren von Abfragen für Azure Monitor-Protokolldaten.
  • Azure Cognitive Services: Hierbei handelt es sich um eine umfassende Familie von KI-Diensten und kognitiven APIs für das Erstellen intelligenter Apps.
  • Power BI: Hierbei handelt es sich um einen Business-Analytics-Dienst von Microsoft, der interaktive Visualisierungen und Business Intelligence mit einer benutzerfreundlichen Schnittstelle für die Erstellung von Berichten kombiniert.

Szenariodetails

Moderne Unternehmen verwenden Daten als Grundlage für viele Prozesse und Projekte. Hierbei müssen jedoch die Rohdaten für die Nutzung aufbereitet werden. Bei Anwendungsfällen für Daten von Advanced Analytics bis hin zu maschinellem Lernen sind die Datenaufbereitungsprozesse und die Aufmerksamkeit, die erforderlich sind, überall ähnlich.

  1. Datenprojekte beginnen mit einer Datenerkennung, bei der ermittelt wird, wo sich Daten befinden und welche Systeme diese verwenden.
  2. Bei der Datenintegration werden dann mehrere Datenquellen in einem gemeinsamen oder verbundenen Dataset zusammengefasst.
  3. Der nächste Schritt besteht darin, die Daten zu normalisieren, standardisieren, harmonisieren und zu bereinigen, sodass sie von Computern einheitlich, konsistent und mit hoher Genauigkeit verarbeitet werden können.
  4. Abschließend müssen die Daten leicht und unmittelbar für geschäftliche Zwecke verfügbar gemacht werden.

Während dieser Prozesse müssen durch Governance Datenkontrolle und Datenschutz mit klar erkennbarem Eigentum, vollständiger Nachverfolgbarkeit und einem Überwachungspfad für die Herkunft von Daten sowie ihre Verarbeitung und Verwendung sichergestellt werden.

Bei der CluedIn-Plattform sind diese Datenverwaltungsprozesse und -säulen in eine kohärente, konsistente und allumfassende Masterdatenverwaltungs-Lösung (Master Data Management, MDM) integriert. CluedIn verwendet ein Datenintegrationsverfahren namens Eventual Connectivity, mit dem bessere Ergebnisse erzielt werden als mit klassischen ETL-Modellen (Extrahieren, Transformieren und Laden) oder ELT-Modellen (Extrahieren, Laden und Transformieren) . Bei Eventual Connectivity werden Daten aus vielen Silodatenquellen mithilfe von GraphQL-Abfragen nahtlos kombiniert.

Mit Eventual Connectivity werden Daten nicht beim Eingang oder Laden in andere Systeme verknüpft oder kombiniert. Stattdessen lädt CluedIn die Daten so, wie sie sind, und taggt Datensätze mit Metadaten. Schließlich werden Datensätze mit denselben Tags zusammengeführt, oder es wird eine Beziehung für sie im Diagramm erstellt.

Dieses komplexe Verfahren für die Zusammenführung von Daten bildet die Grundlage für datengesteuerte Lösungen. CluedIn Data Fabric integriert Daten in eine Pipeline, die diese Daten bereinigt, aufbereitet, modelliert, dafür sorgt, dass sie den Governanceanforderungen entsprechen, sowie die Daten anreichert, dedupliziert und katalogisiert, um sie leicht verfügbar und für geschäftliche Zwecke zugänglich zu machen.

CluedIn stellt Unternehmen Metriken für die Qualität der von CluedIn erfassten Daten zur Verfügung, die intelligent „schmutzige“ Daten erkennen und diese für die Bereinigung durch Data Engineers und Data Stewards aufbereiten. Proprietäre Fuzzylogik-Machine-Learning-Algorithmen helfen Geschäftskunden und Kuratoren dabei, Daten zu beschriften und dem System beizubringen, Qualitätsprobleme bei Daten im Laufe der Zeit zu identifizieren, zu korrigieren und zu verhindern.

CluedIn umfasst Governance auf Unternehmensniveau, um sicherzustellen, dass Sie Ihre Daten sicher und vertrauensvoll nutzen können. Die Plattform kann bereinigte, den Governanceanforderungen entsprechende Daten direkt an Analysesysteme wie Power BI, Azure Databricks, Azure Synapse Analytics oder Azure Cognitive Services streamen, um sie für den Rest des Unternehmens leicht verfügbar zu machen. Die native Unterstützung für automatische Skalierung nutzt die Leistungsfähigkeit von Azure, um eine skalierbare Umgebung für die größten Datenworkloads bereitzustellen.

Mögliche Anwendungsfälle

Erstellen einer einzelnen Ansicht von Daten

  • Aufgrund der semantischen Modellierung von CluedIn ist es im Vergleich zu herkömmlichen Ansätzen viel einfacher, eine einzelne Ansicht Ihrer Masterdaten zu erstellen. CluedIn-Kunden verwenden CluedIn, um eine verbundene, historische und qualitativ hochwertige Ansicht ihrer wichtigsten Geschäftsdaten zu erstellen. CluedIn unterstützt nicht nur das Mastering klassischer Masterdomänen wie People, Companies, Vendors und Products, sondern auch unendlich viele verschiedene Domänen sowie unstrukturierte Domänen wie Dateien, E-Mails, Ereignisse und mehr. Wenn Sie ein zentralisiertes Repository mit Masterdaten benötigen, das bereinigt, angereichert, gesteuert, qualitätsgesteuert und katalogisiert ist, eignet sich CluedIn gut für Ihre Anwendungsfälle.

Ein Data Fabric

  • CluedIn ist im Jahr 2020 ein Gartner Cool Vendor, da das Unternehmen in der Lage ist, Daten aus den zig, hunderten und tausenden verschiedenen und komplexen Datenquellen in einem einheitlichen Datenhub zu orchestrieren. Wenn Sie Daten problemlos aus vielen verschiedenen Datenquellen zusammenstellen müssen, kann CluedIn als Data Fabric verwendet werden, um dies zu erreichen. Dies kann eine Streaminginfrastruktur für Ihre Daten bereitstellen, die die Daten auch proaktiv bereinigen und verarbeiten kann, wenn sie an Downstream-Consumer übermittelt werden.

Komplexes Zusammenführen und Verknüpfen von Masterdaten

  • Der einzigartige Datenmodellierungsansatz von CluedIn verwendet eine Graphdatenbank, die das Zusammenführen und Verknüpfen komplexer Daten mit der Einfachheit ermöglicht. Im Gegensatz zu herkömmlichen Ansätzen fügt CluedIn zusätzliche Machine-Learning- und Graphanalysen hinzu, um Datensätze mit sehr hoher Genauigkeit zusammenzuführen, abzugleichen und zu verknüpfen.

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass Ihre Anwendung Ihre Verpflichtungen gegenüber den Kunden erfüllen kann. Weitere Informationen finden Sie in der Überblick über die Säule „Zuverlässigkeit“.

  • CluedIn erstellt automatisch jeden Tag Datenbanksicherungen und bewahrt diese standardmäßig 30 Tage lang in Langzeitspeicher auf. Die gesamte Plattform basiert auf redundanten, fehlertoleranten Stapeln mit Sicherungen für alle Subsysteme. Rund um die Uhr aktive Überwachungssysteme stellen sicher, dass die Dienste so unbeeinträchtigt wie möglich sind. CluedIn verwendet branchenübliche Methoden für Infrastrukturredundanz.

  • CluedIn zeigt nur eine Darstellung Ihrer Daten an und speichert auch nur eine solche und nicht die ursprüngliche Version dieser Daten. Wenn die Plattform einen schädlichen Angriff auf Daten erkennt, kann sie die CluedIn-Daten vorübergehend von Ihren Servern löschen. Nach dem Angriff sammelt CluedIn die Daten erneut, um den ursprünglichen Zustand wiederherzustellen.

  • Alle Datenspeicher verwenden den Hochverfügbarkeitsmodus.

Skalierbarkeit

  • CluedIn wird in Docker-Containern ausgeführt und verwendet Kubernetes für das Hosten und Orchestrieren der verschiedenen Teile der Anwendung. Dank dieser Architektur funktioniert CluedIn gut in elastischen Umgebungen und kann automatisch auf die benötigte Größe und Infrastruktur skalieren.

  • Die native Unterstützung für automatische Skalierung nutzt die Leistungsfähigkeit von Azure, um eine skalierbare Umgebung für die größten Datenworkloads bereitzustellen.

  • Die schemalose Diagrammmodellierung leitet automatisch ein Datenmodell aus den Quelldaten ab. Neue Datenquellen stellen automatisch eine Verbindung mit allen anderen Datenquellen her und müssen daher nicht explizit integriert werden. Die Anzahl von Datenquellen kann unendlich skaliert werden, ohne dass sich dabei die Komplexität der Integration erhöht.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

  • Die CluedIn-Sicherheit erteilt Berechtigungen und steuert den Zugriff auf verschiedene Dienste über Azure RBAC sowie mithilfe der Steuerung durch Sicherheitsschlüssel in Azure Key Vault und der Zugriffsüberwachung und -protokollierung von Azure Monitor.

  • Neben authentifizierten Benutzerkonten unterstützt CluedIn auch das einmalige Anmelden (Single Sign-On, SSO) und Identitätsframeworks. Für Anforderungen an die CluedIn-Anwendung werden verschlüsselte Zugriffstoken verwendet, die in keiner Beziehung zur Benutzeridentität stehen.

  • CluedIn verwaltet die gespeicherten Darstellungen von Daten hinter mehreren Firewall- und Proxyebenen und authentifiziert sie mit einer Gruppe eindeutiger Schlüssel.

  • CluedIn speichert alle erfassten Daten mit 256-Bit-AES-Verschlüsselung, die mindestens dem Verschlüsselungsniveau der unterstützten Datenquellen entspricht.

  • Der Datenzugriff wird durch Drosselung und CSRF-Verhinderung geschützt.

DevOps

  • CluedIn verwendet CI/CD-Pipelines (Continuous Integration und Continuous Delivery) aus Azure Pipelines für Bereitstellungen und parallele Updates für die AKS-Umgebung.

  • CluedIn unterstützt Unit-, Integrations- und Funktionstests, um sicherzustellen, dass Daten erwartungsgemäß transformiert werden. Virtualisierte Verarbeitungspipelines können für Sandboxtests im Arbeitsspeicher ausgeführt werden. Assertionen für die Produktion können beim Debuggen und Erkennen von Datenproblemen helfen.

  • Für Test- und Produktionsumgebungen stellt CluedIn ein Helm-Paket-Manager-Chart für eine schnelle Installation von CluedIn in Kubernetes-Clustern bereit. Vollständig skriptgesteuerte Datenbereitstellungsprozesse unterstützen Einrichtung, Test und Rollout.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Die Preise für CluedIn sind offen und transparent. Die Preise finden Sie auf der Website.

Azure-Größe und Starten einer Testversion

Sie können eine siebentägige Testversion von CluedIn auf ihrer Websitestarten, die Ihnen auch helfen kann, Ihre Azure-Hostingkosten mit vordefinierten Azure-Schätzungen für Umgebungen unterschiedlicher Größe zu gestalten.

Bereitstellen dieses Szenarios

Nächste Schritte

  • Weitere Informationen zu CluedIn finden Sie auf der CluedIn-Website.
  • Die CluedIn-Dokumentation finden Sie hier.