Hantera huvuddata med Azure och CluedIn

Azure Data Factory
Azure SQL Database
Azure Synapse Analytics
Azure Monitor

Den här CluedIn-arkitekturen ger företag mått om kvaliteten på data som matas in, intelligent identifiering av smutsiga data och förberedelse av dem för rensning av datatekniker och dataförvaltare. Proprietära fuzzy logic machine learning-algoritmer hjälper företagsanvändare och kuratorer att märka data och lär systemet att identifiera, korrigera och förhindra datakvalitetsproblem över tid.

Arkitektur

Diagram showing CluedIn architectural structure and data flow.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

CluedIn-lösningen består av olika funktionella lager som körs i ett Kubernetes-kluster i Azure Kubernetes Service (AKS). En kombination av .NET Core-mikrotjänstprogram hanterar distinkta funktioner som datainmatning, strömmande databearbetning, köer och användargränssnitt.

  1. Crawlningslagret CluedIn matar in data från kundmolnkällor som Azure SQL DB, Azure Cosmos DB, PostgreSQL och Salesforce-databaser via Azure Data Factory-anslutningsappar.

    CluedIn tar också indata från lokala tillgängliga system som SAP, Oracle, IBM och Hadoop, eller kan använda lokala agenter för att crawla icke-offentliga data.

  2. Enterprise Service Bus ansluter via portarna 5672 och 15672 för administratörsslutpunkter. Crawlare skickar data till bussen och bearbetningslagret förbrukar data från bussen via port 5672.

  3. Transaktionslogglagret tar resultat från bearbetningsskiktet.

  4. I beständighetslagret använder databaser data från transaktionsloggen och bevarar dem för att ge slutlig konsekvens i de olika datalagren. Alla butiker körs i hög tillgänglighetsläge (HA).

    Till skillnad från datavirtualisering matar CluedIn persistence-lagret in delar av källdata och bevarar den högsta återgivningsversionen av data och dess struktur. Den här höga återgivningen innebär att CluedIn Data Fabric kan hantera affärsbegäranden för data i valfritt format eller modell.

  5. Dataabstraktionsskiktet ansluter till de olika datalagren via portarna för varje lager.

  6. Dataåtkomst sker via GraphQL-, REST- och WebSockets-anrop via port 443. GraphQL och REST använder en pull-modell, och WebSockets använder en push-modell.

    CluedIn skyddar dataåtkomsten genom begränsning och CSRF-skydd (Cross-Site Request Forgery).

  7. CluedIn-ASP.NET Core-webbprogrammet kommunicerar via en kombination av REST- och GraphQL-anrop via port 443.

    All kommunikation från webbläsaren till programmet använder en uppsättning ingående definitioner, som endast kräver en enda offentlig IP-adress. I en produktionsmiljö är all kommunikation över SSL (Secure Socket Layer).

  8. CluedIn-programmet tillhandahåller rensade, bearbetade data till analystjänster som Power BI och Azure Synapse Analytics för att generera insikter. Systemet säkerhetskopierar och lagrar alla data i SQL- eller Redis-databaser.

Komponenter

CluedIn körs på Azure Kubernetes Service (AKS), en mycket tillgänglig, säker och fullständigt hanterad Kubernetes-tjänst för distribution och hantering av containerbaserade program. AKS erbjuder serverlösa Kubernetes, integrerad CI/CD och säkerhet och styrning i företagsklass.

CluedIn använder och stöder många databaskällor och tjänster, inklusive:

  • Azure SQL Database, en hanterad relationsmolndatabastjänst som alltid är uppdaterad och som automatiskt kan skala resurser på begäran.
  • Azure SQL Managed Instance för bred SQL Server-motorkompatibilitet med befintliga SQL Server-program. SQL Managed Instance tillhandahåller lokala databasinfrastrukturer med Azure-molnfördelar som elastisk skalning, enhetlig hantering och en molnfaktureringsmodell.
  • Azure Cosmos DB, en fullständigt hanterad, icke-relationell NoSQL-serverlös databas för modern apputveckling.
  • Azure Data Lake, en skalbar tjänst för datalagring och analys.
  • Azure Data Factory, en fullständigt hanterad, serverlös dataintegreringslösning för inmatning, förberedelse och transformering av data i stor skala. CluedIn använder över 90 inbyggda Data Factory-anslutningsappar för att hämta data från källor som Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow och alla Azure-datatjänster.

CluedIn tillhandahåller bearbetade, styrda data till många analysappar och -tjänster, inklusive:

  • Azure Databricks, en snabb, enkel och samarbetsbaserad Apache Spark-baserad analystjänst.
  • Azure Synapse Analytics, en gränslös analystjänst som samlar företagsdatalager och stordataanalys.
  • Log Analytics, ett Azure-portalverktyg för att redigera, köra och analysera frågor från Azure Monitor-loggdata.
  • Azure Cognitive Services, en omfattande familj av AI-tjänster och kognitiva API:er för att skapa intelligenta appar.
  • Power BI, en Microsoft Business Analytics-tjänst som kombinerar interaktiva visualiseringar och business intelligence med ett lättanvänt gränssnitt för att skapa rapporter.

Information om scenario

Moderna företag baserar många processer och projekt på data, men rådata måste förberedas för förbrukning. Dataanvändningsfall från avancerad analys till maskininlärning kräver alla liknande processer för förberedelse av data och uppmärksamhet.

  1. Dataprojekt börjar med dataidentifiering för att avgöra var data är och vilka system de använder.
  2. Dataintegrering samlar sedan flera datakällor i en enhetlig eller ansluten datauppsättning.
  3. Nästa steg är att normalisera, standardisera, harmonisera och rensa data så att datorer kan bearbeta dem på ett enhetligt, konsekvent och hög återgivningssätt.
  4. Slutligen måste data göras enkla och lättillgängliga för affärsbehov.

Under dessa processer måste styrningen säkerställa datakontroll och sekretessskydd med tydligt ägande, fullständig spårbarhet och ett spårningsspår för data ursprung, bearbetning och användning.

CluedIn-plattformen kapslar in dessa datahanteringsprocesser och grundpelare i en sammanhängande, konsekvent, heltäckande MDM-lösning (Master Datahantering). CluedIn använder en dataintegreringsteknik som kallas slutlig anslutning som ger bättre resultat än klassiska ETL-modeller (extract, transform, load) eller extract, load, transform (ELT). Eventuell anslutning använder GraphQL-frågor för att sömlöst blanda data från många siloade datakällor.

Med eventuell anslutning kopplas inte data till eller blandas vid inmatning eller inläsning i andra system. I stället läser CluedIn in data som de är och taggar poster med metadata. Slutligen sammanfogar eller skapar poster med samma taggar en relation i diagrammet.

Den här avancerade datasammanslagningen ger en grund för datadrivna lösningar. CluedIn Data Fabric integrerar data i en pipeline som rensar, förbereder, modeller, styr, berikar, deduplicerar och katalogiserar data för att göra dem lättillgängliga och tillgängliga för företagsbruk.

CluedIn ger företag mått om kvaliteten på data som matas in, intelligent identifiering av smutsiga data och förberedelse av dem för rensning av datatekniker och dataförvaltare. Proprietära fuzzy logic machine learning-algoritmer hjälper företagsanvändare och kuratorer att märka data och lär systemet att identifiera, korrigera och förhindra datakvalitetsproblem över tid.

CluedIn innehåller styrning i företagsklass för att försäkra dig om att du kan använda dina data på ett säkert och säkert sätt. CluedIn kan strömma rensade, styrda data direkt till analyssystem som Power BI, Azure Databricks, Azure Synapse Analytics eller Azure Cognitive Services för att göra dem lättillgängliga för resten av verksamheten. Internt stöd för automatisk skalning utnyttjar kraften i Azure för att tillhandahålla en skalbar miljö för de största dataarbetsbelastningarna.

Potentiella användningsfall

Skapa en enda vy över data

  • På grund av CluedIns semantiska modellering gör det det mycket enklare att skapa en enda vy av dina huvuddata jämfört med traditionella metoder. CluedIns kunder använder CluedIn för att skapa en ansluten, historisk och högkvalitativ vy över sina mest kritiska affärsdata. CluedIn stöder inte bara hantering av klassiska huvuddomäner som Personer, företag, leverantörer och produkter – det stöder och oändligt antal olika domäner samt ostrukturerade domäner som filer, e-post, händelser med mera. Om du behöver en centraliserad lagringsplats med huvuddata som är ren, berikad, styrd, kvalitetskontrollerad och katalogiserad passar CluedIn bra för dina användningsfall.

En datainfrastruktur

  • CluedIn är en Gartner Cool Vendor 2020, på grund av dess förmåga att orkestrera data från 10-, 100- och 1000-talet av olika och komplexa datakällor till en enhetlig datahubb. Om du behöver omvandla data från många olika datakällor enkelt kan CluedIn användas som en datainfrastruktur för att uppnå detta. Detta kan ge en strömmande infrastruktur för dina data som också proaktivt kan rensa och hantera data när de flödar till nedströmskonsumenter.

Avancerad sammanslagning och länkning av huvuddata

  • CluedIns unika datamodelleringsmetod använder en grafdatabas, som gör att komplexa data kan sammanfogas och länkas med enkelhet. Till skillnad från traditionella metoder lägger CluedIn till ytterligare maskininlärnings- och grafanalyser för att sammanfoga, matcha och länka poster med mycket hög precision.

Att tänka på

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.

Tillförlitlighet

Tillförlitlighet säkerställer att ditt program kan uppfylla de åtaganden du gör gentemot dina kunder. Mer information finns i Översikt över tillförlitlighetspelare.

  • CluedIn tar automatiska dagliga databassäkerhetskopieringar och håller dem i långsiktig lagring i 30 dagar som standard. Hela plattformen bygger på redundanta, feltoleranta staplar som underhåller säkerhetskopior för alla undersystem. Övervakningssystem dygnet runt säkerställer att tjänsterna är så ouppnåelig som möjligt. CluedIn följer branschstandardmetoder för infrastrukturredundans.

  • CluedIn ytbehandlar och lagrar bara en representation av dina data, inte den ursprungliga versionen. Om CluedIn identifierar destruktiva dataintrång kan det tillfälligt rensa CluedIn-data från dina servrar. När intrånget avtar samlar CluedIn in data igen för att återgå till sitt ursprungliga tillstånd.

  • Alla datalager körs i läget för hög tillgänglighet.

Skalbarhet

  • CluedIn körs i Docker-containrar och använder Kubernetes som värd för och samordnar de olika delarna av programmet. Den här arkitekturen innebär att CluedIn fungerar bra i elastiska miljöer och automatiskt kan skalas efter nödvändiga storlekar och infrastruktur.

  • Internt stöd för automatisk skalning utnyttjar kraften i Azure för att tillhandahålla en skalbar miljö för de största dataarbetsbelastningarna.

  • Schemalös grafmodellering härleder automatiskt en datamodell från källdata. Nya datakällor ansluter automatiskt till alla andra datakällor i stället för att uttryckligen behöva integreras. Antalet datakällor kan skalas oändligt utan att öka integreringskomplexiteten.

Säkerhet

Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Översikt över säkerhetspelare.

  • CluedIn-säkerhet ger behörigheter och kontroller åtkomst till olika tjänster via Azure RBAC, med Säkerhetsnyckelkontroll för Azure Key Vault och Åtkomstspårning och loggning i Azure Monitor .

  • Förutom autentiserade användarkonton stöder CluedIn även enkel inloggning (SSO) och identitetsramverk. Begäranden till CluedIn-programmet använder krypterade åtkomsttoken som inte har någon korrelation med användaridentiteten.

  • CluedIn hanterar lagrade datarepresentationer bakom flera brandväggs- och proxylager och autentiserar dem med en uppsättning unika nycklar.

  • CluedIn lagrar alla källdata med 256-bitars AES-kryptering, vilket är starkare än eller lika med krypteringsnivån för de datakällor som stöds.

  • Begränsning och CSRF-skydd skyddar dataåtkomsten.

DevOps

  • CluedIn använder pipelines för kontinuerlig integrering och kontinuerlig leverans i Azure Pipelines (CI/CD) för att hantera distributioner och löpande uppdateringar av AKS-miljön.

  • CluedIn stöder enhets-, integrerings- och funktionell testning för att säkerställa att data transformeras som förväntat. Virtualiserade bearbetningspipelines kan köras i minnet för sandbox-testning. Försäkran i produktionsklass kan hjälpa dig att felsöka och spåra dataproblem.

  • För testnings- och produktionsmiljöer tillhandahåller CluedIn ett Helm-pakethanterardiagram för att snabbt installera CluedIn i ett Kubernetes-kluster. Fullständigt skriptade datadistributionsprocesser stöder installation, testning och distribution.

Kostnadsoptimering

Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Översikt över kostnadsoptimeringspelare.

Prissättningen för CluedIn är öppen och transparent. Du kan se prissättningen på deras webbplats.

Azure storleksanpassar och startar en utvärderingsversion

Du kan starta en 7-dagars utvärderingsversion av CluedIn på deras webbplats, vilket också kan hjälpa dig att begränsa dina Azure-värdkostnader med fördefinierade Azure-uppskattningar för miljöer av olika storlekar.

Distribuera det här scenariot

  • Information om hur du distribuerar CluedIn i utvecklings- och utvärderingssyfte med Docker finns i CluedIn med Docker.

  • Information om hur du installerar CluedIn snabbt i ett Kubernetes-kluster finns i CluedIn med Kubernetes. Helm-diagrammet installerar CluedIn-servern, webbplatsen och andra nödvändiga tjänster, till exempel lagring och köer.

Nästa steg

  • Mer information om CluedIn finns på CluedIn-webbplatsen.
  • Information om CluedIn-dokumentation finns i CluedIn-dokumentationen.