Správa hlavních dat pomocí Profisee a Azure Data Factory

Azure Data Factory
Azure Databricks
Azure Data Lake

Tento model architektury ukazuje, jak můžete začlenit MDM do ekosystému datových služeb Azure za účelem zlepšení kvality dat používaných k analýze a provoznímu rozhodování. MDM řeší několik běžných problémů, mezi které patří:

  • Identifikace a správa duplicitních dat (shoda a sloučení)
  • Označení příznakem a řešení problémů s kvalitou dat
  • Standardizace a rozšiřování dat
  • Umožňuje správci dat proaktivně spravovat a vylepšovat data.

Tento model představuje moderní přístup k MDM. Všechny technologie se dají nasadit nativně v Azure, včetně Profisee, které můžete nasadit prostřednictvím kontejnerů a spravovat pomocí služby Azure Kubernetes Service.

Architektura

Diagram showing the master data management Profisee data flow.

Stáhněte si soubor Visia s diagramy použitými v této architektuře.

Tok dat

Následující tok dat odpovídá předchozímu diagramu:

  1. Načtení zdrojových dat: Zdrojová data z obchodních aplikací se zkopírují do Azure Data Lake a uloží je pro další transformaci a použití v podřízených analýzách. Zdrojová data obvykle spadají do jedné ze tří kategorií:

    • Strukturovaná hlavní data – informace popisované zákazníky, produkty, umístění atd. Hlavní data jsou nízká, složitá a mění se pomalu v průběhu času. Často se jedná o data, se kterými organizace bojuje nejvíce z hlediska kvality dat.
    • Strukturovaná transakční data – obchodní události, ke kterým dochází v určitém časovém okamžiku, například objednávka, faktura nebo interakce. Transakce zahrnují metriky pro danou transakci (například prodejní cenu) a odkazy na hlavní data (například produkt a zákazník zapojený do nákupu). Transakční data jsou obvykle vysoká, nízká složitost a v průběhu času se nemění.
    • Nestrukturovaná data – Data, která můžou zahrnovat dokumenty, obrázky, videa, obsah sociálních médií a zvuk. Moderní analytické platformy můžou stále častěji využívat nestrukturovaná data k získání nových přehledů. Nestrukturovaná data jsou často přidružená k hlavním datům, například k zákazníkovi přidruženému k účtu sociálních médií nebo k produktu přidruženému k obrázku.
  2. Načtení zdrojových hlavních dat: Hlavní data ze zdrojových obchodních aplikací se načítají do aplikace MDM tak, jak jsou, s úplnými informacemi o rodokmenu a minimálními transformacemi.

  3. Automatizované zpracování MDM: Řešení MDM používá automatizované procesy ke standardizaci, ověřování a rozšiřování dat, jako jsou data adres. Řešení také identifikuje problémy s kvalitou dat, seskupuje duplicitní záznamy (například duplicitní zákazníky) a generuje hlavní záznamy, označované také jako "zlaté záznamy".

  4. Správa dat: Podle potřeby mohou správci dat:

    • Kontrola a správa skupin odpovídajících záznamů
    • Vytváření a správa relací dat
    • Vyplnění chybějících informací
    • Vyřešte problémy s kvalitou dat.

    Správci dat můžou podle potřeby spravovat několik alternativních hierarchických roll-upů, jako jsou hierarchie produktů.

  5. Zatížení spravovaných hlavních dat: Vysoce kvalitní hlavní data se přetékají do podřízených analytických řešení. Tato akce zjednodušuje proces, protože integrace dat už nevyžadují transformace kvality dat.

  6. Transakční a nestrukturované načtení dat: Transakční a nestrukturovaná data se načítají do řešení pro podřízenou analýzu, kde je kombinuje s vysoce kvalitními hlavními daty.

  7. Vizualizace a analýza: Data se modelují a zpřístupní podnikovým uživatelům k analýze. Vysoce kvalitní hlavní data eliminují běžné problémy s kvalitou dat, což vede k lepším přehledům.

Komponenty

  • Azure Data Factory je hybridní služba pro integraci dat, která umožňuje vytvářet, plánovat a orchestrovat pracovní postupy ETL a ELT.

  • Azure Data Lake poskytuje neomezené úložiště pro analytická data.

  • Profisee je škálovatelná platforma MDM, která je navržená pro snadnou integraci s ekosystémem Microsoftu.

  • Azure Synapse Analytics je rychlý, flexibilní a důvěryhodný cloudový datový sklad, který umožňuje elasticky, výpočetní prostředky a ukládat data elasticky a nezávisle na sobě s architekturou masivního paralelního zpracování.

  • Power BI je sada nástrojů pro obchodní analýzy, které poskytují přehledy v celé organizaci. Připojení na stovky zdrojů dat, zjednodušte přípravu dat a podnětujte improvizovanou analýzu. Můžete vytvářet působivé sestavy a potom je pro vaši organizaci publikovat na webu a napříč mobilními zařízeními.

Alternativy

Chybí účelová aplikace MDM, můžete najít některé technické funkce potřebné k vytvoření řešení MDM v ekosystému Azure.

  • Kvalita dat – Při načítání do analytické platformy můžete do integračních procesů sestavit kvalitu dat. Použijte například transformace kvality dat v kanálu Azure Data Factory s pevně zakódovanými skripty.
  • Standardizace a rozšiřování dat – Azure Mapy pomáhá zajistit ověření dat a standardizaci pro data adres, která můžete použít ve službě Azure Functions a Azure Data Factory. Standardizace jiných dat může vyžadovat vývoj pevně zakódovaných skriptů.
  • Duplicitní správa dat – Službu Azure Data Factory můžete použít k odstranění duplicitních dat řádků , ve kterých jsou k dispozici dostatečné identifikátory pro přesnou shodu. V tomto případě by logika sloučení odpovídala příslušnému přeživšímu skriptu pravděpodobně vyžadovala vlastní pevně zakódované skripty.
  • Správa dat – Pomocí Power Apps můžete rychle vyvíjet jednoduchá řešení správy dat pro správu dat v Azure spolu s příslušnými uživatelskými rozhraními pro kontrolu, pracovní postup, výstrahy a ověřování.

Podrobnosti scénáře

Mnoho programů digitální transformace používá Azure jako jádro. Závisí ale na kvalitě a konzistenci dat z více zdrojů, jako jsou obchodní aplikace, databáze, datové kanály atd. Poskytuje také hodnotu prostřednictvím business intelligence, analýz, strojového učení a dalších. Řešení Master Správa dat (MDM) společnosti Profisee dokončí datové aktiva Azure praktickou metodou pro "sladění a kombinování" dat z více zdrojů. Dělá to tak, že u zdrojových dat vynucuje konzistentní standardy dat, jako je shoda, sloučení, standardizace, ověření a oprava. Nativní integrace se službou Azure Data Factory a dalšími datovými službami Azure dále zjednodušuje tento proces, aby se urychlilo doručování obchodních výhod Azure.

Základním aspektem fungování řešení MDM je, že kombinují data z více zdrojů a vytvářejí "hlavní předlohu zlatých záznamů", která obsahuje nejlepší a důvěryhodná data pro každý záznam. Tato struktura vytváří podle požadavků doménu po doméně, ale téměř vždy vyžaduje více domén. Mezi běžné domény patří zákazník, produkt a umístění. Domény ale můžou představovat cokoli od referenčních dat až po kontrakty a názvy léků. Obecně platí, že lepší pokrytí domény, které můžete vytvořit vzhledem k širokým požadavkům na data Azure, tím lépe.

Kanál integrace MDM

Image that shows the master data management Profisee integration pipeline.

Stáhněte si soubor aplikace Visio s touto architekturou.

Předchozí obrázek ukazuje podrobnosti o integraci s řešením Profisee MDM. Všimněte si, že Azure Data Factory a Profisee zahrnují nativní podporu integrace REST, která poskytuje jednoduchou a moderní integraci.

  1. Načtení zdrojových dat do MDM: Azure Data Factory extrahuje data z datového jezera, transformuje je tak, aby odpovídaly hlavnímu datovému modelu, a streamuje je do úložiště MDM prostřednictvím jímky REST.

  2. Zpracování MDM: Platforma MDM zpracovává zdrojová hlavní data prostřednictvím posloupnosti aktivit pro ověření, standardizaci a rozšiřování dat a spouštění procesů kvality dat. MdM nakonec provádí porovnávání a přeživší, aby identifikoval a seskupil duplicitní záznamy a vytvořil hlavní záznamy. Volitelně mohou správci dat provádět úlohy, které mají za následek sadu hlavních dat pro použití v podřízených analýzách.

  3. Načtení hlavních dat pro analýzy: Azure Data Factory používá svůj zdroj REST k streamování hlavních dat z Profisee do Azure Synapse Analytics.

Šablony azure Data Factory pro Profisee

Ve spolupráci s Microsoftem vyvinul Profisee sadu šablon Azure Data Factory, které usnadňují integraci Profisee do ekosystému Azure Data Services. Tyto šablony používají zdroj dat REST služby Azure Data Factory a jímku dat ke čtení a zápisu dat z rozhraní REST Gateway API služby Profisee. Poskytují šablony pro čtení z a psaní do Profisee.

Screenshot that shows MDM Profisee and the Azure Data Factory template.

Příklad šablony služby Data Factory: JSON do Profisee přes REST

Následující snímky obrazovky ukazují šablonu služby Azure Data Factory, která kopíruje data ze souboru JSON v Azure Data Lake do Profisee prostřednictvím REST.

Šablona zkopíruje zdrojová data JSON:

Screenshot that shows the source JSON data.

Pak se data synchronizují s Profisee prostřednictvím REST:

Screenshot that shows REST sync to Profisee.

Další informace najdete v tématu Šablony služby Azure Data Factory pro Profisee.

Zpracování MDM

V případě použití analytické správy mobilních zařízení (MDM) data často zpracovávají prostřednictvím řešení MDM automaticky za účelem načtení dat pro analýzu. Následující části ukazují typický proces zákaznických dat v tomto kontextu.

1. Načtení zdrojových dat

Zdrojová data se načítají do řešení MDM ze zdrojových systémů, včetně informací o rodokmenu. V tomto případě máme dva zdrojové záznamy, jeden z CRM a jeden z aplikace ERP. Při vizuální kontrole se oba záznamy jeví jako stejné osoby.

Zdrojový název Zdrojová adresa Zdrojový stav Zdrojová Telefon ID zdroje Standardní adresa Standardní stav Standardní název Standardní Telefon Podobnost
Alana Bosh 123 Hlavní ulice GA 7708434125 CRM-100
Bosch, Alana 123 Hlavní st. Gruzie 404-854-7736 CRM-121
Alana Bosch (404) 854-7736 ERP-988

2. Ověření a standardizace dat

Pravidla ověřování a standardizace a služby pomáhají standardizovat a ověřovat informace o adrese, jménu a telefonním čísle.

Zdrojový název Zdrojová adresa Zdrojový stav Zdrojová Telefon ID zdroje Standardní adresa Standardní stav Standardní název Standardní Telefon Podobnost
Alana Bosh 123 Hlavní ulice GA 7708434125 CRM-100 123 Hlavní st. GA Alana Bosh 770 843 4125
Bosch, Alana 123 Hlavní st. Gruzie 404-854-7736 CRM-121 123 Hlavní st. GA Alana Bosch 404 854 7736
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736

3. Párování

Při standardizovaných datech dochází ke shodě a identifikuje podobnost mezi záznamy ve skupině. V tomto scénáři se dva záznamy přesně shodují s názvem a Telefon a další přibližné shody u jména a adresy.

Zdrojový název Zdrojová adresa Zdrojový stav Zdrojová Telefon ID zdroje Standardní adresa Standardní stav Standardní název Standardní Telefon Podobnost
Alana Bosh 123 Hlavní ulice GA 7708434125 CRM-100 123 Hlavní st. GA Alana Bosh 770 843 4125 0,9
Bosch, Alana 123 Hlavní st. Gruzie 404-854-7736 CRM-121 123 Hlavní st. GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0

4. Survivorship

Se skupinou vytvořenou skupinu vytvoří a naplní hlavní záznam (označovaný také jako "zlatý záznam") pro reprezentaci skupiny.

Zdrojový název Zdrojová adresa Zdrojový stav Zdrojová Telefon ID zdroje Standardní adresa Standardní stav Standardní název Standardní Telefon Podobnost
Alana Bosh 123 Hlavní ulice GA 7708434125 CRM-100 123 Hlavní st. GA Alana Bosh 770 843 4125 0,9
Bosch, Alana 123 Hlavní st. Gruzie 404-854-7736 CRM-121 123 Hlavní st. GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0
Hlavní záznam: 123 Hlavní st. GA Alana Bosch 404 854 7736

Tento hlavní záznam spolu s vylepšenými zdrojovými daty a informacemi rodokmenu se načte do řešení pro podřízenou analýzu, kde odkazuje na transakční data.

Tento příklad ukazuje základní automatizované zpracování MDM. Pravidla kvality dat můžete také použít k automatickému výpočtu a aktualizaci hodnot a označení chybějících nebo neplatných hodnot pro správce dat k vyřešení. Správci dat pomáhají spravovat data, včetně správy hierarchických souhrnů dat.

Dopad MDM na složitost integrace

Jak je znázorněno dříve, MDM řeší několik běžných problémů, ke kterým dochází při integraci dat do analytického řešení. Zahrnuje opravu problémů s kvalitou dat, standardizaci a rozšiřování dat a racionalizaci duplicitních dat. Začlenění MDM do analytické architektury zásadně mění tok dat odstraněním pevně zakódované logiky v procesu integrace a jeho snižováním do řešení MDM, což výrazně zjednodušuje integraci. Následující tabulka popisuje některé běžné rozdíly v procesu integrace s MDM a bez nich.

Schopnost Bez MDM S MDM
Kvalita dat Integrační procesy zahrnují pravidla kvality a transformace, které pomáhají opravit a opravit data při přesouvání. Vyžaduje technické zdroje pro počáteční implementaci i průběžnou údržbu těchto pravidel, což zkomplikuje a zkomplikuje procesy integrace dat a jejich údržbu. Řešení MDM konfiguruje a vynucuje logiku a pravidla kvality dat. Procesy integrace neprovádějí žádné transformace kvality dat, místo toho přesunují data do řešení MDM. Procesy integrace dat jsou jednoduché a cenově dostupné pro vývoj a údržbu.
Standardizace a rozšiřování dat Integrační procesy zahrnují logiku pro standardizaci a sladění referenčních a hlavních dat. Vyvíjejte integrace se službami třetích stran pro standardizaci adres, jmen, e-mailů a telefonních dat. Pomocí integrovaných pravidel a předdefinovaných integrací s datovými službami třetích stran můžete standardizovat data v rámci řešení MDM, což zjednodušuje integraci.
Duplicitní správa dat Proces integrace identifikuje a seskupuje duplicitní záznamy, které existují v rámci aplikací a napříč aplikacemi, na základě existujících jedinečných identifikátorů. Tento proces sdílí identifikátory napříč systémy (například SSN nebo e-mail) a shoduje se s nimi a seskupuje je, pokud jsou identické. Sofistikovanější přístupy vyžadují významné investice do integračního inženýrství. Integrované funkce porovnávání strojového učení identifikují duplicitní záznamy v rámci systémů a napříč systémy a generují zlatý záznam, který představuje skupinu. Tento proces umožňuje záznamy "přibližné shody" seskupit záznamy, které jsou podobné, s vysvětlitelnými výsledky. Spravuje skupiny ve scénářích, kdy modul ML nemůže vytvořit skupinu s vysokou jistotou.
Správa dat Aktivity správy dat aktualizují data pouze ve zdrojových aplikacích, jako je ERP nebo CRM. Obvykle při provádění analýz objevují problémy, jako jsou chybějící, neúplná nebo nesprávná data. Opraví problémy ve zdrojové aplikaci a pak je během další aktualizace aktualizují v analytickém řešení. Všechny nové informace, které se mají spravovat, se přidají do zdrojových aplikací, což nějakou dobu trvá a je nákladné. Řešení MDM mají integrované možnosti správy dat, které uživatelům umožňují přístup k datům a jejich správu. V ideálním případě systém označí problémy a vyzve správce dat, aby je opravili. V řešení můžete rychle nakonfigurovat nové informace nebo hierarchie, aby je spravovali správci dat.

Případy použití MDM

I když pro MDM existuje mnoho případů použití, několik případů použití pokrývá většinu implementací MDM z reálného světa. I když se tyto případy použití zaměřují na jednu doménu, je nepravděpodobné, že by byly sestaveny pouze z této domény. Jinými slovy, i tyto prioritní případy použití s největší pravděpodobností zahrnují více hlavních datových domén.

Customer 360

Konsolidace zákaznických dat pro analýzy je nejběžnější případ použití MDM. Organizace zaznamenávají zákaznická data napříč rostoucím počtem aplikací, vytvářejí duplicitní zákaznická data v rámci aplikací a napříč aplikacemi s nekonzistencemi a nesrovnalostmi. Tato špatně kvalitní zákaznická data znesnadňuje realizaci hodnoty moderních analytických řešení. Mezi příznaky patří:

  • Těžko odpovědět na základní obchodní otázky, jako je "Kdo jsou naši nejlepší zákazníci?" a "Kolik nových zákazníků jsme měli?", což vyžaduje značné ruční úsilí.
  • Chybějící a nepřesné informace o zákazníci, což ztěžuje zavedení nebo procházení podrobností do dat.
  • Nemožnost analyzovat zákaznická data napříč systémy nebo obchodními jednotkami kvůli nemožnosti jedinečně identifikovat zákazníka napříč hranicemi organizace a systému.
  • Přehledy o nízké kvalitě z AI a strojového učení kvůli špatně kvalitním vstupním datům

Produkt 360

Data o produktech se často šíří napříč několika podnikovými aplikacemi, jako je ERP, PLM nebo elektronické obchodování. Výsledkem je výzva k pochopení celkového katalogu produktů, které mají nekonzistentní definice vlastností, jako je název, popis a charakteristiky produktu. A různé definice referenčních dat tuto situaci dále komplikují. Mezi příznaky patří:

  • Nemožnost podporovat různé alternativní hierarchické souhrnné postupy a cesty přechodu k podrobnostem pro analýzu produktů
  • Bez ohledu na to, jestli máte hotové zboží nebo materiálové zásoby, je obtížné přesně pochopit, jaké produkty máte na ruce, dodavatelé, od kterých si produkty koupíte, a duplicitní produkty, což vede k nadbytečným zásobám.
  • Potíže s racionalizací produktů z důvodu konfliktních definic, které vedou k chybějícím nebo nepřesným informacím v analýzách.

Referenční data 360

V kontextu analýzy existují referenční data jako řada seznamů dat, která pomáhají podrobněji popsat další sady hlavních dat. Referenční data můžou zahrnovat seznamy zemí a oblastí, měn, barev, velikostí a měrných jednotek. Nekonzistentní referenční data vedou k očividným chybám v podřízených analýzách. Mezi příznaky patří:

  • Více reprezentací stejné věci. Například stát Georgia se zobrazuje jako "GA" a "Gruzie", což znesnadňuje agregaci a procházení podrobností o datech konzistentně.
  • Potíže s agregací dat z různých aplikací kvůli nemožnosti přecházet mezi referenčními datovými hodnotami mezi systémy. Například červená barva se v systému ERP zobrazuje jako "R" a "Červená" v systému PLM.
  • Potíže s porovnáváním čísel napříč organizacemi kvůli rozdílům v dohodnutých hodnotách referenčních dat pro kategorizaci dat.

Finance 360

Finanční organizace se silně spoléhají na data pro důležité aktivity, jako jsou měsíční, čtvrtletní a roční vykazování. Organizace s více finančními a účetními systémy často mají finanční data v několika obecných registrech, které konsolidují za účelem vytváření finančních sestav. MDM může poskytovat centralizované místo pro mapování a správu účtů, nákladových center, obchodních entit a dalších finančních datových sad do konsolidovaného zobrazení. Mezi příznaky patří:

  • Potíže s agregací finančních dat napříč několika systémy do konsolidovaného zobrazení
  • Nedostatek procesu přidávání a mapování nových datových prvků ve finančních systémech.
  • Zpoždění při vytváření finančních zpráv na konci období.

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Spolehlivost

Spolehlivost zajišťuje, že vaše aplikace může splňovat závazky, které uděláte pro vaše zákazníky. Další informace najdete v tématu Přehled pilíře spolehlivosti.

Profisee běží nativně ve službě Azure Kubernetes Service a Azure SQL Database. Obě služby nabízejí předefinované funkce, které podporují vysokou dostupnost.

Efektivita výkonu

Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilíře efektivity výkonu.

Profisee běží nativně ve službě Azure Kubernetes Service a Azure SQL Database. Službu Azure Kubernetes Service můžete nakonfigurovat tak, aby v závislosti na potřebě vertikálně navyšila a navyšila kapacitu Profisee. Azure SQL Database můžete nasadit v mnoha různých konfiguracích pro vyrovnávání výkonu, škálovatelnosti a nákladů.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Profisee ověřuje uživatele prostřednictvím OpenID Připojení, která implementuje tok ověřování OAuth 2.0. Většina organizací konfiguruje Profisee pro ověřování uživatelů pomocí Microsoft Entra ID. Tento proces zajišťuje použití a vynucení podnikových zásad pro ověřování.

Optimalizace nákladů

Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

Provozní náklady se skládají z softwarové licence a spotřeby Azure. Další informace získáte od společnosti Profisee.

Nasazení tohoto scénáře

Nasazení tohoto scénáře:

  1. Nasazení Profisee do Azure pomocí šablony ARM
  2. Vytvoření služby Azure Data Factory
  3. Nakonfigurujte službu Azure Data Factory tak, aby se připojila k úložišti Git.
  4. Do úložiště Git služby Azure Data Factory přidejte šablony Azure Data Factory služby Profisee.
  5. Vytvořte nový kanál služby Azure Data Factory pomocí šablony.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky

Průvodci architekturou

Referenční architektury