Hlavní principy pro jezeře

Článek
03/05/2024

Guiding principles are level-zero rules that define and influence your architecture. Pokud chcete vytvořit datové jezero, které vaší firmě pomůže nyní a v budoucnu uspět, je zásadní konsensus mezi zúčastněnými stranami ve vaší organizaci.

Curate data and offer trusted data-as-products

K vytvoření datového jezera s vysokou hodnotou pro BI a ML/AI je nezbytné se vytvářet data. Zacházejte s daty jako s produktem s jasnou definicí, schématem a životním cyklem. Zajistěte sémantickou konzistenci a že se kvalita dat zlepšuje z vrstvy na vrstvu, aby podnikoví uživatelé mohli data plně důvěřovat.

Curate data and offer trusted data-as-products

Stanovením vrstvené architektury (neboli více segmentů směrování) je pro lakehouse zásadní osvědčený postup, protože datové týmy umožňují strukturovat data podle úrovní kvality a definovat role a odpovědnosti na vrstvu. Běžným přístupem k vrstvení je:

Vrstva Ingestace: Zdrojová data se ingestují do jezera do první vrstvy a měly by se tam uchovávat. Při vytvoření všech podřízených dat z ingestovací vrstvy je možné v případě potřeby znovu sestavit následné vrstvy z této vrstvy.
Kurátorovaná vrstva: Účelem druhé vrstvy je uchovávat vyčištěná, upřesňující, filtrovaná a agregovaná data. Cílem této vrstvy je poskytnout zvukový, spolehlivý základ pro analýzy a sestavy napříč všemi rolemi a funkcemi.
Konečná vrstva: Třetí vrstva se vytváří podle potřeb obchodních nebo projektů. Poskytuje jiný pohled jako datové produkty pro jiné obchodní jednotky nebo projekty, přípravu dat podle potřeb zabezpečení (například anonymizovaných dat) nebo optimalizaci výkonu (s předem agregovanými zobrazeními). Datové produkty v této vrstvě jsou považovány za pravdu pro firmu.

Kanály ve všech vrstvách musí zajistit splnění omezení kvality dat, což znamená, že data jsou přesná, úplná, přístupná a konzistentní za všech okolností, a to i během souběžných čtení a zápisů. Ověření nových dat probíhá v době zadávání dat do kurátorované vrstvy a následující kroky ETL pracují na zlepšení kvality těchto dat. Kvalita dat se musí zlepšit, protože data procházejí vrstvami a vztah důvěryhodnosti dat se následně zvyšuje z obchodního hlediska.

Eliminace datových sila a minimalizace přesunu dat

Nevytvávejte kopie datové sady s obchodními procesy, které se spoléhají na tyto různé kopie. Kopie se můžou stát datovými silami, které se přestanou synchronizovat, což vede k nižší kvalitě datového jezera a nakonec k zastaralým nebo nesprávným přehledům. Pro sdílení dat s externími partnery také použijte podnikový mechanismus sdílení, který umožňuje zabezpečený přístup k datům.

Eliminate data silos and minimize data movement

Chcete-li jasně rozlišovat mezi kopírováním dat a silo dat: Samostatná nebo vyhazovaná kopie dat není sama o sobě škodlivá. Někdy je nutné zvýšit flexibilitu, experimentování a inovace. Pokud se však tyto kopie stanou funkčními s podřízenými obchodními datovými produkty závislými na nich, stanou se datovými silami.

Aby se zabránilo datovým sila, datové týmy se obvykle pokoušejí vytvořit mechanismus nebo datový kanál, aby všechny kopie byly synchronizované s původním. Vzhledem k tomu, že se to pravděpodobně nestane konzistentně, kvalita dat se nakonec sníží. To může také vést k vyšším nákladům a významné ztrátě důvěry uživatelů. Na druhé straně několik případů obchodního použití vyžaduje sdílení dat s partnery nebo dodavateli.

Důležitým aspektem je bezpečné a spolehlivé sdílení nejnovější verze datové sady. Kopie datové sady často nestačí, protože se můžou rychle dostat ze synchronizace. Místo toho by se data měla sdílet prostřednictvím nástrojů pro sdílení podnikových dat.

Demokratizace vytváření hodnot prostřednictvím samoobslužné služby

Nejlepší datové jezero nemůže poskytnout dostatečnou hodnotu, pokud uživatelé nemají přístup k platformě nebo datům pro své úlohy BI a ML/AI. Snižte bariéry pro přístup k datům a platformám pro všechny obchodní jednotky. Zvažte procesy správy štíhlých dat a poskytněte samoobslužný přístup k platformě a podkladovým datům.

Democratize value creation through self-service

Firmy, které se úspěšně přesunuly do kultury řízené daty, budou úspěšně fungovat. To znamená, že každá obchodní jednotka odvozuje svá rozhodnutí z analytických modelů nebo z analýzy vlastních nebo centrálně poskytnutých dat. Pro uživatele musí být data snadno zjistitelná a bezpečně přístupná.

Dobrým konceptem pro producenty dat je "data jako produkt": Data jsou nabízena a udržována jednou obchodní jednotkou nebo obchodním partnerem, jako je produkt a využívají je ostatní strany se správným řízením oprávnění. Místo toho, abyste se spoléhali na centrální tým a potenciálně pomalé procesy požadavků, musí se tyto datové produkty vytvářet, nabízet, zjišťovat a využívat v samoobslužných prostředích.

Nejedná se ale jenom o data, která jsou důležitá. Demokratizace dat vyžaduje správné nástroje, které umožní všem vytvářet nebo využívat a porozumět datům. K tomu potřebujete, aby datové jezero bylo moderní platformou a platformou AI, která poskytuje infrastrukturu a nástroje pro vytváření datových produktů bez duplikování úsilí o nastavení jiného zásobníku nástrojů.

Přijetí strategie zásad správného řízení dat pro celou organizaci

Data jsou kritickým prostředkem jakékoli organizace, ale nemůžete všem udělit přístup ke všem datům. Přístup k datům musí být aktivně spravován. Řízení přístupu, auditování a sledování rodokmenu jsou klíčem ke správnému a zabezpečenému používání dat.

Adopt an organizationwide data governance strategy

Zásady správného řízení dat jsou široké téma. Jezero zahrnuje následující rozměry:

Kvalita dat

Nejdůležitějším předpokladem pro správné a smysluplné sestavy, výsledky analýzy a modely jsou vysoce kvalitní data. Kontrola kvality (QA) musí existovat v rámci všech kroků kanálu. Mezi příklady implementace patří kontrakty dat, schůzky smluv SLA, zachování stabilních schémat a jejich vývoj řízeným způsobem.
Katalog dat

Dalším důležitým aspektem je zjišťování dat: Uživatelé všech obchodních oblastí, zejména v samoobslužném modelu, musí být schopni snadno zjišťovat relevantní data. Jezero proto potřebuje katalog dat, který pokrývá všechna obchodní data. Hlavní cíle katalogu dat jsou následující:
- Ujistěte se, že je stejný obchodní koncept jednotně volána a deklarována v rámci firmy. Můžete si to představit jako sémantický model ve kurátorované a konečné vrstvě.
- Sledujte rodokmen dat přesně tak, aby uživatelé mohli vysvětlit, jak tato data přišla do aktuálního tvaru a formuláře.
- Udržujte vysoce kvalitní metadata, která jsou stejně důležitá jako samotná data pro správné použití dat.
Řízení přístupu

Vzhledem k tomu, že vytváření hodnot z dat v jezeře probíhá ve všech obchodních oblastech, musí být jezero postaveno se zabezpečením jako prvotřídní občan. Společnosti můžou mít více otevřené zásady přístupu k datům nebo přísně dodržují zásadu nejnižších oprávnění. Nezávisle na tom musí být ovládací prvky přístupu k datům zavedeny v každé vrstvě. Od samého začátku je důležité implementovat jemně odstupňovaná schémata oprávnění (řízení přístupu na úrovni sloupců a řádků, řízení přístupu na základě role nebo atributu). Společnosti můžou začít s méně striktními pravidly. Jak ale platforma lakehouse roste, měly by už být zavedeny všechny mechanismy a procesy pro sofistikovanější bezpečnostní režim. Kromě toho se veškerý přístup k datům v jezeře musí řídit protokoly auditu z get-go.

Podpora otevřených rozhraní a otevřených formátů

Otevřená rozhraní a datové formáty jsou zásadní pro interoperabilitu mezi lakehousem a dalšími nástroji. Zjednodušuje integraci se stávajícími systémy a otevírá také ekosystém partnerů, kteří integrovali své nástroje s platformou.

Encourage open interfaces and open formats

Otevřená rozhraní jsou důležitá pro zajištění interoperability a zabránění závislosti na každém dodavateli. Dodavatelé tradičně vytvořili proprietární technologie a uzavřená rozhraní, která omezují podniky způsobem, jakým mohou ukládat, zpracovávat a sdílet data.

Sestavování na otevřených rozhraních vám pomůže v budoucnu:

Zvyšuje dlouhověkost a přenositelnost dat, abyste je mohli používat s více aplikacemi a pro více případů použití.
Otevře ekosystém partnerů, kteří mohou rychle využít otevřená rozhraní k integraci svých nástrojů do platformy lakehouse.

A konečně, standardizací otevřených formátů pro data budou celkové náklady výrazně nižší; k datům můžete přistupovat přímo v cloudovém úložišti, aniž by bylo nutné je předávat prostřednictvím proprietární platformy, která může mít vysoké náklady na výchozí a výpočetní výkon.

Sestavení pro škálování a optimalizaci výkonu a nákladů

Data se nutně stále zvětšují a stávají se složitějšími. Pokud chcete svou organizaci vybavit budoucími potřebami, měla by být vaše jezerna schopná škálovat. Měli byste být například schopni snadno přidávat nové prostředky na vyžádání. Náklady by měly být omezené na skutečnou spotřebu.

Build to scale and optimize for performance and cost

Standardní procesy ETL, obchodní sestavy a řídicí panely mají často předvídatelnou potřebu prostředků z hlediska paměti a výpočtu. Nové projekty, sezónní úkoly nebo moderní přístupy, jako je trénování modelů (četnost změn, prognóza, údržba), ale generují špičky potřeb zdrojů. Aby firma mohla provádět všechny tyto úlohy, je potřeba škálovatelná platforma pro paměť a výpočty. Nové prostředky se musí snadno přidávat na vyžádání a náklady by měly generovat pouze skutečná spotřeba. Jakmile špička skončí, můžou se prostředky znovu uvolnit a odpovídajícím způsobem snížit náklady. Často se to označuje jako horizontální škálování (méně nebo více uzlů) a vertikální škálování (větší nebo menší uzly).

Škálování také umožňuje firmám zlepšit výkon dotazů výběrem uzlů s více prostředky nebo clustery s více uzly. Místo trvalého poskytování velkých počítačů a clusterů je ale možné je zřídit na vyžádání pouze po dobu potřebnou k optimalizaci celkového výkonu a poměru nákladů. Dalším aspektem optimalizace je úložiště a výpočetní prostředky. Vzhledem k tomu, že mezi objemem dat a úlohami používajícími tato data neexistuje žádný jasný vztah (například pouze použití částí dat nebo provádění náročných výpočtů s malými daty), je vhodné se vyrovnat na platformě infrastruktury, která odděluje úložiště a výpočetní prostředky.

Sdílet prostřednictvím

Hlavní principy pro jezeře

Curate data and offer trusted data-as-products

Eliminace datových sila a minimalizace přesunu dat

Demokratizace vytváření hodnot prostřednictvím samoobslužné služby

Přijetí strategie zásad správného řízení dat pro celou organizaci

Podpora otevřených rozhraní a otevřených formátů

Sestavení pro škálování a optimalizaci výkonu a nákladů

Další materiály