Extrakce, transformace a načtení (ETL)
Běžný problém, který organizace čelí, je shromažďování dat z více zdrojů, ve více formátech a jejich přesun do jednoho nebo více úložišť dat. Cíl nesmí být stejného typu jako zdroj dat a často se jedná o jiný formát, nebo musí být data před jejich načtením do konečného umístění vyčištěna nebo vyčištěna.
V průběhu let byly vyvinuty různé nástroje, služby a procesy, které vám pomůžou tyto výzvy vyřešit. Bez ohledu na to, jaký proces se používá, je potřeba koordinovat práci a použít určitou úroveň transformace dat v rámci datového kanálu. V následujících částech jsou zvýrazněny běžné metody použité k provedení těchto úloh.
Proces extrakce, transformace a načítání (ETL)
Extrakce, transformace a načítání (ETL) je datový kanál, který slouží ke shromažďování dat z různých zdrojů, transformaci dat podle obchodních pravidel a jejich načtení do cílového úložiště dat. Transformace práce v ETL probíhá ve specializovaném stroji a často zahrnuje použití pracovních tabulek k dočasnému uchovávání dat při jejich transformaci a jejich navýšení do cíle.
Transformace dat, která se provádí, obvykle zahrnuje různé operace, jako je filtrování, řazení, agregace, spojování dat, čištění dat, odstraňování duplicit a ověřování dat.

Tři fáze ETL jsou často spouštěny paralelně za účelem úspory času. Například během extrahování dat může proces transformace pracovat s daty, která již byla přijata, a připravit je pro načtení a proces načítání může začít pracovat na připravených datech, a ne čekat na dokončení celého procesu extrakce.
Relevantní služba Azure:
Další nástroje:
Extrakce, načítání a transformace (ELT)
Extrakce, načítání a transformace (ELT) se liší od ETL výhradně v místě, kde probíhá transformace. V kanálu ELT dojde k transformaci v cílovém úložišti dat. Místo použití samostatného transformačního modulu se k transformaci dat použijí možnosti zpracování cílového úložiště dat. Tím se zjednoduší architektura odebráním transformačního modulu z kanálu. Další výhodou tohoto přístupu je, že škálování cílového úložiště dat také škáluje výkon kanálu ELT. ELT ale dobře funguje jenom v případě, že je cílový systém dostatečně výkonný, aby bylo možné efektivně transformovat data.

Typické případy použití pro ELT spadají do sféry velkých objemů dat. Můžete například začít extrakcí všech zdrojových dat do plochých souborů v škálovatelném úložišti, jako je Hadoop Distributed File System (HDFS) nebo Azure Data Lake Store. Pro dotazy na zdrojová data se pak dají použít technologie, jako je Spark, podregistr nebo Základnový základ. Klíčovým bodem s ELT je, že úložiště dat, které se používá k provedení transformace, je stejné jako úložiště dat, ve kterém se data nakonec spotřebují. Toto úložiště dat čte přímo z škálovatelného úložiště, místo aby se data načetla do vlastního proprietárního úložiště. Tento přístup přeskočí krok kopírování dat přítomný v ETL, což může být časově náročná operace pro velké datové sady.
V praxi je cílovým úložištěm dat datový sklad , který využívá cluster Hadoop (pomocí podregistru nebo Sparku) nebo Azure synapse Analytics. Obecně platí, že schéma je překryto na data plochého souboru v době dotazu a ukládají se jako tabulka a povoluje se tak dotazování na data stejně jako na jiné tabulky v úložišti dat. Jsou označovány jako externí tabulky, protože data se nenacházejí v úložišti spravovaném samotným úložištěm dat, ale na některých externích škálovatelných úložištích.
Úložiště dat spravuje pouze schéma dat a používá schéma při čtení. Například cluster Hadoop s použitím podregistru popisuje tabulku podregistru, ve které je zdroj dat efektivní cestou k sadě souborů v HDFS. Ve službě Azure synapse může základ dosáhnout stejného výsledku — Vytvoření tabulky pro externě uložená data do samotné databáze. Po načtení zdrojových dat lze data obsažená v externích tabulkách zpracovávat pomocí možností úložiště dat. Ve scénářích s velkými objemy dat to znamená, že úložiště dat musí umožňovat výkonné paralelní zpracování (MPP), což přerušuje data na menší bloky dat a distribuuje paralelní zpracování bloků dat napříč více počítači.
Závěrečná fáze kanálu ELT obvykle transformuje zdrojová data do konečného formátu, který je efektivnější pro typy dotazů, které je potřeba podporovat. Data mohou být například rozdělená na oddíly. ELT může také používat optimalizované formáty úložiště, jako je Parquet, který ukládá sloupcově orientované údaje na řádcích a poskytuje optimalizované indexování.
Relevantní služba Azure:
Další nástroje:
Tok dat a tok řízení
V kontextu datových kanálů zajišťuje tok řízení objednání sady úkolů. Aby bylo možné vynutit správné pořadí zpracování těchto úloh, jsou použita omezení priorit. Tato omezení si můžete představit jako konektory v diagramu pracovního postupu, jak je znázorněno na následujícím obrázku. Každý úkol má výsledek, například úspěch, selhání nebo dokončení. Jakékoli následné úkoly nespouštějí zpracování, dokud se předchůdce nedokončil s jedním z těchto výsledků.
Toky ovládacích prvků spouštějí datové toky jako úlohu. V úloze toku dat se data extrahují ze zdroje, transformuje nebo načte do úložiště dat. Výstup jedné úlohy toku dat může být vstupem k dalšímu úkolu toku dat a toky dat můžou běžet paralelně. Na rozdíl od ovládacích toků nemůžete přidávat omezení mezi úkoly v toku dat. Můžete ale přidat prohlížeč dat, který bude sledovat data při jejich zpracování jednotlivými úkoly.

V diagramu výše obsahuje několik úloh v rámci toku řízení, přičemž jedna z nich je úloha toku dat. Jedna z úkolů je vnořená do kontejneru. Kontejnery lze použít k poskytnutí struktury pro úlohy a poskytování pracovní jednotky. Jeden takový příklad je pro opakující se prvky v kolekci, například soubory ve složce nebo v příkazech databáze.
Relevantní služba Azure:
Další nástroje:
Technologické volby
- Úložiště dat OLTP (online Transaction Processing)
- Úložiště dat OLAP (Online Analytical Processing)
- Datové sklady
- Orchestrace kanálů
Další kroky
Následující referenční architektury ukazují kompletní kanály ELT v Azure: