Katalog velkých objemů dat ve službě Azure Data Catalog

Článek
12/13/2023

Důležité

Nové účty Azure Data Catalog už nejde vytvořit.

Pro funkce katalogu dat použijte službu Microsoft Purview , která nabízí jednotné zásady správného řízení dat pro celá data.

Pokud už používáte Azure Data Catalog, budete muset vytvořit plán migrace pro vaši organizaci, aby se do srpna 2025 přesunula do Microsoft Purview .

Úvod

Microsoft Azure Data Catalog je plně spravovaná cloudová služba, která slouží jako systém registrace a systému zjišťování pro podnikové zdroje dat. Je to vše o tom, jak lidem pomoct zjišťovat, pochopit a používat zdroje dat a pomáhat organizacím získat větší hodnotu ze stávajících zdrojů dat, včetně velkých objemů dat.

Azure Data Catalog podporuje registraci objektů blob a adresářů služby Azure Storage a souborů a adresářů Hadoop HDFS. Částečně strukturovaná povaha těchto zdrojů dat poskytuje velkou flexibilitu. Pokud ale chcete získat nejvyšší hodnotu od jejich registrace ve službě Azure Data Catalog, musí uživatelé zvážit, jak jsou zdroje dat uspořádané.

Adresáře jako logické datové sady

Běžným vzorem pro uspořádání zdrojů velkých objemů dat je zacházet s adresáři jako s logickými datovými sadami. Adresáře nejvyšší úrovně se používají k definování datové sady, zatímco podsložky definují oddíly a soubory, které obsahují uložená data samotná.

Příkladem tohoto modelu může být:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

V tomto příkladu vehicle_maintenance_events a location_tracking_events představují logické datové sady. Každá z těchto složek obsahuje datové soubory uspořádané podle roku a měsíce do podsložek. Každá z těchto složek může potenciálně obsahovat stovky nebo tisíce souborů.

V tomto vzoru registrace jednotlivých souborů ve službě Azure Data Catalog pravděpodobně nemá smysl. Místo toho zaregistrujte adresáře, které představují datové sady, které mají smysl pro uživatele pracující s daty.

Referenční datové soubory

Doplňkovým vzorem je ukládání referenčních datových sad jako jednotlivých souborů. Tyto datové sady by se mohly považovat za "malou" stranu velkých objemů dat a často se podobají dimenzím v analytickém datovém modelu. Referenční datové soubory obsahují záznamy, které slouží k poskytnutí kontextu pro hromadnou část datových souborů uložených jinde v úložišti velkých objemů dat.

Příkladem tohoto modelu může být:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Když analytik nebo datový vědec pracuje s daty obsaženými ve větších adresářových strukturách, mohou být data v těchto referenčních souborech použita k poskytnutí podrobnějších informací pro entity, na které odkazuje pouze název nebo ID ve větší sadě dat.

V tomto modelu je vhodné zaregistrovat jednotlivé referenční datové soubory ve službě Azure Data Catalog. Každý soubor představuje datovou sadu a každý z nich může být opatřen poznámkami a zjištěn zvlášť.

Alternativní vzory

Vzory popsané v předchozích částech jsou dvěma možnými způsoby uspořádání úložiště velkých objemů dat, ale každá implementace se liší. Bez ohledu na to, jak jsou zdroje dat strukturované, se při registraci zdrojů velkých objemů dat ve službě Azure Data Catalog zaměřte na registraci souborů a adresářů, které představují datové sady, které mají hodnotu pro ostatní uživatele ve vaší organizaci. Registrace všech souborůachm souborům může katalog zahltit, což uživatelům znesnadňuje nalezení toho, co potřebují.

Shrnutí

Registrace zdrojů dat ve službě Azure Data Catalog usnadňuje jejich zjišťování a pochopení. Registrací a přidáním poznámek k souborům a adresářům pro velké objemy dat, které představují logické datové sady, můžete uživatelům pomoct najít a používat zdroje velkých objemů dat, které potřebují.