Principy sad prostředků
Tento článek vám pomůže pochopit, jak Azure dosah používá sady prostředků k mapování datových prostředků na logické prostředky.
Informace na pozadí
Systémy zpracování dat ve velkém měřítku obvykle ukládají jednu tabulku do úložiště jako více souborů. Ve službě Azure dosah Data Catalog je tento koncept reprezentován pomocí sad prostředků. Sada prostředků je jeden objekt v katalogu, který představuje velký počet prostředků v úložišti.
předpokládejme například, že váš cluster Spark trval datový rámec na Azure Data Lake Storage (ADLS) Gen2 zdroj dat. I když v Sparku tabulka vypadá jako jeden logický prostředek, na disku jsou pravděpodobně tisíce souborů Parquet, z nichž každý představuje oddíl celkového obsahu datového rámce. Data protokolu IoT a data webového protokolu mají stejnou výzvu. Imagine máte senzor, který vypíše soubory protokolu několikrát za sekundu. Netrvá tak dlouho, dokud nebudete mít stovky tisíc souborů protokolu od tohoto jednoho snímače.
Jak Azure dosah detekuje sady prostředků
azure dosah podporuje detekci sad prostředků v azure Blob Storage, ADLS Gen1, ADLS Gen2, soubory Azure a Amazon S3.
Azure dosah při kontrole automaticky detekuje sady prostředků. Tato funkce prohlíží všechna data, která se ingestují prostřednictvím kontroly a porovnává je se sadou definovaných vzorů.
Předpokládejme například, že naskenujete zdroj dat, jehož adresa URL je https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet . Azure dosah vyhledá segmenty cesty a určí, jestli odpovídají jakýmkoli vestavěným vzorům. Obsahuje předdefinované vzory identifikátorů GUID, čísel, formátů data, lokalizačních kódů (například en-us) atd. V tomto případě vzorec čísla porovnává 23. Azure dosah předpokládá, že tento soubor je součástí sady prostředků s názvem https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet .
Nebo pro adresu URL, jako https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json je Azure dosah, odpovídá vzoru lokalizace i vzoru čísel, který vytváří sadu prostředků s názvem https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json .
Pomocí této strategie namapuje Azure dosah následující prostředky na stejnou sadu prostředků https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json :
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Typy souborů, které Azure dosah nebude zjišťovat jako sady prostředků
dosah záměrně nepokouší klasifikovat většinu typů souborů dokumentů jako Word, Excel nebo PDF jako sady prostředků. Výjimkou je formát CSV, protože se jedná o běžný formát děleného souboru.
Jak Azure dosah prohledává sady prostředků
Když Azure dosah detekuje prostředky, které považují za součást sady prostředků, přepne z úplného prohledávání na vzorovou kontrolu. Ukázková kontrola otevře pouze podmnožinu souborů, ze kterých se domnívá, že jsou v sadě prostředků. Pro každý soubor, který se otevře, používá schéma a spustí jeho třídění. Azure dosah pak najde nejnovější prostředek mezi otevřenými prostředky a v položce použije schéma a klasifikace prostředků pro celou sadu prostředků v katalogu.
Rozšířené sady prostředků
Ve výchozím nastavení Azure dosah Určuje schéma a klasifikace sad prostředků na základě pravidel vzorkování souborů sady prostředků. Azure dosah dokáže přizpůsobit a dále rozšířit prostředky sady prostředků prostřednictvím možnosti pokročilé sady prostředků . Když jsou povolené rozšířené sady prostředků, Azure dosah spustí další agregace a vypočítá následující informace o prostředcích sady prostředků:
- Nejaktuálnější schéma a klasifikace, které přesně odrážejí posun schématu od změny metadat.
- Ukázková cesta ze souboru, který obsahuje sadu prostředků.
- Počet oddílů, který ukazuje, kolik souborů tvoří sadu prostředků.
- Počet schémat, které ukazují, kolik jedinečných schémat bylo nalezeno. Tato hodnota je buď číslo v rozmezí 1 – 5, nebo hodnoty větší než 5, 5 +.
- Seznam typů oddílů, pokud je v sadě prostředků zahrnutý více než jeden typ oddílu. Například, může senzor IoT výstupovat soubory XML i JSON, i když obě jsou logicky součástí stejné sady prostředků.
- Celková velikost všech souborů, které tvoří sadu prostředků.
Tyto vlastnosti najdete na stránce s informacemi o aktivech v sadě prostředků.
Povolení pokročilých sad prostředků taky umožňuje vytvořit pravidla vzoru sady prostředků , která přizpůsobují způsob, jakým Azure dosah seskupuje sady prostředků během skenování.
Zapnutí pokročilých sad prostředků
Rozšířené sady prostředků jsou ve výchozím nastavení ve všech nových instancích Azure dosah vypnuté. Rozšířené sady prostředků lze povolit z informací o účtu v centru pro správu.
Po povolení pokročilých sad prostředků dojde k dalším rozšířením všech nově zpracovaných prostředků. Tým Azure dosah doporučuje počkat hodinu před kontrolou nových dat Data Lake po přepnutí na funkci.
Důležité
Povolení pokročilých sad prostředků ovlivní míru aktualizace assetů a přehledů klasifikace. Když je zapnutá Rozšířená sada prostředků, přehledy assetů a klasifikace se aktualizují jenom dvakrát denně.
Předdefinované vzory sady prostředků
Azure dosah podporuje následující vzory sady prostředků. Tyto vzory se můžou zobrazovat jako název v adresáři nebo jako součást názvu souboru.
Vzory založené na regulárních výrazech
| Název vzoru | Zobrazovaný název | Popis |
|---|---|---|
| Identifikátor GUID | HLAVNÍCH | Globálně jedinečný identifikátor definovaný v dokumentu RFC 4122 |
| Číslo | N | Jedna nebo více číslic |
| Formáty data a času | Jednolet Měsíčně Dnu N | Podporujeme různé formáty data a času, ale všechny jsou představovány {Year} [oddělovač] {month} [oddělovač] {Day} nebo řady {N} s. |
| 4ByteHex | SOUSTAVY | Čtyřmístné HEXADECIMÁLNÍ číslo. |
| Lokalizace | Loc | Je podporována značka jazyka definovaná v BCP 47, názvy obou i _ (například en_CA a en-CA). |
Komplexní vzory
| Název vzoru | Zobrazovaný název | Popis |
|---|---|---|
| SparkPath | {SparkPartitions} | Identifikátor souboru oddílu Spark |
| Datum (RRRR/MM/DD) – cesta | {Year}/{Month}/{Day} | Vzor pro rok/měsíc/den pokrývání více složek |
Jak se ve službě Azure dosah Data Catalog zobrazují sady prostředků
Když Azure dosah odpovídá skupině prostředků v sadě prostředků, pokusí se extrahovat nejužitečnější informace, které se použijí jako zobrazované jméno v katalogu. Některé příklady výchozích konvencí pojmenování:
Příklad 1
Kvalifikovaný název: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Zobrazovaný název: "název výstupu Spark"
Příklad 2
Kvalifikovaný název: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Zobrazovaný název: "moje dělená data"
Příklad 3
Kvalifikovaný název: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Zobrazovaný název: "data"
Přizpůsobení seskupení sad prostředků pomocí pravidel pro vzorce
Při kontrole účtu úložiště používá Azure dosah sadu definovaných vzorů k určení, jestli je skupina prostředků sada prostředků. V některých případech nemusí seskupení sad prostředků Azure dosah přesně odrážet vaše datové podstaty. Tyto problémy mohou zahrnovat:
- Nesprávné označení prostředku jako sady prostředků
- Vložení prostředku do nesprávné sady prostředků
- Nesprávně se označuje prostředek jako sada prostředků.
Pokud chcete přizpůsobit nebo přepsat způsob, jakým Azure dosah zjistí, které prostředky se seskupují jako sady prostředků a jak se zobrazují v katalogu, můžete pravidla vzoru definovat v centru pro správu. Podrobné pokyny a syntaxi najdete v tématu pravidla vzoru sady prostředků.
Další kroky
Informace o tom, jak začít s Azure dosah, najdete v tématu rychlý Start: vytvoření účtu Azure dosah.