Förstå resursuppsättningar
Den här artikeln hjälper dig att förstå hur Azure Purview använder resursuppsättningar för att mappa datatillgångar till logiska resurser.
Bakgrundsinformation
Databehandlingssystem i stor skala lagrar vanligtvis en enda tabell i lagring som flera filer. I Azure Purview-datakatalogen representeras det här konceptet med hjälp av resursuppsättningar. En resursuppsättning är ett enskilt objekt i katalogen som representerar ett stort antal tillgångar i lagringen.
Anta till exempel att ditt Spark-kluster har bevarat en DataFrame i en Azure Data Lake Storage (ADLS) Gen2-datakälla. Även om tabellen i Spark ser ut som en enda logisk resurs finns det förmodligen tusentals Parquet-filer på disken, som var och en representerar en partition av det totala DataFrame-innehållet. IoT-data och webbloggdata har samma utmaning. Imagine du har en sensor som matar ut loggfiler flera gånger per sekund. Det tar inte lång tid förrän du har hundratusentals loggfiler från den enda sensorn.
Så identifierar Azure Purview resursuppsättningar
Azure Purview stöder identifiering av resursuppsättningar i Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files och Amazon S3.
Azure Purview identifierar automatiskt resursuppsättningar vid genomsökning. Den här funktionen tittar på alla data som matas in via genomsökning och jämför dem med en uppsättning definierade mönster.
Anta till exempel att du söker igenom en datakälla vars URL är https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet . Azure Purview tittar på sökvägssegmenten och avgör om de matchar några inbyggda mönster. Den har inbyggda mönster för GUID, siffror, datumformat, lokaliseringskoder (till exempel en-us) och så vidare. I det här fallet matchar nummermönstret 23. Azure Purview förutsätter att den här filen är en del av en resursuppsättning med namnet https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet .
Eller för en URL som matchar Azure Purview både lokaliseringsmönstret och https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json nummermönstret, vilket producerar en resursuppsättning med namnet https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json .
Med den här strategin mappar Azure Purview följande resurser till samma https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json resursuppsättning:
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Filtyper som Azure Purview inte identifierar som resursuppsättningar
Purview försöker avsiktligt inte klassificera de flesta dokumentfiltyper som Word, Excel eller PDF som resursuppsättningar. Undantaget är CSV-format eftersom det är ett vanligt partitionerat filformat.
Så genomsöker Azure Purview resursuppsättningar
När Azure Purview identifierar resurser som den tror är en del av en resursuppsättning växlar den från en fullständig genomsökning till en exempelgenomsökning. En exempelgenomsökning öppnar bara en delmängd av de filer som den tror finns i resursuppsättningen. För varje fil som öppnas använder den sitt schema och kör dess klassificerare. Azure Purview hittar sedan den senaste resursen bland de öppnade resurserna och använder resursens schema och klassificeringar i posten för hela resursuppsättningen i katalogen.
Avancerade resursuppsättningar
Som standard bestämmer Azure Purview schemat och klassificeringarna för resursuppsättningar baserat på resursuppsättningens filsamplingsregler. Azure Purview kan anpassa och utöka dina resursuppsättningstillgångar ytterligare med hjälp av funktionen Avancerade resursuppsättningar. När avancerade resursuppsättningar är aktiverade kör Azure Purview extra aggregeringar för att beräkna följande information om resursuppsättningstillgångar:
- De flesta uppdaterade scheman och klassificeringar för att korrekt återspegla schemaavdrift från att ändra metadata.
- En exempelsökväg från en fil som består av resursuppsättningen.
- Ett partitionsantal som visar hur många filer som utgör resursuppsättningen.
- Ett schemaantal som visar hur många unika scheman som hittades. Det här värdet är antingen ett tal mellan 1–5 eller för värden större än 5, 5+.
- En lista över partitionstyper när mer än en enda partitionstyp ingår i resursuppsättningen. En IoT-sensor kan till exempel mata ut både XML- och JSON-filer, även om båda är logiskt en del av samma resursuppsättning.
- Den totala storleken för alla filer som utgör resursuppsättningen.
Dessa egenskaper finns på resursuppsättningens sida med tillgångsinformation.
Genom att aktivera avancerade resursuppsättningar kan du även skapa regler för resursuppsättningsmönster som anpassar hur Azure Purview grupperar resursuppsättningar under genomsökningen.
Aktivera avancerade resursuppsättningar
Avancerade resursuppsättningar är inaktiverade som standard i alla nya Azure Purview-instanser. Avancerade resursuppsättningar kan aktiveras från Kontoinformation i hanteringshubben.
När du har aktiverar avancerade resursuppsättningar sker de ytterligare berikandena för alla nyligen ingestade tillgångar. Azure Purview-teamet rekommenderar att du väntar en timme innan du skannar in nya datasjödata när du har växlat på funktionen.
Viktigt
Aktivering av avancerade resursuppsättningar påverkar uppdateringstakten för tillgångs- och klassificeringsinsikter. När avancerade resursuppsättningar är på uppdateras tillgångs- och klassificeringsinsikter bara två gånger per dag.
Inbyggda resursuppsättningsmönster
Azure Purview stöder följande resursuppsättningsmönster. Dessa mönster kan visas som ett namn i en katalog eller som en del av ett filnamn.
Regex-baserade mönster
| Mönsternamn | Visningsnamn | Beskrivning |
|---|---|---|
| GUID | {GUID} | En globalt unik identifierare enligt definitionen i RFC 4122 |
| Antal | {N} | En eller flera siffror |
| Datum-/tidsformat | {Year} {Month} {Day} {N} | Vi stöder olika datum-/tidsformat, men alla representeras med {Year}[avgränsare]{Månad}[avgränsare]{Day} eller serie med {N}s. |
| 4byteHex | {HEX} | Ett 4-siffrigt HEX-tal. |
| Lokalisering | {LOC} | En språktagg som definieras i BCP 47, både - och _ namn stöds (till exempel en_ca och en-ca) |
Komplexa mönster
| Mönsternamn | Visningsnamn | Beskrivning |
|---|---|---|
| SparkPath | {SparkPartitions} | Filidentifierare för Spark-partition |
| Date(yyyy/mm/dd)InPath | {Year}/{Month}/{Day} | Mönster för år/månad/dag som sträcker sig över flera mappar |
Så här visas resursuppsättningar i Azure Purview-datakatalogen
När Azure Purview matchar en grupp med tillgångar i en resursuppsättning försöker det extrahera den mest användbara informationen som ska användas som visningsnamn i katalogen. Några exempel på den namngivningskonvention som är standard:
Exempel 1
Kvalificerat namn: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Visningsnamn: "namn på Spark-utdata"
Exempel 2
Kvalificerat namn: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Visningsnamn: "mina partitionerade data"
Exempel 3
Kvalificerat namn: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Visningsnamn: "data"
Anpassa resursuppsättningsgruppering med hjälp av mönsterregler
Vid genomsökning av ett lagringskonto använder Azure Purview en uppsättning definierade mönster för att avgöra om en grupp med tillgångar är en resursuppsättning. I vissa fall kanske inte resursuppsättningsgruppering i Azure Purview återspeglar din datae egendom korrekt. Dessa problem kan vara:
- Felaktig märkning av en tillgång som en resursuppsättning
- Placera en tillgång i fel resursuppsättning
- Felaktig märkning av en tillgång som inte är en resursuppsättning
Om du vill anpassa eller åsidosätta hur Azure Purview identifierar vilka tillgångar som grupperas som resursuppsättningar och hur de visas i katalogen kan du definiera mönsterregler i hanteringscentret. Stegvisa instruktioner och syntax finns i Mönsterregler för resursuppsättning.
Nästa steg
Information om hur du kommer igång med Azure Purview finns i Snabbstart: Skapa ett Azure Purview-konto.