Informatie over resourcesets
Dit artikel helpt u te begrijpen hoe Azure Purview gebruikmaakt van resourcesets om gegevensactiva toe te wijs aan logische resources.
Achtergrondinformatie
Systemen voor gegevensverwerking op schaal slaan doorgaans één tabel in opslag op als meerdere bestanden. In de Azure Purview-gegevenscatalogus wordt dit concept vertegenwoordigd door het gebruik van resourcesets. Een resourceset is één object in de catalogus dat een groot aantal assets in de opslag vertegenwoordigt.
Stel bijvoorbeeld dat uw Spark-cluster een DataFrame heeft persistent gemaakt in een Azure Data Lake Storage (ADLS) Gen2-gegevensbron. Hoewel de tabel in Spark lijkt op één logische resource, zijn er op de schijf waarschijnlijk duizenden Parquet-bestanden, die elk een partitie van de totale inhoud van DataFrame vertegenwoordigen. IoT-gegevens en weblogboekgegevens hebben dezelfde uitdaging. Imagine u een sensor hebt die meerdere keren per seconde logboekbestanden uitvoert. Het duurt niet lang voordat u honderdduizenden logboekbestanden van die ene sensor hebt.
Hoe Azure Purview resourcesets detecteert
Azure Purview ondersteunt het detecteren van resourcesets in Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files en Amazon S3.
Azure Purview detecteert automatisch resourcesets bij het scannen. Deze functie bekijkt alle gegevens die via scannen worden opgenomen en vergelijkt deze met een set gedefinieerde patronen.
Stel bijvoorbeeld dat u een gegevensbron scant waarvan de URL https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet is. Azure Purview bekijkt de padsegmenten en bepaalt of deze overeenkomen met ingebouwde patronen. Het heeft ingebouwde patronen voor GUID's, getallen, datumindelingen, lokalisatiecodes (bijvoorbeeld en-us), en meer. In dit geval komt het getalpatroon overeen met 23. Azure Purview gaat ervan uit dat dit bestand deel uitmaakt van een resourceset met de naam https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet .
Of voor een URL zoals komt Azure Purview overeen met zowel het lokalisatiepatroon als het getalpatroon, wat een resourceset met de https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json naam https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json produceert.
Met behulp van deze strategie worden in Azure Purview de volgende resources aan dezelfde resourceset, https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json :
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Bestandstypen die azure Purview niet detecteert als resourcesets
Purview probeert de meeste documentbestandstypen, zoals Word, Excel of PDF, niet te classificeren als resourcesets. De uitzondering hierop is de CSV-indeling, omdat dit een algemene gepartitiesteerde bestandsindeling is.
Hoe Azure Purview resourcesets scant
Wanneer Azure Purview resources detecteert die deel uitmaken van een resourceset, wordt overschakelt van een volledige scan naar een voorbeeldscan. Met een voorbeeldscan wordt alleen een subset geopend van de bestanden die in de resourceset worden denkt te staan. Voor elk bestand dat wordt geopend, wordt het schema gebruikt en worden de classificaties uitgevoerd. Azure Purview zoekt vervolgens de nieuwste resource tussen de geopende resources en gebruikt het schema en de classificaties van die resource in de vermelding voor de hele resourceset in de catalogus.
Geavanceerde resourcesets
Azure Purview bepaalt standaard het schema en de classificaties voor resourcesets op basis van de regels voor het nemen van steekproeven van resourcesets. Azure Purview kan uw resourceset-assets aanpassen en verder verrijken via de mogelijkheid Geavanceerde resourcesets. Wanneer Geavanceerde resourcesets zijn ingeschakeld, worden in Azure Purview extra aggregaties uitgevoerd om de volgende informatie over resourcesetactiva te berekenen:
- De meeste bijgewerkte schema's en classificaties om schemadrift van veranderende metagegevens nauwkeurig weer te geven.
- Een voorbeeldpad van een bestand dat bestaat uit de resourceset.
- Een aantal partities dat laat zien hoeveel bestanden de resourceset bevat.
- Een aantal schema's dat laat zien hoeveel unieke schema's er zijn gevonden. Deze waarde is een getal tussen 1-5 of voor waarden groter dan 5, 5+.
- Een lijst met partitietypen wanneer meer dan één partitietype is opgenomen in de resourceset. Een IoT-sensor kan bijvoorbeeld zowel XML- als JSON-bestanden als uitvoer geven, hoewel beide logisch deel uitmaken van dezelfde resourceset.
- De totale grootte van alle bestanden waar de resourceset deel van uit gaat.
Deze eigenschappen vindt u op de pagina met assetdetails van de resourceset.
Als u geavanceerde resourcesets inschakelen, kunt u ook regels voor resourcesets maken die aanpassen hoe Azure Purview resourcesets groeperen tijdens het scannen.
Geavanceerde resourcesets in- en uitschakelen
Geavanceerde resourcesets zijn standaard uitgeschakeld in alle nieuwe Azure Purview-exemplaren. Geavanceerde resourcesets kunnen worden ingeschakeld vanuit accountgegevens in de beheerhub.
Na het inschakelen van geavanceerde resourcesets worden de extra verrijkingen uitgevoerd op alle nieuw opgenomen assets. Het Azure Purview-team raadt aan een uur te wachten voordat nieuwe data lake worden gescand nadat de functie is omgepuurd.
Belangrijk
Het inschakelen van geavanceerde resourcesets is van invloed op de vernieuwingsfrequentie van asset- en classificatie-inzichten. Wanneer geavanceerde resourcesets is aan, worden asset- en classificatie-inzichten slechts twee keer per dag bijgewerkt.
Ingebouwde resourcesetpatronen
Azure Purview ondersteunt de volgende resourcesetpatronen. Deze patronen kunnen worden weergegeven als een naam in een map of als onderdeel van een bestandsnaam.
Op regex gebaseerde patronen
| Patroonnaam | Weergavenaam | Beschrijving |
|---|---|---|
| Guid | {GUID} | Een wereldwijd unieke id zoals gedefinieerd in RFC 4122 |
| Aantal | {N} | Een of meer cijfers |
| Datum/tijd-indelingen | {Jaar} {Maand} {Day} {N} | We ondersteunen verschillende datum/tijd-indelingen, maar alle indelingen worden weergegeven met {Year}[scheidingsteken]{maand}[scheidingsteken]{Dag} of reeks {N}s. |
| 4byteh | {HEX} | Een HEX-nummer van 4 cijfers. |
| Lokalisatie | {LOC} | Een taaltag zoals gedefinieerd in BCP 47,worden zowel - als _-namen ondersteund (bijvoorbeeld en_ca en en-ca) |
Complexe patronen
| Patroonnaam | Weergavenaam | Beschrijving |
|---|---|---|
| SparkPath | {SparkPartitions} | Spark-partitiebestands-id |
| Date(yyyy/mm/dd)InPath | {Year}/{Month}/{Day} | Patroon Jaar/maand/dag dat meerdere mappen beslaat |
Hoe resourcesets worden weergegeven in de Azure Purview-gegevenscatalogus
Wanneer Azure Purview een groep assets in een resourceset matcht, wordt geprobeerd de nuttigste informatie te extraheren die als weergavenaam in de catalogus moet worden gebruikt. Enkele voorbeelden van de standaardnaamconventie die is toegepast:
Voorbeeld 1
Gekwalificeerde naam: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Weergavenaam: 'naam van Spark-uitvoer'
Voorbeeld 2
Gekwalificeerde naam: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Weergavenaam: 'mijn gepart partitioneerde gegevens'
Voorbeeld 3
Gekwalificeerde naam: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Weergavenaam: 'gegevens'
Groeperen van resourcesets aanpassen met behulp van patroonregels
Bij het scannen van een opslagaccount gebruikt Azure Purview een set gedefinieerde patronen om te bepalen of een groep assets een resourceset is. In sommige gevallen weerspiegelt de groepering van resourcesets van Azure Purview mogelijk niet nauwkeurig uw gegevens. Deze problemen kunnen het volgende omvatten:
- Een asset onjuist markeren als een resourceset
- Een asset in de verkeerde resourceset plaatsen
- Een asset onjuist markeren als een resourceset
Als u wilt aanpassen of overschrijven hoe Azure Purview detecteert welke assets zijn gegroepeerd als resourcesets en hoe deze worden weergegeven in de catalogus, kunt u patroonregels definiëren in het beheercentrum. Zie Regels voor resourcesetpatronen voor stapsgewijse instructies en syntaxis.
Volgende stappen
Zie Quickstart: Een Azure Purview-account makenom aan de slag te gaan met Azure Purview.