Scans en opname in Azure Purview
In dit artikel vindt u een overzicht van de functies Scannen en opnemen in Azure Purview. Deze functies verbinden uw Purview-account met uw bronnen om de gegevenskaart en gegevenscatalogus te vullen, zodat u uw gegevens kunt verkennen en beheren via Purview.
Scannen
Nadat gegevensbronnen zijn geregistreerd in uw Purview-account, is de volgende stap het scannen van de gegevensbronnen. Het scanproces brengt een verbinding tot stand met de gegevensbron en legt technische metagegevens vast, zoals namen, bestandsgrootte, kolommen, en meer. Het extraheert ook het schema voor gestructureerde gegevensbronnen, past classificaties toe op schema's en past gevoeligheidslabels toe als uw Purview-account is verbonden met een Microsoft 365 Security and Compliance Center (SCC). Het scanproces kan worden geactiveerd om onmiddellijk te worden uitgevoerd of kan periodiek worden uitgevoerd om uw Purview-account up-to-date te houden.
Voor elke scan zijn er aanpassingen die u kunt toepassen, zodat u alleen uw bronnen scant op de informatie die u nodig hebt.
Een verificatiemethode voor uw scans kiezen
Purview is standaard beveiligd. Wachtwoorden of geheimen worden niet rechtstreeks in Purview opgeslagen. Daarom moet u een verificatiemethode voor uw bronnen kiezen. Er zijn vier mogelijke manieren om uw Purview-account te verifiëren, maar niet alle methoden worden ondersteund voor elke gegevensbron.
- Beheerde identiteit
- Service-principal
- SQL-verificatie
- Accountsleutel of basisverificatie
Indien mogelijk is een beheerde identiteit de voorkeursverificatiemethode omdat het niet nodig is om referenties voor afzonderlijke gegevensbronnen op te slaan en te beheren. Dit kan de tijd die u en uw team besteden aan het instellen en oplossen van problemen met verificatie voor scans aanzienlijk verminderen. Wanneer u een beheerde identiteit voor uw Purview-account inschakelen, wordt er een identiteit gemaakt in Azure Active Directory en is deze gekoppeld aan de levenscyclus van uw account.
Het bereik van uw scan opgeven
Wanneer u een bron scant, kunt u de hele gegevensbron scannen of alleen specifieke entiteiten (mappen/tabellen) kiezen om te scannen. Beschikbare opties zijn afhankelijk van de bron die u scant en kunnen worden gedefinieerd voor zowel een time- als geplande scans.
Wanneer u bijvoorbeeld een scan vooreen Azure SQL Database maakt en Azure SQL Database, kunt u kiezen welke tabellen u wilt scannen of de volledige database selecteren.
Scanregelset
Een scanregelset bepaalt de soorten informatie waar een scan naar op zoek is wanneer deze wordt uitgevoerd op een van uw bronnen. Beschikbare regels zijn afhankelijk van het type bron dat u scant, maar bevatten zaken zoals de bestandstypen die u moet scannen en de soorten classificaties die u nodig hebt.
Er zijn al systeemscanregelsets beschikbaar voor veel gegevensbrontypen, maar u kunt ook uw eigen scanregelsets maken om uw scans aan te passen aan uw organisatie.
Uw scan plannen
Met Purview kunt u wekelijks of maandelijks scannen op een specifiek tijdstip dat u kiest. Wekelijkse scans zijn mogelijk geschikt voor gegevensbronnen met structuren die actief in ontwikkeling zijn of regelmatig worden gewijzigd. Maandelijks scannen is geschikter voor gegevensbronnen die niet vaak worden gewijzigd. Een goede best practice is om samen te werken met de beheerder van de bron die u wilt scannen om een tijdstip te identificeren waarop de rekeneisen voor de bron laag zijn.
Hoe scans verwijderde assets detecteren
Een Azure Purview-catalogus is alleen op de hoogte van de status van een gegevensopslag wanneer er een scan wordt uitgevoerd. Om de catalogus te laten weten of een bestand, tabel of container is verwijderd, wordt de laatste scanuitvoer vergeleken met de huidige scanuitvoer. Stel bijvoorbeeld dat de laatste keer dat u een Azure Data Lake Storage Gen2-account hebt gescand, een map met de naam folder1 is opgenomen. Wanneer hetzelfde account opnieuw wordt gescand, ontbreekt map1. Daarom gaat de catalogus ervan uit dat de map is verwijderd.
Verwijderde bestanden detecteren
De logica voor het detecteren van ontbrekende bestanden werkt voor meerdere scans door dezelfde gebruiker en door verschillende gebruikers. Stel bijvoorbeeld dat een gebruiker een een time-scan op een Data Lake Storage Gen2-gegevensopslag in de mappen A, B en C heeft uitgevoerd. Later voert een andere gebruiker in hetzelfde account een andere een time-scan uit op de mappen C, D en E van hetzelfde gegevensopslag. Omdat map C twee keer is gescand, controleert de catalogus deze op mogelijke verwijderingen. Mappen A, B, D en E zijn echter slechts één keer gescand en de catalogus controleert deze niet op verwijderde assets.
Als u verwijderde bestanden uit uw catalogus wilt houden, is het belangrijk om regelmatig scans uit te voeren. Het scaninterval is belangrijk, omdat de catalogus verwijderde assets pas kan detecteren als er een andere scan is uitgevoerd. Dus als u eenmaal per maand scans in een bepaald winkel hebt uitgevoerd, kan de catalogus geen verwijderde gegevensactiva in die opslag detecteren totdat u de volgende scan een maand later hebt uitgevoerd.
Wanneer u grote gegevensopslag opsnoemt, zoals Data Lake Storage Gen2, zijn er meerdere manieren (waaronder opsnoemfouten en uitgevallen gebeurtenissen) om informatie te missen. Een bepaalde scan kan missen dat er een bestand is gemaakt of verwijderd. Dus tenzij de catalogus zeker weet dat een bestand is verwijderd, wordt het niet verwijderd uit de catalogus. Deze strategie betekent dat er fouten kunnen optreden wanneer een bestand dat niet bestaat in het gescande gegevensopslag nog steeds in de catalogus bestaat. In sommige gevallen moet een gegevensopslag mogelijk twee of drie keer worden gescand voordat bepaalde verwijderde assets worden gedetecteerd.
Notitie
Assets die zijn gemarkeerd voor verwijdering, worden verwijderd na een geslaagde scan. Verwijderde assets blijven mogelijk nog enige tijd zichtbaar in uw catalogus voordat ze worden verwerkt en verwijderd.
Gegevensopname
De technische metagegevens of classificaties die tijdens het scanproces worden geïdentificeerd, worden vervolgens verzonden naar Opname. Het opnameproces is verantwoordelijk voor het vullen van de gegevenskaart en wordt beheerd door Purview. Opname analyseert de invoer van de scan, past resourcesetpatronentoe, vult beschikbare gegevens over de gegevens van de gegevensbron in en laadt de gegevenskaart vervolgens automatisch. Assets/schema's kunnen pas worden ontdekt of gecureerd nadat de opname is voltooid. Dus als de scan is voltooid, maar u uw assets niet hebt gezien in de gegevenskaart of catalogus, moet u wachten tot het opnameproces is voltooid.
Volgende stappen
Volg de onderstaande koppelingen voor meer informatie of voor specifieke instructies voor het scannen van bronnen.
- Zie ons artikel over resourcesets voor meer informatie over resourcesets.
- Een Azure SQL Database
- Gegevenseedage in Azure Purview