Aangepaste classificaties in Azure Purview
In dit artikel wordt beschreven hoe u aangepaste classificaties kunt maken om gegevenstypen in uw gegevens goed te definiëren die uniek zijn voor uw organisatie. Ook wordt het maken van aangepaste classificatieregels beschreven, zodat u opgegeven gegevens in uw gegevens estate kunt vinden.
Standaardsysteemclassificaties
De Azure Purview Data Catalog biedt een grote set standaardsysteemclassificaties die typische typen persoonlijke gegevens vertegenwoordigen die u mogelijk in uw gegevens estate hebt. Zie Ondersteunde classificaties in Azure Purview voor de volledige lijst met beschikbare systeemclassificaties.
U kunt ook aangepaste classificaties maken als een van de standaardclassificaties niet aan uw behoeften voldoet.
Notitie
Onze regels voor het nemen van gegevenssampling worden toegepast op systeem- en aangepaste classificaties.
Notitie
Aangepaste classificaties voor weergave worden alleen toegepast op gestructureerde gegevensbronnen zoals SQL en CosmosDB, en op gestructureerde bestandstypen zoals CSV, JSON en Parquet. Aangepaste classificatie wordt niet toegepast op niet-gestructureerde gegevensbestandstypen zoals DOC, PDF en XLSX.
Stappen voor het maken van een aangepaste classificatie
Volg deze stappen om een aangepaste classificatie te maken:
Selecteer in uw catalogus Gegevenstoewijzing in het menu aan de linkerkant.
Selecteer Classificaties onder Aantekeningenbeheer.
Selecteer + Nieuw
Het deelvenster Nieuwe classificatie toevoegen wordt geopend, waar u uw classificatie een naam en beschrijving kunt geven. Het is een goed idee om een naamruimteconventie te gebruiken, zoals your company name.classification name .
De Microsoft-systeemclassificaties worden gegroepeerd onder de MICROSOFT. gereserveerde naamruimte. Een voorbeeld is MICROSOFT. REGERING. ONS. _ _ SOCIAAL-BEVEILIGINGSNUMMER.
De naam van uw classificatie moet beginnen met een letter, gevolgd door een reeks letters, cijfers en punt (.) of onderstrepingstekens. Er zijn geen spaties toegestaan. Terwijl u typt, genereert de UX automatisch een gebruiksvriendelijke naam. Deze gebruiksvriendelijke naam is wat gebruikers zien wanneer u deze op een asset in de catalogus toe passen.
Om de naam kort te houden, maakt het systeem de gebruiksvriendelijke naam op basis van de volgende logica:
Alle segmenten behalve de laatste twee segmenten van de naamruimte worden bijgesneden.
De hoofdletters worden aangepast zodat de eerste letter van elk woord een hoofdletter heeft.
Alle onderstrepingstekens ( _ ) worden vervangen door spaties.
Als u bijvoorbeeld de classificatienaam CONTOSO.HR. _WERKNEMER-id, de gebruiksvriendelijke naam wordt in het systeem opgeslagen als Hr.Employee ID.
Selecteer OK en uw nieuwe classificatie wordt toegevoegd aan uw classificatielijst.
Als u de classificatie in de lijst selecteert, wordt de pagina met classificatiedetails geopend. Hier vindt u alle details over de classificatie.
Deze details omvatten het aantal exemplaren dat er is, de formele naam, bijbehorende classificatieregels (indien van beide) en de naam van de eigenaar.
Aangepaste classificatieregels
De catalogusservice biedt een set standaardclassificatieregels die door de scanner worden gebruikt om automatisch bepaalde gegevenstypen te detecteren. U kunt ook uw eigen aangepaste classificatieregels toevoegen om andere typen gegevens te detecteren die u mogelijk wilt zoeken in uw gegevens estate. Deze mogelijkheid kan krachtig zijn wanneer u gegevens in uw gegevens estate probeert te vinden.
Stel dat een bedrijf met de naam Contoso werknemers-ID's heeft die in het hele bedrijf zijn gestandaardiseerd met het woord Werknemer gevolgd door een GUID om ' " " EMPLOYEE{GUID} te maken. Eén exemplaar van een werknemers-id ziet er bijvoorbeeld uit als EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55 .
Contoso kan het scansysteem configureren om instanties van deze ID's te vinden door een aangepaste classificatieregel te maken. Ze kunnen een reguliere expressie leveren die overeenkomt met het gegevenspatroon, in dit geval \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$ . Als de gegevens zich meestal in een kolom met de naam van , zoals Werknemer-id of EmployeeID, kunnen ze een reguliere expressie voor een kolompatroon toevoegen om de scan nog nauwkeuriger te _ maken. Een voorbeeld van regex is Employee _ ID | EmployeeID.
Het scansysteem kan deze regel vervolgens gebruiken om de werkelijke gegevens in de kolom te onderzoeken en de kolomnaam om te proberen elk exemplaar te identificeren van waar het werknemer-id-patroon wordt gevonden.
Stappen voor het maken van een aangepaste classificatieregel
Een aangepaste classificatieregel maken:
Maak een aangepaste classificatie door de instructies in de vorige sectie te volgen. U voegt deze aangepaste classificatie toe aan de configuratie van de classificatieregel, zodat deze wordt toegepast wanneer er een overeenkomst wordt gevonden in de kolom.
Selecteer het Gegevenstoewijzing pictogram.
Selecteer de sectie Classificatieregels.
Selecteer Nieuw.
Het dialoogvenster Nieuwe classificatieregel wordt geopend. Vul de velden in en besluit of u een regel voor een reguliere expressie of een woordenlijstregel wilt maken.
Veld Beschrijving Name Vereist. Het maximum is 100 tekens. Beschrijving Optioneel. Het maximum is 256 tekens. Classificatienaam Vereist. Selecteer de naam van de classificatie in de vervolgkeuzelijst om de scanner te laten weten dat deze moet worden toegepast als er een overeenkomst wordt gevonden. Staat Vereist. De opties zijn ingeschakeld of uitgeschakeld. Ingeschakeld is de standaardinstelling.
Een regel voor reguliere expressie maken
Als u een regel voor een reguliere expressie maakt, ziet u het volgende scherm. U kunt eventueel een bestand uploaden dat wordt gebruikt voor het genereren van voorgestelde regex-patronen voor uw regel.
Als u besluit een voorgesteld regex-patroon te genereren, selecteert u na het uploaden van een bestand een van de voorgestelde patronen en selecteert u Toevoegen aan patronen om de voorgestelde gegevens- en kolompatronen te gebruiken. U kunt de voorgestelde patronen aanpassen of u kunt ook uw eigen patronen typen zonder een bestand te uploaden.
Veld Description Gegevenspatroon Optioneel. Een reguliere expressie die de gegevens vertegenwoordigt die zijn opgeslagen in het gegevensveld. De limiet is zeer groot. In het vorige voorbeeld worden de gegevenspatronen getest op een werknemers-id die letterlijk het woord Employee{GUID}is.Kolompatroon Optioneel. Een reguliere expressie die de kolomnamen vertegenwoordigt die u wilt matchen. De limiet is zeer groot. Onder Gegevenspatroon kunt u de drempelwaarde Minimale overeenkomst gebruiken om het minimale percentage van de afzonderlijke gegevenswaarde in te stellen dat overeenkomt met een kolom die door de scanner moet worden gevonden om de classificatie toe te passen. De voorgestelde waarde is 60%. Als u meerdere gegevenspatronen opgeeft, wordt deze instelling uitgeschakeld en wordt de waarde vastgesteld op 60%.
Notitie
De minimale drempelwaarde voor overeenkomst moet ten minste 1% zijn.
U kunt nu uw regel controleren en deze maken.
Test de classificatieregel voordat u het aanmaakproces voltooit om te controleren of tags op uw assets worden toegepast. De classificaties in de regel worden toegepast op de voorbeeldgegevens die net als bij een scan worden geüpload. Dit betekent dat alle systeemclassificaties en uw aangepaste classificatie worden afgestemd op de gegevens in uw bestand.
Invoerbestanden kunnen bestanden met scheidingstekens bevatten (CSV-, PSV-, SSV-, TSV-), JSON- of XML-inhoud. De inhoud wordt geparseerd op basis van de bestandsextensie van het invoerbestand. Gegevens met scheidingstekens kunnen een bestandsextensie hebben die overeenkomt met een van de genoemde typen. TSV-gegevens kunnen bijvoorbeeld bestaan in een bestand met de naam MySampleData.csv. Inhoud met scheidingstekens moet ook minimaal 3 kolommen bevatten.
Een woordenlijstregel maken
Als u een woordenlijstregel maakt, ziet u het volgende scherm. Upload bestand dat alle mogelijke waarden bevat voor de classificatie die u in één kolom maakt.
Nadat de woordenlijst is gegenereerd, kunt u de minimale drempelwaarde voor overeenkomst aanpassen en de regel verzenden.
Volgende stappen
Nu u de classificatieregel hebt gemaakt, kunt u deze toevoegen aan een scanregelset, zodat de scan de regel gebruikt bij het scannen. Zie Een scanregelset maken voor meer informatie.