Anpassade klassificeringar i Azure Purview

Den här artikeln beskriver hur du kan skapa anpassade klassificeringar för att definiera datatyper i din datae egendom som är unika för din organisation. Den beskriver också hur du skapar anpassade klassificeringsregler som gör att du kan hitta angivna data i hela datae egendomen.

Standardklassificering av system

Azure Purview Data Catalog en stor uppsättning standardsystemklassificering som representerar typiska personliga datatyper som du kan ha i din datae egendom. Hela listan över tillgängliga systemklassificering finns i Klassificeringar som stöds i Azure Purview.

välj klassificering

Du kan också skapa anpassade klassificeringar om någon av standardklassificeringarna inte uppfyller dina behov.

Anteckning

Våra regler för datasampling tillämpas på både systemklassificering och anpassade klassificeringar.

Anteckning

Anpassade Purview-klassificeringar tillämpas endast på strukturerade datakällor som SQL och CosmosDB, och på strukturerade filtyper som CSV, JSON och Parquet. Anpassad klassificering tillämpas inte på ostrukturerade datafiltyper som DOC, PDF och XLSX.

Steg för att skapa en anpassad klassificering

Följ dessa steg om du vill skapa en anpassad klassificering:

  1. I katalogen väljer du Data Map på den vänstra menyn.

  2. Välj Klassificeringar under Anteckningshantering.

  3. Välj + Ny

    Ny klassificering

Fönstret Lägg till ny klassificering öppnas, där du kan ge klassificeringen ett namn och en beskrivning. Det är bra att använda en konvention för namnavstånd, till exempel your company name.classification name .

Microsofts systemklassificering grupperas under det reserverade MICROSOFT. namnområdet. Ett exempel är MICROSOFT. REGERINGEN. OSS. _PERSONNUMMER _.

Namnet på din klassificering måste börja med en bokstav följt av en sekvens med bokstäver, siffror och punkt (.) eller understreck. Inga blanksteg tillåts. När du skriver UX genererar det automatiskt ett eget namn. Det här egna namnet ser användarna när du tillämpar det på en tillgång i katalogen.

För att hålla namnet kort skapar systemet det egna namnet baserat på följande logik:

  • Alla utom de två sista segmenten i namnområdet trimmas.

  • Höljet justeras så att den första bokstaven i varje ord versaleras.

  • Alla understreck ( _ ) ersätts med blanksteg.

Om du till exempel gav din klassificering namnet CONTOSO.HR. _MEDARBETAR-ID lagras det egna namnet i systemet som Hr.Employee ID.

Contoso.hr.employee_id

Välj OK så läggs din nya klassificering till i din klassificeringslista.

Anpassad klassificering

Om du väljer klassificeringen i listan öppnas sidan med klassificeringsinformation. Här hittar du all information om klassificeringen.

Den här informationen omfattar antalet instanser, det formella namnet, associerade klassificeringsregler (om sådana finns) och ägarens namn.

Välj klassificering

Anpassade klassificeringsregler

Katalogtjänsten tillhandahåller en uppsättning standardklassificeringsregler som används av skannern för att automatiskt identifiera vissa datatyper. Du kan också lägga till egna anpassade klassificeringsregler för att identifiera andra typer av data som du kan vara intresserad av att hitta i din dataegenskap. Den här funktionen kan vara kraftfull när du försöker hitta data i din datae egendom.

Anta till exempel att ett företag som heter Contoso har anställnings-ID:t som är standardiserat i hela företaget med ordet Medarbetare följt av ett GUID för att ' " skapa " EMPLOYEE{GUID}. En instans av ett anställnings-ID ser till exempel ut så EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55 här: .

Contoso kan konfigurera genomsökningssystemet för att hitta instanser av dessa ID:er genom att skapa en anpassad klassificeringsregel. De kan ange ett reguljärt uttryck som matchar datamönstret, i det här fallet \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$ . Om data vanligtvis finns i en kolumn som de känner till namnet på, till exempel Medarbetar-ID eller EmployeeID, kan de lägga till ett reguljärt kolumnmönsteruttryck för att göra genomsökningen ännu _ mer exakt. Ett exempel på regex är Employee _ ID | EmployeeID.

Genomsökningssystemet kan sedan använda den här regeln för att undersöka faktiska data i kolumnen och kolumnnamnet för att försöka identifiera varje instans av där mönstret för medarbetar-ID:t hittas.

Steg för att skapa en anpassad klassificeringsregel

Så här skapar du en anpassad klassificeringsregel:

  1. Skapa en anpassad klassificering genom att följa anvisningarna i föregående avsnitt. Du lägger till den här anpassade klassificeringen i konfigurationen av klassificeringsregeln så att systemet tillämpar den när den hittar en matchning i kolumnen.

  2. Välj ikonen Data Map program.

  3. Välj avsnittet Klassificeringsregler.

    Panelen Klassificeringsregler

  4. Välj Nytt.

    Lägg till ny klassificeringsregel

  5. Dialogrutan Ny klassificeringsregel öppnas. Fyll i fälten och bestäm om du vill skapa en regel för reguljära uttryck eller en ordlisteregel.

    Fält Beskrivning
    Name Krävs. Maxvärdet är 100 tecken.
    Beskrivning Valfritt. Maxvärdet är 256 tecken.
    Klassificeringsnamn Krävs. Välj namnet på klassificeringen i listrutan för att be skannern att tillämpa den om en matchning hittas.
    Tillstånd Krävs. Alternativen är aktiverade eller inaktiverade. Aktiverad är standardinställningen.

    Skapa en ny klassificeringsregel

Skapa en regel för reguljära uttryck

  1. Om du skapar en regel för reguljära uttryck visas följande skärm. Om du vill kan du ladda upp en fil som ska användas för att generera föreslagna regex-mönster för din regel.

    Skapa en ny regex-regel

  2. Om du bestämmer dig för att generera ett föreslaget regex-mönster när du har laddat upp en fil väljer du ett av de föreslagna mönstren och väljer Lägg till i mönster för att använda de föreslagna data- och kolumnmönstren. Du kan justera de föreslagna mönstren eller också skriva egna mönster utan att ladda upp en fil.

    Generera föreslaget regex

    Fält Beskrivning
    Datamönster Valfritt. Ett reguljärt uttryck som representerar de data som lagras i datafältet. Gränsen är mycket stor. I föregående exempel testas datamönster för ett anställnings-ID som bokstavligen är ordet Employee{GUID} .
    Kolumnmönster Valfritt. Ett reguljärt uttryck som representerar de kolumnnamn som du vill matcha. Gränsen är mycket stor.
  3. Under Datamönster kan du använda tröskelvärdet För minsta matchning för att ange den minsta procentandelen av distinkta datavärdematchning i en kolumn som måste hittas av skannern för att klassificeringen ska tillämpas. Det föreslagna värdet är 60 %. Om du anger flera datamönster inaktiveras den här inställningen och värdet är fast på 60 %.

    Anteckning

    Tröskelvärdet för minsta matchning måste vara minst 1 %.

  4. Nu kan du verifiera din regel och skapa den.

  5. Testa klassificeringsregeln innan du slutför skapandeprocessen för att verifiera att den tillämpar taggar på dina tillgångar. Klassificeringarna i regeln tillämpas på exempeldata som laddas upp precis som i en genomsökning. Det innebär att alla systemklassificeringarna och din anpassade klassificering matchas mot data i filen.

    Indatafiler kan innehålla avgränsade filer (CSV-, PSV-, SSV-, TSV-, JSON- eller XML-innehåll). Innehållet parsas baserat på filtillägget för indatafilen. Avgränsade data kan ha ett filnamnstillägg som matchar någon av de nämnda typerna. TSV-data kan till exempel finnas i en fil med namnet MySampleData.csv. Avgränsat innehåll måste också ha minst 3 kolumner.

    Testa regeln innan du skapar

    Visa tillämpade klassificeringar efter uppladdning av en testfil

Skapa en ordlisteregel

  1. Om du skapar en ordlisteregel visas följande skärm. Upload en fil som innehåller alla möjliga värden för klassificeringen som du skapar i en enda kolumn.

    Skapa ordlisteregel

  2. När ordlistan har genererats kan du justera det lägsta tröskelvärdet för matchning och skicka regeln.

    Skapa ordlisteregel med Dictionary-Generated bockmarkering.

Nästa steg

Nu när du har skapat din klassificeringsregel är den redo att läggas till i en genomsökningsregeluppsättning så att genomsökningen använder regeln vid genomsökning. Mer information finns i Skapa en genomsökningsregeluppsättning.