Vlastní klasifikace v Azure Purview

Tento článek popisuje, jak můžete vytvořit vlastní klasifikace pro definování datových typů v datových majetku, které jsou pro vaši organizaci jedinečné. Popisuje také vytváření vlastních klasifikačních pravidel, která vám umožňují vyhledat zadaná data v rámci vašeho datového majetku.

Výchozí klasifikace systému

Azure Purview Data Catalog poskytuje velkou sadu výchozích systémových klasifikací, které představují typické osobní typy dat, které můžete mít ve svých datových majetku. Úplný seznam dostupných systémových klasifikací najdete v tématu Podporované klasifikace v Azure Purview.

výběr klasifikace

Můžete také vytvořit vlastní klasifikace, pokud kterákoli z výchozích klasifikací nesplňuje vaše požadavky.

Poznámka

Naše pravidla vzorkování dat se používají pro systémové i vlastní klasifikace.

Poznámka

Vlastní klasifikace Purview se používají jenom u strukturovaných zdrojů dat, jako jsou SQL a CosmosDB, a u strukturovaných typů souborů, jako jsou CSV, JSON a Parquet. Vlastní klasifikace se u nestrukturovaných datových souborů, jako jsou DOC, PDF a XLSX, aplikuje.

Postup vytvoření vlastní klasifikace

Pokud chcete vytvořit vlastní klasifikaci, postupujte takto:

  1. V katalogu vyberte Mapování dat v nabídce vlevo.

  2. V části Správa poznámek vyberte Klasifikace.

  3. Vyberte + Nový.

    Nová klasifikace

Otevře se podokno Přidat novou klasifikaci, kde můžete klasifikaci zadat název a popis. Osvědčeným postupem je používat konvenci pro mezery v názvu, například your company name.classification name .

Klasifikace systému Microsoftu jsou seskupené v rámci vyhrazeného oboru MICROSOFT. názvů. Příkladem je MICROSOFT. VLÁDA. NÁS. ČÍSLO _ SOCIÁLNÍHO _ POJIŠTĚNÍ.

Název klasifikace musí začít písmenem následovaný posloupností písmen, číslic a tečky (.) nebo podtržítka. Nejsou povoleny žádné mezery. Při psaní uživatelské prostředí automaticky vygeneruje popisný název. Tento popisný název se uživatelům zobrazí, když ho použijete u assetu v katalogu.

Aby byl název krátký, vytvoří systém popisný název na základě následující logiky:

  • Ořízly se všechny segmenty oboru názvů s až na poslední dva segmenty.

  • Velikost písmen se upraví tak, aby první písmeno každého slova bylo velkými písmeny.

  • Všechna podtržítka ( _ ) se nahradí mezerami.

Například pokud jste klasifikaci pojmenovali CONTOSO.HR. ID _ ZAMĚSTNANCE– popisný název se uloží v systému jako ID hr.employee.

Contoso.hr.employee_id

Vyberte OK a nová klasifikace se přidá do seznamu klasifikace.

Vlastní klasifikace

Výběrem klasifikace v seznamu se otevře stránka s podrobnostmi klasifikace. Tady najdete všechny podrobnosti o klasifikaci.

Mezi tyto podrobnosti patří počet instancí, formální název, přidružená pravidla klasifikace (pokud existují) a jméno vlastníka.

Výběr klasifikace

Vlastní pravidla klasifikace

Služba katalogu poskytuje sadu výchozích klasifikačních pravidel, která skener používá k automatické detekci určitých datových typů. Můžete také přidat vlastní pravidla klasifikace, která budou zjišťovat další typy dat, které by vás mohly zajímat v rámci vašich datových majetku. Tato funkce může být výkonná, když se snažíte najít data v rámci vašich datových majetku.

Řekněme například, že společnost Contoso má ID zaměstnanců, která jsou v celé společnosti standardizovaná se slovem Zaměstnanec a za ním identifikátor GUID pro vytvoření ' " " EMPLOYEE{GUID}. Například jedna instance ID zaměstnance vypadá jako EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55 .

Společnost Contoso může nakonfigurovat systém skenování tak, aby našel instance těchto ID vytvořením vlastního pravidla klasifikace. Mohou zadat regulární výraz, který odpovídá datovému vzoru, v tomto případě \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$ . Pokud jsou data obvykle ve sloupci, který znají, například ID zaměstnance nebo EMPLOYEEID, mohou volitelně přidat regulární výraz vzoru sloupce, aby byla kontrola ještě _ přesnější. Příkladem regulárního výrazu je _ ID zaměstnance | EmployeeID.

Systém kontroly pak může pomocí tohoto pravidla prozkoumat skutečná data ve sloupci a název sloupce a pokusit se identifikovat všechny instance, ve kterých je nalezen vzor ID zaměstnance.

Postup vytvoření vlastního pravidla klasifikace

Vytvoření vlastního pravidla klasifikace:

  1. Vytvořte vlastní klasifikaci podle pokynů v předchozí části. Tuto vlastní klasifikaci přidáte do konfigurace pravidla klasifikace tak, aby ji systém aplikuje, když najde shodu ve sloupci.

  2. Vyberte ikonu Mapování dat.

  3. Vyberte část Pravidla klasifikace.

    Dlaždice Pravidla klasifikace

  4. Vyberte možnost pro novou položku.

    Přidání nového pravidla klasifikace

  5. Otevře se dialogové okno Nové pravidlo klasifikace. Vyplňte pole a rozhodněte se, jestli se má vytvořit pravidlo regulárního výrazu nebo pravidlo slovníku.

    Pole Popis
    Název Povinná hodnota. Maximální délka je 100 znaků.
    Description Nepovinný parametr. Maximální délka je 256 znaků.
    Název klasifikace Povinná hodnota. V rozevíracím seznamu vyberte název klasifikace a sdělte skeneru, že se má použít, pokud je nalezena shoda.
    Stav Povinná hodnota. Možnosti jsou povolené nebo zakázané. Výchozí hodnota je Povoleno.

    Vytvoření nového pravidla klasifikace

Vytvoření pravidla regulárního výrazu

  1. Pokud vytváříte pravidlo regulárního výrazu, zobrazí se následující obrazovka. Volitelně můžete nahrát soubor, který se použije k vygenerování navrhovaných vzorů regulárních výrazů pro vaše pravidlo.

    Vytvoření nového pravidla regulárního výrazu

  2. Pokud se rozhodnete vygenerovat navrhovaný vzor regulárního výrazu, vyberte po nahrání souboru jeden z navrhovaných vzorů a výběrem možnosti Přidat do vzorů použijte navrhovaná data a vzory sloupců. Navrhované vzory můžete upravit nebo můžete také zadat vlastní vzory bez nahrání souboru.

    Generování navrhovaného regulárního výrazu

    Pole Description
    Datový vzor Nepovinný parametr. Regulární výraz, který představuje data uložená v datovém poli. Limit je velmi velký. V předchozím příkladu vzory dat testovat ID zaměstnance, které je doslova slovo Employee{GUID} .
    Vzor sloupce Nepovinný parametr. Regulární výraz, který představuje názvy sloupců, které chcete spárovat. Limit je velmi velký.
  3. V části Datový vzor můžete použít prahovou hodnotu minimální shody k nastavení minimálního procenta shod jedinečných datových hodnot ve sloupci, který musí skener najít pro klasifikaci, která se má použít. Navrhovaná hodnota je 60 %. Pokud zadáte více datových vzorů, toto nastavení se deaktivuje a hodnota se opraví na 60 %.

    Poznámka

    Minimální prahová hodnota shody musí být alespoň 1 %.

  4. Teď můžete ověřit pravidlo a vytvořit ho.

  5. Před dokončením procesu vytváření otestujte pravidlo klasifikace, abyste ověřili, že bude používat značky pro vaše prostředky. Klasifikace v pravidle budou aplikovány na ukázková data, která se nahrála stejně jako při prohledávání. To znamená, že všechny klasifikace systému a vaše vlastní klasifikace budou odpovídat datům v souboru.

    Vstupní soubory můžou zahrnovat soubory s oddělovači (CSV, PSV, SSV, TSV), JSON nebo XML obsah. Obsah bude analyzován v závislosti na příponě souboru vstupního souboru. Data s oddělovači mohou mít příponu souboru, která odpovídá jakémukoli zmíněnému typu. Například data TSV mohou existovat v souboru s názvem MySampleData.csv. Obsah s oddělovači musí mít také minimálně 3 sloupce.

    Testovací pravidlo před vytvořením

    Zobrazit použité klasifikace po nahrání testovacího souboru

Vytvoření pravidla slovníku

  1. Při vytváření pravidla slovníku se zobrazí následující obrazovka. Upload soubor, který obsahuje všechny možné hodnoty pro klasifikaci, kterou vytváříte v jednom sloupci.

    Vytvořit pravidlo slovníku

  2. Po vygenerování slovníku můžete upravit prahovou hodnotu minimální shody a pravidlo odeslat.

    Vytvořte pravidlo slovníku s zaškrtnutím Dictionary-Generated.

Další kroky

Teď, když jste vytvořili pravidlo klasifikace, je připravené ho přidat do sady pravidel skenování, aby kontrola při kontrole použila pravidlo. Další informace najdete v tématu Vytvoření sady pravidel skenování.