Genomsökningar och inmatning i Azure Purview

Den här artikeln innehåller en översikt över genomsöknings- och inmatningsfunktionerna i Azure Purview. Dessa funktioner ansluter Ditt Purview-konto till dina källor för att fylla i datakartan och datakatalogen så att du kan börja utforska och hantera dina data via Purview.

Genomsökning

När datakällor har registrerats i ditt Purview-konto är nästa steg att genomsöka datakällorna. Genomsökningen upprättar en anslutning till datakällan och samlar in tekniska metadata som namn, filstorlek, kolumner och så vidare. Den extraherar också schemat för strukturerade datakällor, tillämpar klassificeringar på scheman och tillämpar känslighetsetiketter om ditt Purview-konto är anslutet till ett Microsoft 365 Security and Compliance Center (SCC). Genomsökningsprocessen kan utlösas för att köras omedelbart eller schemaläggas att köras regelbundet för att hålla Ditt Purview-konto uppdaterat.

För varje genomsökning finns det anpassningar som du kan tillämpa så att du bara genomsöker dina källor efter den information du behöver.

Välj en autentiseringsmetod för dina genomsökningar

Purview är säkert som standard. Inga lösenord eller hemligheter lagras direkt i Purview, så du måste välja en autentiseringsmetod för dina källor. Det finns fyra möjliga sätt att autentisera ditt Purview-konto, men alla metoder stöds inte för varje datakälla.

  • Hanterad identitet
  • Tjänstens huvudnamn
  • SQL-autentisering
  • Kontonyckel eller grundläggande autentisering

När det är möjligt är en hanterad identitet den bästa autentiseringsmetoden eftersom den eliminerar behovet av att lagra och hantera autentiseringsuppgifter för enskilda datakällor. Detta kan avsevärt minska den tid som du och ditt team lägger på att konfigurera och felsöka autentisering för genomsökningar. När du aktiverar en hanterad identitet för ditt Purview-konto skapas en identitet i Azure Active Directory och är kopplad till livscykeln för ditt konto.

Begränsa genomsökningen

När du genomsöker en källa kan du välja att genomsöka hela datakällan eller bara välja specifika entiteter (mappar/tabeller) som ska genomsöks. Tillgängliga alternativ beror på vilken källa du genomsöker och kan definieras för både en och schemalagda genomsökningar.

När du till exempel skapar och kör en genomsökning Azure SQL Databasekan du välja vilka tabeller som ska genomsöka eller välja hela databasen.

Genomsökningsregeluppsättning

En genomsökningsregeluppsättning avgör vilka typer av information en sökning ska söka efter när den körs mot en av dina källor. Tillgängliga regler beror på vilken typ av källa du genomsöker, men innehåller sådant som de filtyper som du ska genomsöka och vilka typer av klassificeringar du behöver.

Det finns redan systemgenomsökningsregeluppsättningar för många typer av datakällor, men du kan också skapa egna genomsökningsregeluppsättningar för att skräddarsy dina genomsökningar för din organisation.

Schemalägg genomsökningen

Purview ger dig möjlighet att genomskanna varje vecka eller varje månad vid en viss tidpunkt som du väljer. Veckovisa genomsökningar kan vara lämpliga för datakällor med strukturer som aktivt utvecklas eller ändras ofta. Månatlig genomsökning är mer lämplig för datakällor som ändras sällan. En bra metod är att arbeta med administratören för den källa som du vill genomsöka för att identifiera en tid när beräkningskraven på källan är låga.

Så identifierar genomsökningar borttagna tillgångar

En Azure Purview-katalog är bara medveten om tillståndet för ett datalager när en genomsökning körs. För att katalogen ska veta om en fil, tabell eller container har tagits bort jämförs de senaste genomsökningsutdata med aktuella genomsökningsutdata. Anta till exempel att den senaste gången du genomsökte ett Azure Data Lake Storage Gen2-konto inkluderade den en mapp med namnet folder1. När samma konto genomsöks igen saknas folder1. Därför förutsätter katalogen att mappen har tagits bort.

Identifiera borttagna filer

Logiken för att identifiera saknade filer fungerar för flera genomsökningar av samma användare samt av olika användare. Anta till exempel att en användare kör en engenomsökning på ett Data Lake Storage Gen2-datalager på mapparna A, B och C. Senare kör en annan användare i samma konto en annan genomsökning på mapparna C, D och E i samma datalager. Eftersom mapp C genomsökts två gånger söker katalogen efter möjliga borttagningar. Mapparna A, B, D och E genomsökdes dock bara en gång och katalogen söker inte efter borttagna tillgångar.

Om du vill hålla borttagna filer utanför katalogen är det viktigt att köra regelbundna genomsökningar. Genomsökningsintervallet är viktigt eftersom katalogen inte kan identifiera borttagna tillgångar förrän en annan genomsökning körs. Om du kör genomsökningar en gång i månaden i ett visst arkiv kan katalogen därför inte identifiera några borttagna datatillgångar i lagret förrän du kör nästa genomsökning en månad senare.

När du räknar upp stora datalager som Data Lake Storage Gen2 finns det flera sätt (inklusive uppräkningsfel och ignorerade händelser) att missa information. En viss genomsökning kan missa att en fil har skapats eller tagits bort. Så om katalogen inte är säker på att en fil har tagits bort tas den inte bort från katalogen. Den här strategin innebär att det kan finnas fel när en fil som inte finns i det skannade datalagret fortfarande finns i katalogen. I vissa fall kan ett datalager behöva genomsökas två eller tre gånger innan det fångar upp vissa borttagna tillgångar.

Anteckning

Tillgångar som har markerats för borttagning tas bort efter en lyckad genomsökning. Borttagna tillgångar kan fortsätta att vara synliga i katalogen en stund innan de bearbetas och tas bort.

Datainmatning

De tekniska metadata eller klassificeringar som identifieras av genomsökningen skickas sedan till inmatningen. Inmatningsprocessen ansvarar för att fylla i datakartan och hanteras av Purview. Inmatningen analyserar indata från genomsökningen, tillämpar resursuppsättningsmönster,fyller i tillgänglig härledningsinformation och läser sedan in datakartan automatiskt. Tillgångar/scheman kan bara identifieras eller curated när datainmatningen har slutförts. Så om genomsökningen har slutförts men du inte har sett dina tillgångar i datakartan eller katalogen måste du vänta tills inmatningsprocessen har slutförts.

Nästa steg

Om du vill ha mer information eller specifika anvisningar för att söka efter källor följer du länkarna nedan.