Condividi tramite


Normalizzazione degli asset

Quando si inseriscono asset nella mappa dati di Microsoft Purview, origini diverse che aggiornano lo stesso asset di dati possono inviare nomi qualificati simili, ma leggermente diversi. Anche se questi nomi qualificati rappresentano lo stesso asset, lievi differenze, ad esempio un carattere aggiuntivo, possono causare l'aspetto di questi asset in superficie diversi e causare voci duplicate in Microsoft Purview. Per evitare di archiviare voci duplicate e causare confusione durante l'utilizzo del catalogo dati, Microsoft Purview applica la normalizzazione durante l'inserimento per garantire che tutti i nomi completi dello stesso tipo di entità siano nello stesso formato.

Ad esempio, si esegue l'analisi in un BLOB di Azure con il nome https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetcompleto . Questo BLOB viene utilizzato anche da una pipeline di Azure Data Factory che aggiungerà quindi informazioni di derivazione all'asset. La pipeline ADF può essere configurata per leggere il file come https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Anche se il nome completo è diverso, questa pipeline ADF usa la stessa parte di dati. La normalizzazione garantisce che tutti i metadati di Archiviazione BLOB di Azure e Azure Data Factory siano visibili in un singolo asset, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Importante

Le regole elencate di seguito sono gli unici tipi di possibili duplicati attualmente riconosciuti da Microsoft Purview. Se si verifica una duplicazione accidentale degli asset, confrontare i nomi completi degli asset per verificare la presenza di differenze di caplitalizzazione o caratteri aggiuntivi. Aggiornare eventuali punti di inserimento, ad esempio le pipeline ADF, in modo che i nomi completi corrispondano.

Regole di normalizzazione

Di seguito sono riportate le regole di normalizzazione applicate da Microsoft Purview.

Codifica parentesi graffe

Si applica a: Tutti gli asset

Prima: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Dopo: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Tagliare gli spazi di sezione

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3

Prima: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Dopo: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Rimuovere gli spazi dei nomi host

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3

Prima: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Rimuovere le parentesi quadre

Si applica a: database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL

Prima: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Dopo: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Nota

Gli spazi tra due parentesi quadre verranno codificati

Schema minuscolo

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Amazon S3

Prima: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nome host minuscolo

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database Azure SQL, Istanza gestita di SQL di Azure, Azure SQL pool, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Amazon S3

Prima: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Estensione file minuscola

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Prima: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Rimuovere la barra duplicata

Si applica a: BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, database Azure SQL, Istanza gestita di SQL di Azure, pool di Azure SQL, Azure Cosmos DB, Ricerca cognitiva di Azure, Azure Esplora dati, Azure Condivisione dati, Amazon S3

Prima: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Dopo: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Converti in schema ADL

Si applica a: Azure Data Lake Storage Gen1

Prima: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Dopo: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Rimuovi barra finale

Rimuovere la barra finale dagli asset di livello superiore per BLOB di Azure, ADLS Gen1 e ADLS Gen2

Si applica a: BLOB di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Tipi di asset: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Prima: https://myaccount.core.windows.net/

Dopo: https://myaccount.core.windows.net

Passaggi successivi

Eseguire l'analisi in un account Archiviazione BLOB di Azure nella mappa dati di Microsoft Purview.