Condividi tramite


Connettersi e gestire HDFS in Microsoft Purview

Questo articolo descrive come registrare Hadoop Distributed File System (HDFS) e come autenticare e interagire con HDFS in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.

Funzionalità supportate

Estrazione dei metadati Analisi completa Analisi incrementale Analisi con ambito Classificazione Applicazione di etichette Criteri di accesso Lignaggio Condivisione dei dati Visualizzazione dinamica
No No No No No

Durante l'analisi dell'origine HDFS, Microsoft Purview supporta l'estrazione di metadati tecnici, tra cui HDFS:

  • Namenode
  • Cartelle
  • File
  • Set di risorse

Quando si configura l'analisi, è possibile scegliere di analizzare l'intera cartella HDFS o selettiva. Per informazioni sul formato di file supportato, vedere qui.

Il connettore usa il protocollo webhdfs per connettersi a HDFS e recuperare i metadati. La distribuzione di Hadoop MapR non è supportata.

Prerequisiti

Registrazione

Questa sezione descrive come registrare HDFS in Microsoft Purview usando il portale di governance di Microsoft Purview.

Passaggi per la registrazione

Per registrare una nuova origine HDFS nel catalogo dati, seguire questa procedura:

  1. Passare all'account Microsoft Purview nel portale di governance di Microsoft Purview.
  2. Selezionare Mappa dati nel riquadro di spostamento a sinistra.
  3. Selezionare Registra
  4. In Registra origini selezionare HDFS. Selezionare Continua.

Nella schermata Registra origini (HDFS) seguire questa procedura:

  1. Immettere un nome in cui l'origine dati verrà elencata all'interno del catalogo.

  2. Immettere l'URL cluster di HDFS NameNode nel formato https://<namenode>:<port> o http://<namenode>:<port>, ad esempio https://namenodeserver.com:50470 o http://namenodeserver.com:50070.

  3. Selezionare una raccolta o crearne una nuova (facoltativa)

  4. Completare la registrazione dell'origine dati.

    Screenshot della registrazione dell'origine HDFS in Purview.

Analisi

Seguire la procedura seguente per analizzare HDFS per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere l'introduzione alle analisi e all'inserimento.

Autenticazione per un'analisi

Il tipo di autenticazione supportato per un'origine HDFS è l'autenticazione Kerberos.

Creare ed eseguire l'analisi

Per creare ed eseguire una nuova analisi, seguire questa procedura:

  1. Assicurarsi che sia configurato un runtime di integrazione self-hosted. Se non è configurato, usare i passaggi indicati qui per creare un runtime di integrazione self-hosted.

  2. Passare a Origini.

  3. Selezionare l'origine HDFS registrata.

  4. Selezionare + Nuova analisi.

  5. Nella pagina "Scan source_name"" specificare i dettagli seguenti:

    1. Nome: nome dell'analisi

    2. Connettersi tramite il runtime di integrazione: selezionare il runtime di integrazione self-hosted configurato. Vedere i requisiti di configurazione nella sezione Prerequisiti .

    3. Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:

      • Selezionare Autenticazione Kerberos durante la creazione di credenziali.
      • Specificare il nome utente nel formato di nel campo di <username>@<domain>.com input Nome utente. Per altre informazioni, vedere Usare l'autenticazione Kerberos per il connettore HDFS.
      • Archiviare la password utente usata per connettersi a HDFS nella chiave privata.

      Screenshot delle configurazioni di analisi HDFS in Purview.

  6. Selezionare Test connessione.

  7. Selezionare Continua.

  8. Nella pagina "Ambito dell'analisi" selezionare i percorsi da analizzare.

  9. Nella pagina "Selezionare un set di regole di analisi" selezionare il set di regole di analisi da usare per l'estrazione e la classificazione dello schema. È possibile scegliere tra i set di regole personalizzati predefiniti del sistema o esistenti oppure creare un nuovo set di regole inline. Per altre informazioni , vedere Creare un set di regole di analisi.

  10. Nella pagina "Imposta trigger di analisi" scegliere il trigger di analisi. È possibile configurare una pianificazione o eseguire l'analisi una sola volta.

  11. Esaminare l'analisi e selezionare Salva ed esegui.

Visualizzare le analisi e le esecuzioni di analisi

Per visualizzare le analisi esistenti:

  1. Passare al portale di governance di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
  2. Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
  3. Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
  4. Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.

Gestire le analisi

Per modificare, annullare o eliminare un'analisi:

  1. Passare al portale di governance di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.

  2. Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .

  3. Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:

    • Modificare l'analisi selezionando Modifica analisi.
    • Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
    • Eliminare l'analisi selezionando Elimina analisi.

Nota

  • L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.
  • L'asset non verrà più aggiornato con le modifiche dello schema se la tabella di origine è stata modificata e la tabella di origine viene analizzata di nuovo dopo aver modificato la descrizione nella scheda Schema di Microsoft Purview.

Usare l'autenticazione Kerberos per il connettore HDFS

Sono disponibili due opzioni per configurare l'ambiente locale per l'uso dell'autenticazione Kerberos per il connettore HDFS. Puoi scegliere quello che meglio si adatta alla tua situazione.

Per entrambe le opzioni, assicurarsi di attivare webhdfs per il cluster Hadoop:

  1. Creare l'entità HTTP e la scheda chiave per webhdfs.

    Importante

    L'entità Kerberos HTTP deve iniziare con "HTTP/" in base alla specifica SPNEGO HTTP Kerberos. Altre informazioni sono disponibili qui.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. Opzioni di configurazione HDFS: aggiungere le tre proprietà seguenti in hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Opzione 1: Aggiungere un computer di runtime di integrazione self-hosted nell'area di autenticazione Kerberos

Requisiti

  • Il computer di runtime di integrazione self-hosted deve aggiungere l'area di autenticazione Kerberos e non può aggiungere alcun dominio Windows.

Configurazione

Nel server KDC:

Creare un'entità e specificare la password.

Importante

Il nome utente non deve contenere il nome host.

Kadmin> addprinc <username>@<REALM.COM>

Nel computer di runtime di integrazione self-hosted:

  1. Eseguire l'utilità Ksetup per configurare l'area di autenticazione e il server KDC (Kerberos Key Distribution Center).

    Il computer deve essere configurato come membro di un gruppo di lavoro, perché un'area di autenticazione Kerberos è diversa da un dominio Windows. È possibile ottenere questa configurazione impostando l'area di autenticazione Kerberos e aggiungendo un server KDC eseguendo i comandi seguenti. Sostituire REALM.COM con il nome dell'area di autenticazione.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Dopo aver eseguito questi comandi, riavviare il computer.

  2. Verificare la configurazione con il Ksetup comando . L'output dovrebbe essere simile al seguente:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

Nell'account Purview:

  • Configurare una credenziale con il tipo di autenticazione Kerberos con il nome e la password dell'entità Kerberos per analizzare HDFS. Per informazioni dettagliate sulla configurazione, controllare la parte relativa all'impostazione delle credenziali nella sezione Analisi.

Opzione 2: abilitare l'attendibilità reciproca tra il dominio Windows e l'area di autenticazione Kerberos

Requisiti

  • Il computer di runtime di integrazione self-hosted deve aggiungere un dominio Windows.
  • È necessaria l'autorizzazione per aggiornare le impostazioni del controller di dominio.

Configurazione

Nota

Sostituire REALM.COM e AD.COM nell'esercitazione seguente con il nome dell'area di autenticazione e il controller di dominio personalizzati.

Nel server KDC:

  1. Modificare la configurazione KDC nel file krb5.conf per consentire a KDC di considerare attendibile il dominio Windows facendo riferimento al modello di configurazione seguente. Per impostazione predefinita, la configurazione si trova in /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Dopo aver configurato il file, riavviare il servizio KDC.

  2. Preparare un'entità denominata krbtgt/REALM.COM@AD.COM nel server KDC con il comando seguente:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. Nel file di configurazione del servizio HDFS hadoop.security.auth_to_local aggiungere RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

Nel controller di dominio:

  1. Eseguire i comandi seguenti Ksetup per aggiungere una voce dell'area di autenticazione:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Stabilire l'attendibilità dal dominio Windows all'area di autenticazione Kerberos. [password] è la password per l'entità krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Selezionare l'algoritmo di crittografia usato in Kerberos.

    1. Selezionare Server Manager>Criteri di gruppo Management>Domain>Criteri di gruppo Objects>Default o Active Domain Policy e quindi selezionare Modifica.

    2. Nel riquadro editor di gestione Criteri di gruppo selezionareCriteri> di configurazione> computerImpostazioni di windows Impostazioni>di sicurezza Impostazioni>locali>Opzioni di sicurezza e quindi configurare Sicurezza di rete: Configurare i tipi di crittografia consentiti per Kerberos.

    3. Selezionare l'algoritmo di crittografia da usare quando ci si connette al server KDC. È possibile selezionare tutte le opzioni.

      Screenshot del riquadro Sicurezza di rete: Configurare i tipi di crittografia consentiti per Kerberos.

    4. Usare il Ksetup comando per specificare l'algoritmo di crittografia da usare nell'area di autenticazione specificata.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Creare il mapping tra l'account di dominio e l'entità Kerberos, in modo che sia possibile usare l'entità Kerberos nel dominio Windows.

    1. Selezionare Strumenti di amministrazione>Utenti e computer di Active Directory.

    2. Configurare le funzionalità avanzate selezionando Visualizza>funzionalità avanzate.

    3. Nel riquadro Funzionalità avanzate fare clic con il pulsante destro del mouse sull'account a cui si desidera creare i mapping e nel riquadro Mapping dei nomi selezionare la scheda Nomi Kerberos .

    4. Aggiungere un'entità dall'area di autenticazione.

      Screenshot del riquadro Mapping identità di sicurezza.

Nel computer di runtime di integrazione self-hosted:

  • Eseguire i comandi seguenti Ksetup per aggiungere una voce dell'area di autenticazione.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

Nell'account Purview:

  • Configurare una credenziale con il tipo di autenticazione Kerberos con il nome e la password dell'entità Kerberos per analizzare HDFS. Per informazioni dettagliate sulla configurazione, controllare la parte relativa all'impostazione delle credenziali nella sezione Analisi.

Limitazioni note

Attualmente, il connettore HDFS non supporta la regola del modello di set di risorse personalizzato per il set di risorse avanzato, verranno applicati i modelli predefiniti del set di risorse.

L'etichetta di riservatezza non è ancora supportata.

Passaggi successivi

Dopo aver registrato l'origine, seguire le guide seguenti per altre informazioni su Microsoft Purview e i dati.