Verbinding maken hive-metastore-databases beheren in Azure Purview

In dit artikel wordt beschreven hoe u Hive Metastore-databases registreert en hoe u Hive Metastore-databases verifieert en gebruikt in Azure Purview. Lees het inleidende artikel voor meer informatie overAzure Purview.

Ondersteunde mogelijkheden

Extractie van metagegevens Volledige scan Incrementele scan Scan met bereik Classificatie Toegangsbeleid Herkomst
Ja Ja Nee Nee Nee Nee Ja**

** Herkomst wordt ondersteund als de gegevensset wordt gebruikt als bron/sink in Data Factory Copy-activiteit

Belangrijk

De ondersteunde platforms zijn Apache Hadoop, Cloudera, Hortonworks en Databricks. Ondersteunde Hive-versies zijn 2.x tot 3.x. Ondersteunde Databricks-versies zijn 8.0 en hoger.

Vereisten

Registreren

In deze sectie wordt beschreven hoe u Hive Metastore-databases registreert in Azure Purview met behulp van Purview Studio.

De enige ondersteunde verificatie voor een Hive Metastore-database is Basisverificatie.

Stappen voor het registreren

  1. Navigeer naar uw Purview-account.

  2. Selecteer Gegevenstoewijzing in het linkernavigatievenster.

  3. Selecteer Registreren

  4. Selecteer hive-metastore bij Bronnen registreren. Selecteer Doorgaan.

    Hive-bron registreren

Ga op het scherm Bronnen registreren (Hive Metastore) als volgt te werk:

  1. Voer een Naam in dat de gegevensbron wordt vermeld in de catalogus.

  2. Voer de URL van het Hive-cluster in. De Cluster-URL kan worden verkregen via de Ambari-URL of via de URL van de Databricks-werkruimte. Bijvoorbeeld: hive.azurehdinsight.net of adb-19255636414785.5.azuredatabricks.net

  3. Voer de URL van de Hive Metastore-server in. U kunt bijvoorbeeld sqlserver://hive.database.windows.net of jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443

  4. Selecteer een verzameling of maak een nieuwe (optioneel).

  5. Voltooi om de gegevensbron te registreren.

    hive-bron configureren

Scannen

Volg de onderstaande stappen om Hive Metastore-databases te scannen om automatisch assets te identificeren en uw gegevens te classificeren. Zie onze inleiding tot scans en opname voor meer informatie over scannen in het algemeen.

Een scan maken en uitvoeren

  1. Selecteer integratieruntimes in het beheercentrum. Zorg ervoor dat een zelf-hostende Integration Runtime is ingesteld. Als deze niet is ingesteld, gebruikt u de stappen [hier](./manage-integration-runtimes.md] om een zelf-hostende Integration Runtime in te stellen.

  2. Navigeer naar Bronnen.

  3. Selecteer de geregistreerde Hive Metastore-database.

  4. Selecteer + Nieuwe scan.

  5. Geef de onderstaande details op:

    1. Naam: de naam van de scan

    2. Verbinding maken integration runtime: selecteer de geconfigureerde zelf-hostende Integration Runtime.

    3. Referentie: selecteer de referentie om verbinding te maken met uw gegevensbron. Zorg ervoor dat:

      • Selecteer Basisverificatie tijdens het maken van een referentie.
      • Geef de metastore-gebruikersnaam op in het invoerveld Gebruikersnaam
      • Sla het Metastore-wachtwoord op in de geheime sleutel.

      Raadpleeg de koppeling hier voor meer informatie over referenties.

      Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml

      De gebruikersnaam en het wachtwoord zijn toegankelijk via de twee eigenschappen, zoals hieronder wordt weergegeven:

      databricks-username-password-details

    4. Locatie van JDBC-stuurprogramma metastore: geef het pad op naar de locatie van het JDBC-stuurprogramma op de VM waarop de self-host integration runtime wordt uitgevoerd. Dit moet het pad naar de geldige locatie van de JAR-map zijn.

      Als u Databricks scant, raadpleegt u de sectie over Databricks hieronder.

      Notitie

      Het stuurprogramma moet toegankelijk zijn voor alle accounts in de VM. Voer geen installatie uit in een gebruikersaccount.

    5. Metastore JDBC-stuurprogrammaklasse: geef de naam van de klasse van het stuurprogramma voor de verbinding op. Bijvoorbeeld\com.microsoft.sqlserver.jdbc.SQLServerDriver.

      Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml

      De stuurprogrammaklasse kan worden gebruikt vanuit de eigenschap , zoals hieronder wordt weergegeven.

      databricks-driver-class-details

    6. JDBC-URL voor metastore: geef de waarde van de verbindings-URL op en definieer de verbinding met metastore DB-server-URL. Bijvoorbeeld: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml

      De JDBC-URL is toegankelijk via de eigenschap Verbindings-URL, zoals hieronder wordt weergegeven.

      databricks-jdbc-url-details

      Notitie

      Wanneer u de URL van hive-site.xml, moet u uit de tekenreeks amp; verwijderen, anders mislukt de scan. Aan deze URL moet u het pad toevoegen aan de locatie waar het SSL-certificaat op uw VM is geplaatst. U kunt het SSL-certificaat downloaden. Vergeet niet om het teken Windows padscheidingsteken te wijzigen van \ in / . Bijvoorbeeld: als uw MariaDB JAR-bestand C:\mariadb-jdbc.jar is, wijzigt u dit in C:/mariadb-jdbc.jar. Maak dezelfde wijziging in de metastore JDBC URL-parameter: wijzig deze van sslCA D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      De Metastore JDBC-URL ziet eruit als in dit voorbeeld:

      jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Metastore-databasenaam: geef de naam van de Hive-metastore-database op.

      Als u Databricks scant, raadpleegt u de sectie over Databricks hieronder.

      Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml

      De databasenaam kan worden gebruikt vanuit de JDBC URL-eigenschap, zoals hieronder wordt weergegeven. Bijvoorbeeld: organization1829255636414785

      databricks-database-name-details

    8. Schema: geef een lijst op met Hive-schema's die moeten worden geïmporteerd. Bijvoorbeeld schema1; schema2.

      Alle gebruikersschema's worden geïmporteerd als deze lijst leeg is. Alle systeemschema's (bijvoorbeeld SysAdmin) en objecten worden standaard genegeerd.

      Wanneer de lijst leeg is, worden alle beschikbare schema's geïmporteerd. Acceptabele schemanaampatronen met behulp SQL syntaxis van LIKE-expressies omvatten het gebruik van %. Bijvoorbeeld: A%; %B; %C%; D

      • Beginnen met A of
      • eindig met B of
      • bevat C of
      • gelijk aan D

      Het gebruik van NOT en speciale tekens is niet toegestaan.

    9. Maximaal beschikbaar geheugen: maximaal geheugen (in GB) dat beschikbaar is op de VM van de klant die moet worden gebruikt door scanprocessen. Dit is afhankelijk van de grootte van de Hive Metastore-database die moet worden gescand.

      hive-bron scannen

  6. Selecteer Doorgaan.

  7. Kies de scantrigger. U kunt een schema instellen of de scan eenmalig uitvoeren.

  8. Controleer uw scan en selecteer Opslaan en uitvoeren.

Volgende stappen

Nu u uw bron hebt geregistreerd, volgt u de onderstaande handleidingen voor meer informatie over Purview en uw gegevens.