Verbinding maken hive-metastore-databases beheren in Azure Purview
In dit artikel wordt beschreven hoe u Hive Metastore-databases registreert en hoe u Hive Metastore-databases verifieert en gebruikt in Azure Purview. Lees het inleidende artikel voor meer informatie overAzure Purview.
Ondersteunde mogelijkheden
| Extractie van metagegevens | Volledige scan | Incrementele scan | Scan met bereik | Classificatie | Toegangsbeleid | Herkomst |
|---|---|---|---|---|---|---|
| Ja | Ja | Nee | Nee | Nee | Nee | Ja** |
** Herkomst wordt ondersteund als de gegevensset wordt gebruikt als bron/sink in Data Factory Copy-activiteit
Belangrijk
De ondersteunde platforms zijn Apache Hadoop, Cloudera, Hortonworks en Databricks. Ondersteunde Hive-versies zijn 2.x tot 3.x. Ondersteunde Databricks-versies zijn 8.0 en hoger.
Vereisten
Een Azure-account met een actief abonnement. Gratis een account maken
Een actieve Purview-resource.
U moet een gegevensbronbeheerder en gegevenslezer zijn om een bron te registreren en te beheren in Purview Studio. Zie onze pagina Machtigingen voor Azure Purview voor meer informatie.
Stel de meest recente zelf-hostende Integration Runtime in. Zie de handleiding een zelf-hostend integratieruntime maken en configureren voor meer informatie.
Zorg ervoor dat JDK 11 is geïnstalleerd op de virtuele machine waarop de zelf-hostende Integration Runtime is geïnstalleerd.
Zorg ervoor dat Visual C++ Redistributable Visual Studio 2012 Update 4 is geïnstalleerd op de zelf-hostende Integration Runtime-machine. Als u deze update niet hebt geïnstalleerd, kunt u deze hier downloaden.
Download en installeer het JDBC-stuurprogramma van de Hive Metastore-database op de computer waarop uw zelf-hostende Integration Runtime wordt uitgevoerd. Als de gebruikte database bijvoorbeeld mssql is, moet u het JDBC-stuurprogrammavan Microsoft downloaden voor SQL Server .
Notitie
Het stuurprogramma moet toegankelijk zijn voor alle accounts in de VM. Installeer deze niet in een gebruikersaccount.
Registreren
In deze sectie wordt beschreven hoe u Hive Metastore-databases registreert in Azure Purview met behulp van Purview Studio.
De enige ondersteunde verificatie voor een Hive Metastore-database is Basisverificatie.
Stappen voor het registreren
Navigeer naar uw Purview-account.
Selecteer Gegevenstoewijzing in het linkernavigatievenster.
Selecteer Registreren
Selecteer hive-metastore bij Bronnen registreren. Selecteer Doorgaan.
Ga op het scherm Bronnen registreren (Hive Metastore) als volgt te werk:
Voer een Naam in dat de gegevensbron wordt vermeld in de catalogus.
Voer de URL van het Hive-cluster in. De Cluster-URL kan worden verkregen via de Ambari-URL of via de URL van de Databricks-werkruimte. Bijvoorbeeld: hive.azurehdinsight.net of adb-19255636414785.5.azuredatabricks.net
Voer de URL van de Hive Metastore-server in. U kunt bijvoorbeeld sqlserver://hive.database.windows.net of jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443
Selecteer een verzameling of maak een nieuwe (optioneel).
Voltooi om de gegevensbron te registreren.
Scannen
Volg de onderstaande stappen om Hive Metastore-databases te scannen om automatisch assets te identificeren en uw gegevens te classificeren. Zie onze inleiding tot scans en opname voor meer informatie over scannen in het algemeen.
Een scan maken en uitvoeren
Selecteer integratieruntimes in het beheercentrum. Zorg ervoor dat een zelf-hostende Integration Runtime is ingesteld. Als deze niet is ingesteld, gebruikt u de stappen [hier](./manage-integration-runtimes.md] om een zelf-hostende Integration Runtime in te stellen.
Navigeer naar Bronnen.
Selecteer de geregistreerde Hive Metastore-database.
Selecteer + Nieuwe scan.
Geef de onderstaande details op:
Naam: de naam van de scan
Verbinding maken integration runtime: selecteer de geconfigureerde zelf-hostende Integration Runtime.
Referentie: selecteer de referentie om verbinding te maken met uw gegevensbron. Zorg ervoor dat:
- Selecteer Basisverificatie tijdens het maken van een referentie.
- Geef de metastore-gebruikersnaam op in het invoerveld Gebruikersnaam
- Sla het Metastore-wachtwoord op in de geheime sleutel.
Raadpleeg de koppeling hier voor meer informatie over referenties.
Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml
De gebruikersnaam en het wachtwoord zijn toegankelijk via de twee eigenschappen, zoals hieronder wordt weergegeven:
Locatie van JDBC-stuurprogramma metastore: geef het pad op naar de locatie van het JDBC-stuurprogramma op de VM waarop de self-host integration runtime wordt uitgevoerd. Dit moet het pad naar de geldige locatie van de JAR-map zijn.
Als u Databricks scant, raadpleegt u de sectie over Databricks hieronder.
Notitie
Het stuurprogramma moet toegankelijk zijn voor alle accounts in de VM. Voer geen installatie uit in een gebruikersaccount.
Metastore JDBC-stuurprogrammaklasse: geef de naam van de klasse van het stuurprogramma voor de verbinding op. Bijvoorbeeld\com.microsoft.sqlserver.jdbc.SQLServerDriver.
Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml
De stuurprogrammaklasse kan worden gebruikt vanuit de eigenschap , zoals hieronder wordt weergegeven.
JDBC-URL voor metastore: geef de waarde van de verbindings-URL op en definieer de verbinding met metastore DB-server-URL. Bijvoorbeeld:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml
De JDBC-URL is toegankelijk via de eigenschap Verbindings-URL, zoals hieronder wordt weergegeven.
Notitie
Wanneer u de URL van hive-site.xml, moet u uit de tekenreeks
amp;verwijderen, anders mislukt de scan. Aan deze URL moet u het pad toevoegen aan de locatie waar het SSL-certificaat op uw VM is geplaatst. U kunt het SSL-certificaat downloaden. Vergeet niet om het teken Windows padscheidingsteken te wijzigen van\in/. Bijvoorbeeld: als uw MariaDB JAR-bestand C:\mariadb-jdbc.jar is, wijzigt u dit in C:/mariadb-jdbc.jar. Maak dezelfde wijziging in de metastore JDBC URL-parameter: wijzig deze vansslCAD:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.De Metastore JDBC-URL ziet eruit als in dit voorbeeld:
jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pemMetastore-databasenaam: geef de naam van de Hive-metastore-database op.
Als u Databricks scant, raadpleegt u de sectie over Databricks hieronder.
Databricks-gebruik: navigeer naar uw Databricks-cluster -> Apps -> WebTerminal starten. Voer de cmdlet cat /databricks/hive/conf/hive-site.xml
De databasenaam kan worden gebruikt vanuit de JDBC URL-eigenschap, zoals hieronder wordt weergegeven. Bijvoorbeeld: organization1829255636414785
Schema: geef een lijst op met Hive-schema's die moeten worden geïmporteerd. Bijvoorbeeld schema1; schema2.
Alle gebruikersschema's worden geïmporteerd als deze lijst leeg is. Alle systeemschema's (bijvoorbeeld SysAdmin) en objecten worden standaard genegeerd.
Wanneer de lijst leeg is, worden alle beschikbare schema's geïmporteerd. Acceptabele schemanaampatronen met behulp SQL syntaxis van LIKE-expressies omvatten het gebruik van %. Bijvoorbeeld: A%; %B; %C%; D
- Beginnen met A of
- eindig met B of
- bevat C of
- gelijk aan D
Het gebruik van NOT en speciale tekens is niet toegestaan.
Maximaal beschikbaar geheugen: maximaal geheugen (in GB) dat beschikbaar is op de VM van de klant die moet worden gebruikt door scanprocessen. Dit is afhankelijk van de grootte van de Hive Metastore-database die moet worden gescand.
Selecteer Doorgaan.
Kies de scantrigger. U kunt een schema instellen of de scan eenmalig uitvoeren.
Controleer uw scan en selecteer Opslaan en uitvoeren.
Volgende stappen
Nu u uw bron hebt geregistreerd, volgt u de onderstaande handleidingen voor meer informatie over Purview en uw gegevens.