Anslut till och hantera Hive-metaarkivdatabaser i Azure Purview
Den här artikeln beskriver hur du registrerar Hive-metaarkivdatabaser och hur du autentiserar och interagerar med Hive-metaarkivdatabaser i Azure Purview. Mer information om Azure Purview finns i introduktionsartikeln.
Funktioner som stöds
| Extrahering av metadata | Fullständig genomsökning | Inkrementell sökning | Begränsad genomsökning | Klassificering | Åtkomstprincip | Ursprung |
|---|---|---|---|---|---|---|
| Ja | Ja | Nej | Nej | Nej | Nej | Ja** |
** Ursprung stöds om datauppsättningen används som källa/mottagare i Data Factory aktiviteten Kopiera
Viktigt
Plattformarna som stöds är Apache Hadoop, Cloudera, Hortonworks och Databricks. Hive-versioner som stöds är 2.x till 3.x. Databricks-versioner som stöds är 8.0 och senare.
Förutsättningar
Ett Azure-konto med en aktiv prenumeration. Skapa ett konto utan kostnad.
En aktiv Purview-resurs.
Du måste vara datakällsadministratör och dataläsare för att registrera en källa och hantera den i Purview Studio. Mer information finns på sidan Behörigheter för Azure Purview.
Konfigurera den senaste integrationskörningen med egen värd. Mer information finns i guiden skapa och konfigurera en integrationskörningmed egen värd.
Kontrollera att JDK 11 är installerat på den virtuella datorn där integration runtime med egen värd är installerad.
Se till att Visual C++ Redistributable Visual Studio 2012 Uppdatering 4 är installerat på den lokala integrationskörningsdatorn. Om du inte har installerat den här uppdateringen kan du hämta den här.
Ladda ned och installera Hive Metastore-databasens JDBC-drivrutin på den dator där din lokala Integration Runtime körs. Om databasen som används till exempel är mssql laddar du ned Microsofts JDBC-drivrutin för SQL Server.
Anteckning
Drivrutinen ska vara tillgänglig för alla konton på den virtuella datorn. Installera den inte i ett användarkonto.
Registrera dig
I det här avsnittet beskrivs hur du registrerar Hive-metaarkivdatabaser i Azure Purview med hjälp av Purview Studio.
Den enda autentisering som stöds för en Hive-metaarkivdatabas är Grundläggande autentisering.
Steg för att registrera
Gå till ditt Purview-konto.
Välj Data Map i det vänstra navigeringsfönstret.
Välj Registrera
I Registrera källor väljer du Hive-metaarkiv. Välj Fortsätt.
Gör följande på skärmen Registrera källor (Hive-metaarkiv):
Ange ett Namn som datakällan ska visas i katalogen.
Ange Hive-klustrets URL. Kluster-URL:en kan antingen hämtas från Ambari-URL:en eller från Databricks-arbetsytans URL. Till exempel hive.azurehdinsight.net eller adb-19255636414785.5.azuredatabricks.net
Ange webbadressen till Hive-metaarkivservern. Till exempel, sqlserver://hive.database.windows.net eller jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443
Välj en samling eller skapa en ny (valfritt).
Slutför registreringen av datakällan.
Genomsöka
Följ stegen nedan för att genomsöka Hive-metaarkivdatabaser för att automatiskt identifiera tillgångar och klassificera dina data. Mer information om genomsökning i allmänhet finns i vår introduktion till genomsökningar och inmatning.
Skapa och köra genomsökning
I Hanteringscenter väljer du Integreringskörningar. Kontrollera att en integration runtime med egen värd har ställts in. Om den inte har ställts in använder du stegen [here](./manage-integration-runtimes.md] för att konfigurera en integrationskörning med egen värd.
Gå till Sources ( Källor).
Välj den registrerade Hive-metaarkivdatabasen.
Välj + Ny genomsökning.
Ange informationen nedan:
Namn: Namnet på genomsökningen
Anslut via Integration Runtime: Välj den konfigurerade integrationskörningen med egen värd.
Autentiseringsuppgifter: Välj autentiseringsuppgifterna för att ansluta till datakällan. Se till att:
- Välj Grundläggande autentisering när du skapar en autentiseringsautentisering.
- Ange metaarkivanvändarnamnet i fältet Användarnamn
- Lagra metaarkivlösenordet i den hemliga nyckeln.
Mer information om autentiseringsuppgifter finns på länken här.
Databricks-användning: Gå till databricks-klustret -> Apps -> Starta webbterminalen. Kör cmdleten cat /databricks/hive/conf/hive-site.xml
Användarnamnet och lösenordet kan nås från de två egenskaperna enligt nedan:
Metaarkiv JDBC-drivrutinsplats: Ange sökvägen till JDBC-drivrutinsplatsen på den virtuella datorn där integration runtime med egen värd körs. Detta bör vara sökvägen till en giltig PLATS för JAR-mappen.
Om du genomsöker Databricks kan du läsa avsnittet om Databricks nedan.
Anteckning
Drivrutinen ska vara tillgänglig för alla konton på den virtuella datorn. Installera inte i ett användarkonto.
JDBC-drivrutinsklass för metaarkiv: Ange anslutningsdrivrutinens klassnamn. Till exempel\com.microsoft.sqlserver.jdbc.SQLServerDriver.
Databricks-användning: Gå till databricks-klustret -> Apps -> Starta webbterminalen. Kör cmdleten cat /databricks/hive/conf/hive-site.xml
Drivrutinsklassen kan nås från egenskapen enligt nedan.
JDBC-URL för metaarkiv: Ange värdet för Anslutnings-URL och definiera anslutningen till metaarkiv DB-serverns URL. Exempel:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.Databricks-användning: Gå till databricks-klustret -> Apps -> Starta webbterminalen. Kör cmdleten cat /databricks/hive/conf/hive-site.xml
JDBC-URL:en kan nås från egenskapen Anslutnings-URL enligt nedan.
Anteckning
När du kopierar URL:en hive-site.xml måste du ta bort
amp;den från strängen. Annars misslyckas genomsökningen. Lägg till sökvägen till den plats där SSL-certifikatet placeras på den virtuella datorn i den här URL:en. Du kan ladda ned SSL-certifikatet. Kom ihåg att ändra Windows sökvägsavgränsare från\till/. Exempel: Om din MariaDB JAR-fil är C:\mariadb-jdbc.jar ändrar du den till C:/mariadb-jdbc.jar. Gör samma ändring i parametern Metastore JDBC URL: Ändra den frånsslCAD:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem till D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.Metaarkiv-JDBC-URL:en ser ut som i det här exemplet:
jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pemDatabasnamn för metaarkiv: Ange namnet på Hive-metaarkivdatabasen.
Om du genomsöker Databricks läser du avsnittet i Databricks nedan.
Databricks-användning: Gå till databricks-klustret -> Apps -> Launch Web Terminal (Starta webbterminal). Kör cmdleten cat /databricks/hive/conf/hive-site.xml
Databasnamnet kan nås från egenskapen JDBC URL enligt nedan. Exempel: organization1829255636414785
Schema: Ange en lista över Hive-scheman som ska importeras. Till exempel schema1; schema2.
Alla användarscheman importeras om listan är tom. Alla systemscheman (till exempel SysAdmin) och objekt ignoreras som standard.
När listan är tom importeras alla tillgängliga scheman. Godkända schemanamnsmönster med hjälp SQL SYNTAX för LIKE-uttryck inkluderar användning av %. Till exempel: A%; %B; %C%; D
- Börja med A eller
- slutar med B eller
- innehålla C eller
- lika med D
Användning av NOT och specialtecken är inte acceptabelt.
Maximalt tillgängligt minne: Maximalt minne (i GB) som är tillgängligt på kundens virtuella dator som ska användas av genomsökningsprocesser. Detta beror på storleken på Hive-metaarkivdatabasen som ska genomsökas.
Välj Fortsätt.
Välj sökningsutlösaren. Du kan konfigurera ett schema eller genomsöka en gång.
Granska genomsökningen och välj Spara och kör.
Nästa steg
Nu när du har registrerat din källa följer du guiderna nedan för att lära dig mer om Purview och dina data.