Anslut till och hantera Hive-metaarkivdatabaser i Azure Purview

Den här artikeln beskriver hur du registrerar Hive-metaarkivdatabaser och hur du autentiserar och interagerar med Hive-metaarkivdatabaser i Azure Purview. Mer information om Azure Purview finns i introduktionsartikeln.

Funktioner som stöds

Extrahering av metadata Fullständig genomsökning Inkrementell sökning Begränsad genomsökning Klassificering Åtkomstprincip Ursprung
Ja Ja Nej Nej Nej Nej Ja**

** Ursprung stöds om datauppsättningen används som källa/mottagare i Data Factory aktiviteten Kopiera

Viktigt

Plattformarna som stöds är Apache Hadoop, Cloudera, Hortonworks och Databricks. Hive-versioner som stöds är 2.x till 3.x. Databricks-versioner som stöds är 8.0 och senare.

Förutsättningar

Registrera dig

I det här avsnittet beskrivs hur du registrerar Hive-metaarkivdatabaser i Azure Purview med hjälp av Purview Studio.

Den enda autentisering som stöds för en Hive-metaarkivdatabas är Grundläggande autentisering.

Steg för att registrera

  1. Gå till ditt Purview-konto.

  2. Välj Data Map i det vänstra navigeringsfönstret.

  3. Välj Registrera

  4. I Registrera källor väljer du Hive-metaarkiv. Välj Fortsätt.

    registrera Hive-källa

Gör följande på skärmen Registrera källor (Hive-metaarkiv):

  1. Ange ett Namn som datakällan ska visas i katalogen.

  2. Ange Hive-klustrets URL. Kluster-URL:en kan antingen hämtas från Ambari-URL:en eller från Databricks-arbetsytans URL. Till exempel hive.azurehdinsight.net eller adb-19255636414785.5.azuredatabricks.net

  3. Ange webbadressen till Hive-metaarkivservern. Till exempel, sqlserver://hive.database.windows.net eller jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443

  4. Välj en samling eller skapa en ny (valfritt).

  5. Slutför registreringen av datakällan.

    konfigurera Hive-källa

Genomsöka

Följ stegen nedan för att genomsöka Hive-metaarkivdatabaser för att automatiskt identifiera tillgångar och klassificera dina data. Mer information om genomsökning i allmänhet finns i vår introduktion till genomsökningar och inmatning.

Skapa och köra genomsökning

  1. I Hanteringscenter väljer du Integreringskörningar. Kontrollera att en integration runtime med egen värd har ställts in. Om den inte har ställts in använder du stegen [here](./manage-integration-runtimes.md] för att konfigurera en integrationskörning med egen värd.

  2. Gå till Sources ( Källor).

  3. Välj den registrerade Hive-metaarkivdatabasen.

  4. Välj + Ny genomsökning.

  5. Ange informationen nedan:

    1. Namn: Namnet på genomsökningen

    2. Anslut via Integration Runtime: Välj den konfigurerade integrationskörningen med egen värd.

    3. Autentiseringsuppgifter: Välj autentiseringsuppgifterna för att ansluta till datakällan. Se till att:

      • Välj Grundläggande autentisering när du skapar en autentiseringsautentisering.
      • Ange metaarkivanvändarnamnet i fältet Användarnamn
      • Lagra metaarkivlösenordet i den hemliga nyckeln.

      Mer information om autentiseringsuppgifter finns på länken här.

      Databricks-användning: Gå till databricks-klustret -> Apps -> Starta webbterminalen. Kör cmdleten cat /databricks/hive/conf/hive-site.xml

      Användarnamnet och lösenordet kan nås från de två egenskaperna enligt nedan:

      databricks-username-password-details

    4. Metaarkiv JDBC-drivrutinsplats: Ange sökvägen till JDBC-drivrutinsplatsen på den virtuella datorn där integration runtime med egen värd körs. Detta bör vara sökvägen till en giltig PLATS för JAR-mappen.

      Om du genomsöker Databricks kan du läsa avsnittet om Databricks nedan.

      Anteckning

      Drivrutinen ska vara tillgänglig för alla konton på den virtuella datorn. Installera inte i ett användarkonto.

    5. JDBC-drivrutinsklass för metaarkiv: Ange anslutningsdrivrutinens klassnamn. Till exempel\com.microsoft.sqlserver.jdbc.SQLServerDriver.

      Databricks-användning: Gå till databricks-klustret -> Apps -> Starta webbterminalen. Kör cmdleten cat /databricks/hive/conf/hive-site.xml

      Drivrutinsklassen kan nås från egenskapen enligt nedan.

      databricks-driver-class-details

    6. JDBC-URL för metaarkiv: Ange värdet för Anslutnings-URL och definiera anslutningen till metaarkiv DB-serverns URL. Exempel: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Databricks-användning: Gå till databricks-klustret -> Apps -> Starta webbterminalen. Kör cmdleten cat /databricks/hive/conf/hive-site.xml

      JDBC-URL:en kan nås från egenskapen Anslutnings-URL enligt nedan.

      databricks-jdbc-url-details

      Anteckning

      När du kopierar URL:en hive-site.xml måste du ta bort amp; den från strängen. Annars misslyckas genomsökningen. Lägg till sökvägen till den plats där SSL-certifikatet placeras på den virtuella datorn i den här URL:en. Du kan ladda ned SSL-certifikatet. Kom ihåg att ändra Windows sökvägsavgränsare från \ till / . Exempel: Om din MariaDB JAR-fil är C:\mariadb-jdbc.jar ändrar du den till C:/mariadb-jdbc.jar. Gör samma ändring i parametern Metastore JDBC URL: Ändra den från sslCA D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem till D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      Metaarkiv-JDBC-URL:en ser ut som i det här exemplet:

      jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Databasnamn för metaarkiv: Ange namnet på Hive-metaarkivdatabasen.

      Om du genomsöker Databricks läser du avsnittet i Databricks nedan.

      Databricks-användning: Gå till databricks-klustret -> Apps -> Launch Web Terminal (Starta webbterminal). Kör cmdleten cat /databricks/hive/conf/hive-site.xml

      Databasnamnet kan nås från egenskapen JDBC URL enligt nedan. Exempel: organization1829255636414785

      databricks-database-name-details

    8. Schema: Ange en lista över Hive-scheman som ska importeras. Till exempel schema1; schema2.

      Alla användarscheman importeras om listan är tom. Alla systemscheman (till exempel SysAdmin) och objekt ignoreras som standard.

      När listan är tom importeras alla tillgängliga scheman. Godkända schemanamnsmönster med hjälp SQL SYNTAX för LIKE-uttryck inkluderar användning av %. Till exempel: A%; %B; %C%; D

      • Börja med A eller
      • slutar med B eller
      • innehålla C eller
      • lika med D

      Användning av NOT och specialtecken är inte acceptabelt.

    9. Maximalt tillgängligt minne: Maximalt minne (i GB) som är tillgängligt på kundens virtuella dator som ska användas av genomsökningsprocesser. Detta beror på storleken på Hive-metaarkivdatabasen som ska genomsökas.

      genomsöka Hive-källa

  6. Välj Fortsätt.

  7. Välj sökningsutlösaren. Du kan konfigurera ett schema eller genomsöka en gång.

  8. Granska genomsökningen och välj Spara och kör.

Nästa steg

Nu när du har registrerat din källa följer du guiderna nedan för att lära dig mer om Purview och dina data.