Připojení a správu databází metastoru Hive v Azure Purview

Tento článek popisuje, jak registrovat databáze metastoru Hive a jak ověřovat databáze metastoru Hive a pracovat s nimi v Azure Purview. Další informace o Azure Purview najdete v úvodním článku.

Podporované funkce

Extrakce metadat Úplná kontrola Přírůstkové prohledávání Kontrola s vymezenou oborem Classification Zásady přístupu Lineage
Ano Ano No No No No Ano**

** Pokud se datová sada používá jako zdroj nebo jímka v Data Factory aktivita Copy

Důležité

Mezi podporované platformy Apache Hadoop, Cloudera, Hortonworks a Databricks. Podporované verze Hive jsou 2.x až 3.x. Podporované verze Databricks jsou 8.0 a vyšší.

Požadavky

Registrovat

Tato část popisuje, jak zaregistrovat databáze metastoru Hive v Azure Purview pomocí nástroje Purview Studio.

Jediné podporované ověřování pro databázi metastoru Hive je základní ověřování.

Postup registrace

  1. Přejděte ke svému účtu Purview.

  2. V Mapování dat navigaci vyberte Další.

  3. Vyberte Zaregistrovat.

  4. V okně Registrovat zdroje vyberte Metastore Hive. Vyberte Pokračovat.

    registrace zdroje Hive

Na obrazovce Registrovat zdroje (metastore Hive) proveďte následující akce:

  1. Zadejte Název, který bude zdroj dat uveden v katalogu.

  2. Zadejte adresu URL clusteru Hive. Adresu URL clusteru můžete získat z adresy URL Ambari nebo z adresy URL pracovního prostoru Databricks. Například hive.azurehdinsight.net nebo adb-19255636414785.5.azuredatabricks.net

  3. Zadejte adresu URL serveru metastoru Hive. Příklad: sqlserver://hive.database.windows.net jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443

  4. Vyberte kolekci nebo vytvořte novou (volitelné).

  5. Dokončete registraci zdroje dat.

    konfigurace zdroje Hive

Prohledávání

Pomocí následujících kroků naskenujte databáze metastoru Hive a automaticky identifikujte prostředky a klasifikujte data. Další informace o obecné kontrole najdete v našem úvodu do skenování a příjmu dat.

Vytvoření a spuštění kontroly

  1. V Centru pro správu vyberte Prostředí Integration Runtime. Ujistěte se, že je nastavené prostředí Integration Runtime v vlastním prostředí. Pokud není nastavený, pomocí kroků uvedených [zde](./manage-integration-runtimes.md] nastavte prostředí Integration Runtime v vlastním prostředí.

  2. Přejděte na Zdroje.

  3. Vyberte zaregistrovanou databázi metastoru Hive.

  4. Vyberte + Nová kontrola.

  5. Zadejte následující podrobnosti:

    1. Název: Název kontroly.

    2. Připojení prostřednictvím prostředí Integration Runtime: Vyberte nakonfigurované prostředí Integration Runtime v samostatném prostředí.

    3. Přihlašovací údaje: Vyberte přihlašovací údaje pro připojení ke zdroji dat. Ujistěte se, že:

      • Při vytváření přihlašovacích údajů vyberte Základní ověřování.
      • Do vstupního pole Uživatelské jméno zadejte uživatelské jméno metastoru.
      • Uložte heslo metastoru do tajného klíče.

      Další informace o přihlašovacích údajůch najdete na odkazu tady.

      Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml

      Uživatelské jméno a heslo jsou přístupné ze dvou vlastností, jak je znázorněno níže:

      databricks-username-password-details

    4. Umístění ovladače JDBC metastoru: Zadejte cestu k umístění ovladače JDBC na virtuálním počítači, kde je spuštěný modul runtime integrace vlastního hostitele. Mělo by jít o cestu k platnému umístění složky JARs.

      Pokud databricks kontrolu používáte, přečtěte si část o Databricks níže.

      Poznámka

      Ovladač by měl být přístupný všem účtům ve virtuálním počítače. Neinstalujte je do uživatelského účtu.

    5. Třída ovladače metastoru JDBC: Zadejte název třídy ovladače připojení. Například\com.microsoft.sqlserver.jdbc.SQLServerDriver.

      Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml

      Třída ovladačů je přístupná z vlastnosti , jak je znázorněno níže.

      Podrobnosti o třídě ovladače databricks

    6. Adresa URL metastoru JDBC: Zadejte hodnotu Adresa URL připojení a definujte připojení k adrese URL serveru metastoru DB. Příklad: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml

      K adrese URL JDBC je možné získat přístup z vlastnosti Adresa URL připojení, jak je znázorněno níže.

      databricks-jdbc-url-details

      Poznámka

      Při kopírování adresy URL zhive-site.xml nezapomeňte z řetězce odebrat , jinak se amp; kontrola nezdaří. K této adrese URL připojte cestu k umístění, kam je certifikát SSL umístěný na vašem virtuálním počítači. Certifikát SSL si můžete stáhnout. Nezapomeňte změnit znak oddělovače Windows cesty z \ na / . Příklad: Pokud je soubor MariaDB JAR C:\mariadb-jdbc.jar, změňte ho na C:/mariadb-jdbc.jar. Proveďte stejnou změnu parametru adresy URL JDBC metastoru: Změňte ho z sslCA D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem na D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      Adresa URL metastoru JDBC bude vypadat jako v tomto příkladu:

      jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Název databáze metastoru: Zadejte název databáze metastoru Hive.

      Pokud databricks kontrolu používáte, přečtěte si část o Databricks níže.

      Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml

      Název databáze je přístupný z vlastnosti adresy URL JDBC, jak je znázorněno níže. Příklad: organization1829255636414785

      databricks-database-name-details

    8. Schéma: Zadejte seznam schémat Hive, která se mají importovat. Například schema1; schema2.

      Pokud je seznam prázdný, importuje se všechna schémata uživatelů. Všechna systémová schémata (například SysAdmin) a objekty se ve výchozím nastavení ignorují.

      Pokud je seznam prázdný, importuje se všechna dostupná schémata. Přijatelné vzory názvů schémat SQL syntaxe like zahrnují použití %. Příklad: A%; %B; %C%; D

      • Začněte s A nebo
      • končí na B nebo
      • obsahují C nebo
      • equal D

      Použití NOT a speciálních znaků není přijatelné.

    9. Maximální dostupná paměť: Maximální paměť (v GB) dostupná na virtuálním počítači zákazníka, která se má použít při prohledávání procesů. To závisí na velikosti databáze Metastore Hive, která se má prohledovat.

      prohledávání zdroje Hive

  6. Vyberte Pokračovat.

  7. Zvolte trigger prohledávání. Můžete nastavit plán nebo spustit kontrolu jednou.

  8. Zkontrolujte kontrolu a vyberte Uložit a spustit.

Další kroky

Teď, když jste si zaregistrovali zdroj, postupujte podle následujících průvodců a získejte další informace o Purview a vašich datech.