Připojení a správu databází metastoru Hive v Azure Purview
Tento článek popisuje, jak registrovat databáze metastoru Hive a jak ověřovat databáze metastoru Hive a pracovat s nimi v Azure Purview. Další informace o Azure Purview najdete v úvodním článku.
Podporované funkce
| Extrakce metadat | Úplná kontrola | Přírůstkové prohledávání | Kontrola s vymezenou oborem | Classification | Zásady přístupu | Lineage |
|---|---|---|---|---|---|---|
| Ano | Ano | No | No | No | No | Ano** |
** Pokud se datová sada používá jako zdroj nebo jímka v Data Factory aktivita Copy
Důležité
Mezi podporované platformy Apache Hadoop, Cloudera, Hortonworks a Databricks. Podporované verze Hive jsou 2.x až 3.x. Podporované verze Databricks jsou 8.0 a vyšší.
Požadavky
Účet Azure s aktivním předplatným. Vytvořte si účet zdarma.
Aktivní prostředek Purview.
Pokud chcete zaregistrovat zdroj a spravovat ho v aplikaci Purview Studio, musíte být správcem zdroje dat a čtenářem dat. Podrobnosti najdete na naší stránce Oprávnění Azure Purview.
Nastavte nejnovější verzi prostředí Integration Runtime v vlastním prostředí. Další informace najdete v průvodci vytvořením a konfigurací prostředí Integration Runtimev vlastním prostředí.
Ujistěte se, že je na virtuálním počítači, na kterém je nainstalovaný modul runtime integrace v samostatném prostředí, nainstalovaná JDK 11.
Ujistěte Distribuovatelné součásti Visual C++ pro Visual Studio 2012 Update 4 na počítači s prostředím Integration Runtime v samostatném prostředí. Pokud tuto aktualizaci nemáte nainstalovanou, můžete si ji stáhnout tady.
Stáhněte a nainstalujte ovladač JDBC databáze Metastore Hive na počítači, na kterém je spuštěný váš modul runtime integrace v vlastním hostování. Pokud je například použitá databáze mssql, nezapomeňte si stáhnout ovladač JDBC společnosti Microsoft pro SQL Server.
Poznámka
Ovladač by měl být přístupný všem účtům ve virtuálním počítače. Neinstalujte ho do uživatelského účtu.
Registrovat
Tato část popisuje, jak zaregistrovat databáze metastoru Hive v Azure Purview pomocí nástroje Purview Studio.
Jediné podporované ověřování pro databázi metastoru Hive je základní ověřování.
Postup registrace
Přejděte ke svému účtu Purview.
V Mapování dat navigaci vyberte Další.
Vyberte Zaregistrovat.
V okně Registrovat zdroje vyberte Metastore Hive. Vyberte Pokračovat.
Na obrazovce Registrovat zdroje (metastore Hive) proveďte následující akce:
Zadejte Název, který bude zdroj dat uveden v katalogu.
Zadejte adresu URL clusteru Hive. Adresu URL clusteru můžete získat z adresy URL Ambari nebo z adresy URL pracovního prostoru Databricks. Například hive.azurehdinsight.net nebo adb-19255636414785.5.azuredatabricks.net
Zadejte adresu URL serveru metastoru Hive. Příklad: sqlserver://hive.database.windows.net jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443
Vyberte kolekci nebo vytvořte novou (volitelné).
Dokončete registraci zdroje dat.
Prohledávání
Pomocí následujících kroků naskenujte databáze metastoru Hive a automaticky identifikujte prostředky a klasifikujte data. Další informace o obecné kontrole najdete v našem úvodu do skenování a příjmu dat.
Vytvoření a spuštění kontroly
V Centru pro správu vyberte Prostředí Integration Runtime. Ujistěte se, že je nastavené prostředí Integration Runtime v vlastním prostředí. Pokud není nastavený, pomocí kroků uvedených [zde](./manage-integration-runtimes.md] nastavte prostředí Integration Runtime v vlastním prostředí.
Přejděte na Zdroje.
Vyberte zaregistrovanou databázi metastoru Hive.
Vyberte + Nová kontrola.
Zadejte následující podrobnosti:
Název: Název kontroly.
Připojení prostřednictvím prostředí Integration Runtime: Vyberte nakonfigurované prostředí Integration Runtime v samostatném prostředí.
Přihlašovací údaje: Vyberte přihlašovací údaje pro připojení ke zdroji dat. Ujistěte se, že:
- Při vytváření přihlašovacích údajů vyberte Základní ověřování.
- Do vstupního pole Uživatelské jméno zadejte uživatelské jméno metastoru.
- Uložte heslo metastoru do tajného klíče.
Další informace o přihlašovacích údajůch najdete na odkazu tady.
Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml
Uživatelské jméno a heslo jsou přístupné ze dvou vlastností, jak je znázorněno níže:
Umístění ovladače JDBC metastoru: Zadejte cestu k umístění ovladače JDBC na virtuálním počítači, kde je spuštěný modul runtime integrace vlastního hostitele. Mělo by jít o cestu k platnému umístění složky JARs.
Pokud databricks kontrolu používáte, přečtěte si část o Databricks níže.
Poznámka
Ovladač by měl být přístupný všem účtům ve virtuálním počítače. Neinstalujte je do uživatelského účtu.
Třída ovladače metastoru JDBC: Zadejte název třídy ovladače připojení. Například\com.microsoft.sqlserver.jdbc.SQLServerDriver.
Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml
Třída ovladačů je přístupná z vlastnosti , jak je znázorněno níže.
Adresa URL metastoru JDBC: Zadejte hodnotu Adresa URL připojení a definujte připojení k adrese URL serveru metastoru DB. Příklad:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml
K adrese URL JDBC je možné získat přístup z vlastnosti Adresa URL připojení, jak je znázorněno níže.
Poznámka
Při kopírování adresy URL zhive-site.xml nezapomeňte z řetězce odebrat , jinak se
amp;kontrola nezdaří. K této adrese URL připojte cestu k umístění, kam je certifikát SSL umístěný na vašem virtuálním počítači. Certifikát SSL si můžete stáhnout. Nezapomeňte změnit znak oddělovače Windows cesty z\na/. Příklad: Pokud je soubor MariaDB JAR C:\mariadb-jdbc.jar, změňte ho na C:/mariadb-jdbc.jar. Proveďte stejnou změnu parametru adresy URL JDBC metastoru: Změňte ho zsslCAD:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem na D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.Adresa URL metastoru JDBC bude vypadat jako v tomto příkladu:
jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pemNázev databáze metastoru: Zadejte název databáze metastoru Hive.
Pokud databricks kontrolu používáte, přečtěte si část o Databricks níže.
Využití Databricks: Přejděte do clusteru Databricks –> Apps (Aplikace) > Launch Web Terminal (Spustit webový terminál). Spusťte rutinu cat /databricks/hive/conf/hive-site.xml
Název databáze je přístupný z vlastnosti adresy URL JDBC, jak je znázorněno níže. Příklad: organization1829255636414785
Schéma: Zadejte seznam schémat Hive, která se mají importovat. Například schema1; schema2.
Pokud je seznam prázdný, importuje se všechna schémata uživatelů. Všechna systémová schémata (například SysAdmin) a objekty se ve výchozím nastavení ignorují.
Pokud je seznam prázdný, importuje se všechna dostupná schémata. Přijatelné vzory názvů schémat SQL syntaxe like zahrnují použití %. Příklad: A%; %B; %C%; D
- Začněte s A nebo
- končí na B nebo
- obsahují C nebo
- equal D
Použití NOT a speciálních znaků není přijatelné.
Maximální dostupná paměť: Maximální paměť (v GB) dostupná na virtuálním počítači zákazníka, která se má použít při prohledávání procesů. To závisí na velikosti databáze Metastore Hive, která se má prohledovat.
Vyberte Pokračovat.
Zvolte trigger prohledávání. Můžete nastavit plán nebo spustit kontrolu jednou.
Zkontrolujte kontrolu a vyberte Uložit a spustit.
Další kroky
Teď, když jste si zaregistrovali zdroj, postupujte podle následujících průvodců a získejte další informace o Purview a vašich datech.