Conexión y administración de bases de datos de metastore de Hive en Azure Purview

En este artículo se describe cómo registrar bases de datos de Hive Metastore y cómo autenticarse e interactuar con las bases de datos de metastore de Hive en Azure Purview. Para obtener más información sobre Azure Purview, lea el artículo de introducción.

Funcionalidades admitidas

Extracción de metadatos Examen completo Examen incremental Examen con ámbito Clasificación Directiva de acceso Lineage
No No No No Sí**

** Se admite el linaje si el conjunto de datos se usa como origen o receptor en la actividad de copia de Data Factory

Importante

Las plataformas admitidas son Apache Hadoop, Cloudera, Hortonworks y Databricks. Las versiones admitidas de Hive son de la 2.x a la 3.x. Las versiones admitidas de Databricks son 8.0 y posteriores.

Prerrequisitos

Register

En esta sección se describe cómo registrar bases de datos de metastore de Hive en Azure Purview mediante Purview Studio.

La única autenticación admitida en una base de datos de metastore de Hive es la autenticación básica.

Pasos para registrarse

  1. Vaya a la cuenta de Purview.

  2. Seleccione Data Map (Mapa de datos) en el panel de navegación izquierdo.

  3. Seleccione Registrar.

  4. En Registrar orígenes, seleccione Metastore de Hive. Seleccione Continue (Continuar).

    registro del origen de Hive

En la pantalla Registrar orígenes (metastore de Hive), haga lo siguiente:

  1. Escriba un Name (Nombre) con el que se muestre el origen de datos en el catálogo.

  2. Escriba la dirección URL del clúster de Hive. La dirección URL del clúster se puede obtener de la dirección URL de Ambari o de la dirección URL del área de trabajo de Databricks. Por ejemplo, hive.azurehdinsight.net o adb-19255636414785.5.azuredatabricks.net

  3. Especifique la dirección URL del servidor del metastore de Hive. Por ejemplo, sqlserver://hive.database.windows.net o jdbc:spark://adb-19255636414785.5.azuredatabricks.net:443

  4. Seleccione una colección o cree una nueva (opcional).

  5. Seleccione Finish (Finalizar) para registrar el origen de datos.

    configuración del origen de Hive

Examinar

Siga los pasos a continuación para examinar bases de datos de metastore de Hive a fin de identificar automáticamente los recursos y clasificar los datos. Para obtener más información sobre el examen en general, consulte la introducción a los exámenes y la ingesta.

Creación y ejecución de un examen

  1. En el centro de administración, seleccione Entornos de ejecución de integración. Asegúrese de que está configurado un entorno de ejecución de integración autohospedado. Si no está configurado, siga los pasos mencionados [aquí](./manage-integration-runtimes.md] para configurar un entorno de ejecución de integración autohospedado.

  2. Vaya a Sources (Orígenes).

  3. Seleccione la base de datos de metastore de Hive registrada.

  4. Seleccione + New scan (+ Nuevo examen).

  5. Especifique los detalles siguientes:

    1. Name (Nombre): el nombre del examen.

    2. Connect via integration runtime (Conectar mediante el entorno de ejecución de integración): seleccione el entorno de ejecución de integración autohospedado configurado.

    3. Credential (Credencial): seleccione la credencial para conectarse al origen de datos. Asegúrese de que:

      • Selecciona la autenticación básica al crear una credencial.
      • Proporcione el nombre de usuario de Metastore en el campo de entrada Nombre de usuario.
      • Almacene la contraseña de Metastore en la clave secreta.

      Para obtener más información sobre credenciales, vea el vínculo que se indica aquí.

      Uso de Databricks: vaya al clúster de Databricks -> Aplicaciones -> Iniciar terminal web. Ejecute el cmdlet cat /databricks/hive/conf/hive-site.xml

      Se puede acceder al nombre de usuario y la contraseña desde las dos propiedades, como se muestra a continuación:

      databricks-username-password-details

    4. Ubicación del controlador JDBC de Metastore: especifique la ruta de acceso a la ubicación del controlador JDBC en la VM donde se ejecuta el entorno de ejecución de integración autohospedado. Debe ser la ruta de acceso a la ubicación válida de la carpeta JAR.

      Si va a examinar Databricks, vea la sección siguiente sobre Databricks.

      Nota

      Todas las cuentas de la máquina virtual deben poder acceder al controlador. No lo instale en una cuenta de usuario.

    5. Clase de controlador JDBC de Metastore: proporcione el nombre de la clase del controlador de conexión. Por ejemplo, \com.microsoft.sqlserver.jdbc.SQLServerDriver.

      Uso de Databricks: vaya al clúster de Databricks -> Aplicaciones -> Iniciar terminal web. Ejecute el cmdlet cat /databricks/hive/conf/hive-site.xml

      Se puede acceder a la clase de controlador desde la propiedad, como se muestra a continuación.

      databricks-driver-class-details

    6. Dirección URL de JDBC de Metastore: proporcione el valor de la dirección URL de conexión y defina la conexión a la dirección URL del servidor de base de datos de Metastore. Por ejemplo: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Uso de Databricks: vaya al clúster de Databricks -> Aplicaciones -> Iniciar terminal web. Ejecute el cmdlet cat /databricks/hive/conf/hive-site.xml

      Se puede acceder a la dirección URL de JDBC desde la propiedad Dirección URL de conexión, como se muestra a continuación.

      databricks-jdbc-url-details

      Nota

      Al copiar la dirección URL de hive-site.xml, asegúrese de quitar amp; de la cadena para que no se produzca un error en el examen.

      A esta dirección URL anéxele la ruta de acceso a la ubicación donde está colocado el certificado SSL en la máquina virtual. El certificado SSL se puede descargar desde aquí.

      La dirección URL de JDBC del metastore es:

      jdbc:mariadb://consolidated-westus2-prod-metastore-addl-1.mysql.database.azure.com:3306/organization1829255636414785?trustServerCertificate=true&useSSL=true&sslCA=D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem

    7. Nombre de la base de datos del metastore: proporcione el nombre de la base de datos del metastore de Hive.

      Si va a examinar Databricks, vea la sección siguiente sobre Databricks.

      Uso de Databricks: vaya al clúster de Databricks -> Aplicaciones -> Iniciar terminal web. Ejecute el cmdlet cat /databricks/hive/conf/hive-site.xml

      Se puede acceder al nombre de la base de datos desde la propiedad Dirección URL de JDBC, como se muestra a continuación. Por ejemplo: organization1829255636414785

      databricks-database-name-details

    8. Esquema: especifique la lista de esquemas de Hive que se importarán. Por ejemplo, schema1; schema2.

      Si esa lista está vacía, se importan todos los esquemas del usuario. De forma predeterminada, se ignoran todos los esquemas del sistema (por ejemplo, SysAdmin) y los objetos.

      Si la lista está vacía, se importan todos los esquemas disponibles. Los patrones de nombres de esquema aceptables que usan la sintaxis de expresiones SQL LIKE incluyen el uso de %. Por ejemplo, A%; %B; %C%; D

      • empieza por A o
      • termina en B o
      • contiene C o
      • igual a D

      No se acepta el empleo de NOT ni de caracteres especiales.

    9. Maximum memory available (Memoria máxima disponible): memoria máxima (en GB) disponible en la máquina virtual del cliente que van a usar los procesos de examen. Esto depende del tamaño del origen de la base de datos de Metastore de Hive que se va a examinar.

      examinar el origen de Hive

  6. Seleccione Continuar.

  7. Elija el desencadenador del examen. Puede configurar una programación o ejecutar el examen una vez.

  8. Revise el examen y seleccione Save and run (Guardar y ejecutar).

Pasos siguientes

Ahora que ha registrado el origen, siga las guías a continuación para obtener más información sobre Purview y sus datos.