Share via


Introducción al almacenamiento de clústeres

Importante

Esta funcionalidad actualmente está en su versión preliminar. En Términos de uso complementarios para las versiones preliminares de Microsoft Azure encontrará más términos legales que se aplican a las características de Azure que están en versión beta, en versión preliminar, o que todavía no se han lanzado con disponibilidad general. Para más información sobre esta versión preliminar específica, consulte Información de la versión preliminar de Azure HDInsight en AKS. Para plantear preguntas o sugerencias sobre la característica, envíe una solicitud sobre AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre la comunidad de Azure HDInsight.

Azure HDInsight en AKS se puede integrar perfectamente con Azure Storage, que es una solución de almacenamiento de uso general que funciona bien con muchos otros servicios de Azure. Azure Data Lake Storage Gen2 (ADLS Gen 2) es el sistema de archivos predeterminado para los clústeres.

La cuenta de almacenamiento podría usarse como ubicación predeterminada para los datos, los registros de clúster y otras salidas que se generan durante la operación del clúster. También podría ser un almacenamiento predeterminado para el catálogo de Hive que depende del tipo de clúster.

Para más información, vea Introducción a Azure Data Lake Storage Gen2.

Identidades administradas para proteger el acceso a archivos

Azure HDInsight en AKS usa identidades administradas (MSI) para proteger el acceso del clúster a los archivos de Azure Data Lake Storage Gen2. La identidad administrada es una característica de Microsoft Entra ID que proporciona servicios de Azure con un conjunto de credenciales administradas automáticamente. Estas credenciales se pueden usar para autenticarse en cualquier servicio que admita la autenticación de Active Directory. Además, el uso de identidades administradas no requiere almacenar las credenciales en archivos de código o de configuración.

En Azure HDInsight en AKS, una vez seleccionada una identidad administrada y un almacenamiento durante la creación del clúster, la identidad administrada puede trabajar sin problemas con el almacenamiento para la administración de datos, siempre que el rol Propietario de datos de blob de almacenamiento esté asignado al MSI asignado por el usuario.

En la tabla siguiente se describen las opciones de almacenamiento admitidas para Azure HDInsight en AKS (versión preliminar pública):

Tipo de clúster Almacenamiento compatible Conexión Rol en el almacenamiento
Trino, Apache Flink y Apache Spark ADLS Gen2 Identidad administrada asignada por el usuario (MSI) del clúster El MSI asignado por el usuario debe tener el rol Propietario de datos de blob de almacenamiento en la cuenta de almacenamiento.

Nota:

Para compartir una cuenta de almacenamiento entre varios clústeres, basta con asignar el MSI asignado por el usuario del clúster correspondiente "Propietario de datos de blob de almacenamiento" en la cuenta de almacenamiento compartida. Aprenda a asignar un rol.

Después, puede usar la ruta de acceso abfs:// de almacenamiento completa para acceder a los datos a través de las aplicaciones.

Para obtener más información, consulte Managed identities for Azure resources (Identidades administradas para los recursos de Azure).
Aprenda a crear una cuenta de ADLS Gen2.

Azure HDInsight en la arquitectura de almacenamiento AKS

El diagrama siguiente proporciona una panorámica de la arquitectura de Azure HDInsight en AKS de Azure Storage.

Captura de pantalla que muestra la arquitectura del almacenamiento.

Administración de almacenamiento

Actualmente, Azure HDInsight en AKS no admite cuentas de almacenamiento con la eliminación temporal habilitada, asegúrese de deshabilitar la eliminación temporal para la cuenta de almacenamiento.

Captura de pantalla que muestra la interfaz de usuario del portal para la eliminación temporal.