Introducción a Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 es un conjunto de funcionalidades dedicadas al análisis de macrodatos, que se basa en Azure Blob Storage.

En Data Lake Storage Gen2 convergen las funcionalidades de Azure Data Lake Storage Gen1 con Azure Blob Storage. Por ejemplo, Data Lake Storage Gen2 proporciona la semántica del sistema de archivos, la seguridad de nivel de archivo y la escala. Debido a que estas funcionalidades se basan en Blob Storage, también disfrutará de un almacenamiento por niveles de bajo coste, con funcionalidades de alta disponibilidad y recuperación ante desastres.

Data Lake Storage Gen2 convierte a Azure Storage en los cimientos para crear lagos de datos empresariales en Azure. Diseñado desde el principio para servir varios petabytes de información y mantener cientos de gigabits de rendimiento, Data Lake Storage Gen2 le ofrece una forma fácil de administrar cantidades masivas de datos.

¿Qué es un lago de datos?

Un lago de datos es un repositorio único y centralizado donde puede almacenar todos los datos, tanto estructurados como no estructurados. Un lago de datos permite a su organización almacenar y analizar una amplia variedad de datos, y acceder a ellos, en una sola ubicación, de forma rápida y sencilla. Con un lago de datos, no es necesario adecuar los datos para que se ajusten a una estructura existente. En su lugar, puede almacenar los datos en su formato nativo o sin formato, normalmente como archivos o como objetos binarios grandes (blobs).

Azure Data Lake Storage es una solución de lago de datos empresarial basada en la nube. Está diseñado para almacenar grandes cantidades de datos en cualquier formato y facilitar las cargas de trabajo analíticas de macrodatos. Se usa para capturar datos de cualquier tipo y la velocidad de ingesta en una sola ubicación, a fin de facilitar el acceso y el análisis con varios marcos.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 hace referencia a la implementación actual de la solución Azure Data Lake Storage. La implementación anterior, Azure Data Lake Storage Gen1 se retirará el 29 de febrero de 2024.

A diferencia de Data Lake Storage Gen1, Data Lake Storage Gen2 no es un tipo de cuenta o servicio dedicado. En su lugar, se implementa como un conjunto de funcionalidades que se usan con el servicio Blob Storage de la cuenta de Azure Storage. Es posible desbloquear estas funcionalidades habilitando la configuración del espacio de nombres jerárquico.

Data Lake Storage Gen2 incluye las siguientes funcionalidades.

✓ Acceso compatible con Hadoop

✓ Estructura jerárquica de directorios

✓ Coste y rendimiento optimizados

✓ Modelo de seguridad más preciso

✓ Escalabilidad masiva

Acceso compatible con Hadoop

Azure Data Lake Storage Gen2 está diseñado principalmente para trabajar con Hadoop y todos los marcos que usan el Sistema de archivos distribuido (HDFS) de Apache Hadoop como capa de acceso a los datos. Las distribuciones de Hadoop incluyen el controlador Azure Blob File System (ABFS), que permite que muchas aplicaciones y marcos accedan directamente a los datos de Azure Blob Storage. El controlador ABFS está optimizado específicamente para el análisis de macrodatos. Las API de REST correspondientes se exponen a través del punto de conexión dfs.core.windows.net.

Los marcos de análisis de datos que usan HDFS como capa de acceso a los datos pueden acceder directamente a datos de Azure Data Lake Storage Gen2 mediante ABFS. El motor de análisis Apache Spark y el motor de consulta SQL Presto son ejemplos de estos marcos.

Para más información sobre los servicios y plataformas admitidos, consulte Servicios de Azure que admiten Azure Data Lake Storage Gen2 y plataformas de código abierto que admiten Azure Data Lake Storage Gen2.

Estructura jerárquica de directorios

El espacio de nombres jerárquico es una característica clave que permite a Azure Data Lake Storage Gen2 proporcionar acceso a datos de alto rendimiento a un precio y escala de almacenamiento de objetos. Puede usar esta característica para organizar todos los objetos y archivos de la cuenta de almacenamiento en una jerarquía de directorios y subdirectorios anidados. En otras palabras, los datos de Azure Data Lake Storage Gen2 se organizan de la misma manera en que los archivos se organizan en el equipo.

Algunas operaciones, como el cambio de nombre o la eliminación de un directorio, pasan a ser opciones atómicas individuales de metadatos en el directorio. No es necesario enumerar y procesar todos los objetos que comparten el prefijo del nombre del directorio.

Coste y rendimiento optimizados

El precio de Azure Data Lake Storage Gen2 se establece en los niveles de Azure Blob Storage. Se basa en capacidades de Azure Blob Storage, como la administración automatizada de directivas de ciclo de vida y los niveles de objeto para administrar los costes de almacenamiento de macrodatos.

El rendimiento se optimiza porque no es necesario copiar ni transformar datos como requisito previo para el análisis. La capacidad de espacio de nombres jerárquico de Azure Data Lake Storage permite un acceso y una navegación eficaces. Esta arquitectura significa que el procesamiento de datos requiere menos recursos de cálculo, lo que reduce la velocidad y el coste de acceso a los datos.

Modelo de seguridad más preciso

El modelo de control de acceso de Azure Data Lake Storage Gen2 admite el control de acceso basado en roles de Azure (Azure RBAC) y las listas de control de acceso (ACL) de Portable Operating System Interface for Unix (POSIX). También hay algunas configuraciones de seguridad adicionales que son específicas de Azure Data Lake Storage Gen2. Puede establecer permisos en el nivel de directorio o en el nivel de archivo. Todos los datos almacenados se cifran en reposo usando claves de cifrado administradas por Microsoft o por el cliente.

Escalabilidad masiva

Azure Data Lake Storage Gen2 ofrece almacenamiento masivo y acepta numerosos tipos de datos para el análisis. No se impone ningún límite al tamaño de cuenta, el tamaño de archivo o la cantidad de datos que se pueden almacenar en el lago de datos. Los archivos individuales pueden tener tamaños que van desde unos kilobytes (KB) a unos cuantos petabytes (PB). El procesamiento se ejecuta en las latencias por solicitud casi constantes que se miden en los niveles de servicio, cuenta y archivo.

Este diseño significa que Azure Data Lake Storage Gen2 puede escalar verticalmente de forma sencilla y rápida para satisfacer las cargas de trabajo más exigentes. También puede reducir verticalmente fácilmente cuando la demanda disminuya.

Basado en Azure Blob Storage

Los datos que ingiera se conservarán como blobs en la cuenta de almacenamiento. El servicio que administra blobs es el servicio Azure Blob Storage. Data Lake Storage Gen2 describe las funcionalidades o "mejoras" de este servicio que satisfacen las demandas de las cargas de trabajo analíticas de macrodatos.

Dado que estas funcionalidades se basan en Blob Storage, las características como el registro de diagnóstico, los niveles de acceso y las directivas de administración del ciclo de vida están disponibles para su cuenta. La mayoría de las características de Blob Storage son totalmente compatibles, pero es posible que algunas características solo se admitan en el nivel de versión preliminar y que todavía no se admitan algunas de ellas. Para obtener una lista completa de las instrucciones de soporte técnico, consulte Compatibilidad de características de Blob Storage en cuentas de Azure Storage. El estado de cada característica enumerada cambiará con el tiempo a medida que el soporte continúe expandiéndose.

Documentación y terminología

La tabla de contenido de Azure Blob Storage presenta dos secciones de contenido. La sección de contenido Data Lake Storage Gen2 proporciona procedimientos recomendados e instrucciones para usar las funcionalidades de Data Lake Storage Gen2. La sección de contenido Blob Storage proporciona instrucciones para las características de la cuenta que no sean específicas de Data Lake Storage Gen2.

A medida que se mueva entre secciones, es posible que note algunas ligeras diferencias de terminología. Por ejemplo, el contenido destacado de la documentación de Blob Storage usará el término blob en lugar del archivo. Técnicamente, los archivos que ingiere en la cuenta de almacenamiento se convierten en blobs en su cuenta. Por lo tanto, el término es correcto. Sin embargo, el término blob puede causar confusión si está acostumbrado al término archivo. También verá el término contenedor, que se usa para hacer referencia a un sistema de archivos. Puede considerar estos términos como sinónimos.

Consulte también