Introducción a Azure Data Lake Storage Gen2Introduction to Azure Data Lake Storage Gen2

‎Azure Data Lake Storage Gen2 es un conjunto de funcionalidades dedicadas al análisis de macrodatos basado en Azure Blob Storage.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage. Data Lake Storage Gen2 es el resultado de la convergencia de las funcionalidades de nuestros dos servicios de almacenamiento existentes: Azure Blob Storage y Azure Data Lake Storage Gen1.Data Lake Storage Gen2 is the result of converging the capabilities of our two existing storage services, Azure Blob storage and Azure Data Lake Storage Gen1. Las características de Azure Data Lake Storage Gen1, como la semántica del sistema de archivos, la seguridad de nivel de directorio y archivo y la escala se combinan con las funcionalidades de recuperación ante desastres o alta disponibilidad, y de almacenamiento por niveles de bajo costo de Azure Blob Storage.Features from Azure Data Lake Storage Gen1, such as file system semantics, directory, and file level security and scale are combined with low-cost, tiered storage, high availability/disaster recovery capabilities from Azure Blob storage.

Se ha diseñado para el análisis de macrodatos empresariales.Designed for enterprise big data analytics

Data Lake Storage Gen2 convierte a Azure Storage en los cimientos para crear lagos de datos empresariales en Azure.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Diseñado desde el principio para servir varios petabytes de información y mantener cientos de gigabits de rendimiento, Data Lake Storage Gen2 le ofrece una forma fácil de administrar cantidades masivas de datos.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Parte fundamental de Data Lake Storage Gen2 es la incorporación de un espacio de nombres jerárquico en Blob Storage.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. El espacio de nombres jerárquico organiza los objetos o archivos en una jerarquía de directorios para un acceso eficaz a los datos.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. Una convención de nomenclatura de almacenamiento de objetos común usa barras diagonales en el nombre para imitar una estructura jerárquica de directorios.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Esta estructura se hace realidad con Data Lake Storage Gen2.This structure becomes real with Data Lake Storage Gen2. Operaciones como el cambio de nombre o la eliminación de un directorio se convierten en operaciones de metadatos atómicas únicas en el directorio, en lugar de enumerar y procesar todos los objetos que comparten el prefijo del nombre del directorio.Operations such as renaming or deleting a directory become single atomic metadata operations on the directory rather than enumerating and processing all objects that share the name prefix of the directory.

Anteriormente, los análisis basados en la nube tenían que llegar a un acuerdo en materia de rendimiento, administración y seguridad.In the past, cloud-based analytics had to compromise in areas of performance, management, and security. Data Lake Storage Gen2 aborda cada uno de estos aspectos de las siguientes formas:Data Lake Storage Gen2 addresses each of these aspects in the following ways:

  • El rendimiento se optimiza porque no es necesario copiar ni transformar datos como requisito previo para el análisis.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. El espacio de nombres jerárquico mejora considerablemente el rendimiento de las operaciones de administración de directorios y, consecuentemente, el rendimiento general del trabajo.The hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • La administración es más fácil, ya que puede organizar y manipular archivos a través de directorios y subdirectorios.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • La seguridad se aplicable porque se pueden definir permisos POSIX en los directorios o archivos individuales.Security is enforceable because you can define POSIX permissions on directories or individual files.

  • La rentabilidad se hace posible gracias a que Data Lake Storage Gen2 se ha diseñado a partir de Azure Blob Storage de bajo costo.Cost effectiveness is made possible as Data Lake Storage Gen2 is built on top of the low-cost Azure Blob storage. Las características adicionales reducen aún más el costo total de propiedad para la ejecución de análisis de macrodatos en Azure.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Características clave de Data Lake Storage Gen2Key features of Data Lake Storage Gen2

  • Acceso compatible con Hadoop: Data Lake Storage Gen2 le permite administrar y acceder a los datos igual que lo haría con un sistema de archivos distribuido de Hadoop (HDFS).Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). El nuevo controlador ABFS está disponible en todos los entornos de Apache Hadoop, incluidos Azure HDInsight, Azure Databricks y SQL Data Warehouse para acceder a los datos almacenados en Data Lake Storage Gen2.The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and SQL Data Warehouse to access data stored in Data Lake Storage Gen2.

  • Superconjunto de permisos POSIX: el modelo de seguridad de Data Lake Gen2 es compatible con los permisos de ACL y POSIX junto con granularidad adicional específica de Data Lake Storage Gen2.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. La configuración se puede realizar mediante el Explorador de Storage o a través de marcos como Hive y Spark.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Rentabilidad: Data Lake Storage Gen2 ofrece transacciones y capacidad de almacenamiento de bajo costo.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Al igual que las transiciones de datos a lo largo de su ciclo de vida completo, las tasas de facturación cambian y mantienen los costos al mínimo a través de características integradas, como el ciclo de vida de Azure Blob Storage.As data transitions through its complete lifecycle, billing rates change keeping costs to a minimum via built-in features such as Azure Blob storage lifecycle.

  • Controlador optimizado: Es el controlador ABFS específicamente optimizado para análisis de macrodatos.Optimized driver: The ABFS driver is optimized specifically for big data analytics. Las API de REST correspondiente se exponen a través del extremo dfs.core.windows.net.The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

EscalabilidadScalability

Azure Storage es escalable de forma natural si obtiene acceso a través de las interfaces de Data Lake Storage Gen2 o Blob Storage.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. Es capaz de almacenar y atender muchos exabytes de datos.It is able to store and serve many exabytes of data. Esta cantidad de almacenamiento está disponible con rendimiento medido en gigabits por segundo (Gbps) en niveles altos de operaciones de entrada/salida por segundo (IOPS).This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Más allá de la persistencia, el procesamiento se ejecuta en las latencias por solicitud casi constantes que se miden en los niveles de servicio, cuenta y archivo.Beyond just persistence, processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

RentabilidadCost effectiveness

Una de las numerosas ventajas de la creación de Data Lake Storage Gen2 sobre Azure Blob Storage es el bajo costo de la capacidad de almacenamiento y las transacciones.One of the many benefits of building Data Lake Storage Gen2 on top of Azure Blob storage is the low cost of storage capacity and transactions. A diferencia de otros servicios de almacenamiento en nube, no es necesario mover ni transformar los datos almacenados en Data Lake Storage Gen2 antes de realizar el análisis.Unlike other cloud storage services, data stored in Data Lake Storage Gen2 is not required to be moved or transformed prior to performing analysis. Para más información sobre los precios, consulte Precios de Azure Storage.For more information about pricing, see Azure Storage pricing.

Además, características como el espacio de nombres jerárquico mejoran significativamente el rendimiento general de muchos trabajos de análisis.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Esta mejora del rendimiento significa que se requerirá menos eficacia de proceso para procesar la misma cantidad de datos, lo que genera un menor costo total de propiedad (TCO) para el trabajo de análisis de un extremo a otro.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

Un servicio, varios conceptosOne service, multiple concepts

Data Lake Storage Gen2 es una funcionalidad adicional para el análisis de macrodatos basada en Azure Blob Storage.Data Lake Storage Gen2 is an additional capability for big data analytics, built on top of Azure Blob storage. Aunque hay muchas ventajas en usar componentes de plataformas existentes de blobs para crear y usar lagos de datos para realizar el análisis, sí aparecen varios conceptos para describir los mismos aspectos compartidos.While there are many benefits in leveraging existing platform components of Blobs to create and operate data lakes for analytics, it does lead to multiple concepts describing the same, shared things.

A continuación, se muestran las entidades equivalentes, tal como se describen en distintos conceptos.The following are the equivalent entities, as described by different concepts. A menos que se especifique lo contrario, estas entidades son sinónimos directos:Unless specified otherwise these entities are directly synonymous:

ConceptoConcept Organización de nivel superiorTop Level Organization Organización de nivel inferiorLower Level Organization Contenedor de datosData Container
Blobs: almacenamiento de objetos de uso generalBlobs – General purpose object storage ContenedorContainer Directorio virtual (solo SDK, no proporciona manipulación atómica)Virtual directory (SDK only – does not provide atomic manipulation) BlobBlob
ADLS Gen2: almacenamiento de análisisADLS Gen2 – Analytics Storage Sistema de archivosFile system DirectorioDirectory ArchivoFile

Plataformas de código abierto compatiblesSupported open source platforms

Varias plataformas de código abierto son compatibles con Data Lake Storage Gen2.Several open source platforms support Data Lake Storage Gen2. Esas plataformas aparecen en la tabla siguiente.Those platforms appear in the following table.

Nota

Solo se admiten las versiones que aparecen en esta tabla.Only the versions that appear in this table are supported.

PlataformaPlatform Versiones compatiblesSupported Version(s) Más informaciónMore Information
HDInsightHDInsight 3.6+3.6+ ¿Cuáles son los componentes y versiones de Apache Hadoop disponibles con HDInsight?What are the Apache Hadoop components and versions available with HDInsight?
HadoopHadoop 3.2+3.2+ Archivo de las versiones de Apache HadoopApache Hadoop releases archive
ClouderaCloudera 6.1+6.1+ Notas de la versión 6.x de Cloudera EnterpriseCloudera Enterprise 6.x release notes
Azure DatabricksAzure Databricks 5.1+5.1+ Versiones de Databricks RuntimeDatabricks Runtime versions
HortonworksHortonworks 3.1.x++3.1.x++ Configuración del acceso a los datos en la nubeConfiguring cloud data access

Pasos siguientesNext steps

En los artículos siguientes se describen algunos de los principales conceptos de Data Lake Storage Gen2 y se detalla cómo almacenar y administrar los datos, además de cómo obtener información y acceso a ellos:The following articles describe some of the main concepts of Data Lake Storage Gen2 and detail how to store, access, manage, and gain insights from your data: