¿Qué es Azure Data Lake Storage Gen1?What is Azure Data Lake Storage Gen1?

Nota

Azure Data Lake Storage Gen2 ya está disponible con carácter general.Azure Data Lake Storage Gen2 is now generally available. Se recomienda que empiece a usarlo hoy mismo.We recommend that you start using it today. Para más información, consulte la página del producto.For more information, see the product page.

Azure Data Lake Storage Gen1 es un repositorio a gran escala de nivel empresarial para cargas de trabajo de análisis de macrodatos.Azure Data Lake Storage Gen1 is an enterprise-wide hyper-scale repository for big data analytic workloads. Azure Data Lake permite capturar datos de cualquier tamaño, tipo y velocidad de ingesta en un único lugar para realizar análisis exploratorios y operativos.Azure Data Lake enables you to capture data of any size, type, and ingestion speed in one single place for operational and exploratory analytics.

Se puede acceder a Data Lake Storage Gen1 desde Hadoop (disponible con el clúster de HDInsight) mediante las API REST compatibles con WebHDFS.Data Lake Storage Gen1 can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs. Se ha diseñado para habilitar el análisis de los datos almacenados y está optimizado para rendimiento en escenarios de análisis de datos.It's designed to enable analytics on the stored data and is tuned for performance for data analytics scenarios. Data Lake Storage Gen1 incluye todas las funcionalidades de nivel empresarial: seguridad, facilidad de uso, escalabilidad, confiabilidad y disponibilidad.Data Lake Storage Gen1 includes all enterprise-grade capabilities: security, manageability, scalability, reliability, and availability.

Azure Data Lake

Principales capacidadesKey capabilities

Entre las capacidades clave de Data Lake Storage Gen1, se incluyen las siguientes.Some of the key capabilities of Data Lake Storage Gen1 include the following.

Creado para HadoopBuilt for Hadoop

Data Lake Storage Gen1 es un sistema de archivos de Apache Hadoop que es compatible con sistema de archivos de distribuido de Hadoop (HDFS) y funciona con el ecosistema de Hadoop.Data Lake Storage Gen1 is an Apache Hadoop file system that's compatible with Hadoop Distributed File System (HDFS), and works with the Hadoop ecosystem. Las aplicaciones o los servicios de HDInsight existentes que usen la API de WebHDFS se pueden integrar fácilmente con Data Lake Storage Gen1.Your existing HDInsight applications or services that use the WebHDFS API can easily integrate with Data Lake Storage Gen1. Además, Data Lake Storage Gen1 expone una interfaz de REST compatible con WebHDFS para aplicaciones.Data Lake Storage Gen1 also exposes a WebHDFS-compatible REST interface for applications.

Puede analizar fácilmente los datos almacenados en Data Lake Storage Gen1 mediante marcos analíticos de Hadoop como MapReduce o Hive.You can easily analyze data stored in Data Lake Storage Gen1 using Hadoop analytic frameworks such as MapReduce or Hive. Puede aprovisionar clústeres de HDInsight de Azure y configurarlos para tener acceso directamente a los datos almacenados en Data Lake Storage Gen1.You can provision Azure HDInsight clusters and configure them to directly access data stored in Data Lake Storage Gen1.

Almacenamiento ilimitado, archivos de petabytes de tamañoUnlimited storage, petabyte files

Data Lake Storage Gen1 proporciona almacenamiento ilimitado y puede almacenar una variedad de datos para el análisis.Data Lake Storage Gen1 provides unlimited storage and can store a variety of data for analytics. No impone ningún límite en tamaños de cuentas, el tamaño de archivo o la cantidad de datos que pueden almacenarse en un lago de datos.It doesn't impose any limits on account sizes, file sizes, or the amount of data that can be stored in a data lake. Los archivos individuales pueden oscilar entre kilobytes y petabytes de tamaño.Individual files can range from kilobyte to petabytes in size. Datos se almacenan de forma duradera mediante la realización de varias copias.Data is stored durably by making multiple copies. No hay ningún límite en la cantidad de tiempo para el que se pueden almacenar los datos en data lake.There is no limit on the duration of time for which the data can be stored in the data lake.

Rendimiento optimizado para el análisis de macrodatosPerformance-tuned for big data analytics

Data Lake Storage Gen1 se ha creado para ejecutar sistemas de análisis a gran escala que requieren un procesamiento masivo para consultar y analizar grandes cantidades de datos.Data Lake Storage Gen1 is built for running large-scale analytic systems that require massive throughput to query and analyze large amounts of data. Data Lake distribuye partes de un archivo entre varios servidores de almacenamiento individuales.The data lake spreads parts of a file over a number of individual storage servers. Esto mejora el rendimiento de lectura cuando se lee el archivo en paralelo para realizar análisis de datos.This improves the read throughput when reading the file in parallel for performing data analytics.

Preparado para la empresa: durable y con una elevada disponibilidadEnterprise ready: Highly available and secure

Data Lake Storage Gen1 proporciona la confiabilidad y disponibilidad estándar del sector.Data Lake Storage Gen1 provides industry-standard availability and reliability. Los recursos de datos se almacenan de forma duradera realizando copias redundantes para protegerse ante los errores inesperados.Your data assets are stored durably by making redundant copies to guard against any unexpected failures.

Además, Data Lake Storage Gen1 también proporciona seguridad de nivel empresarial para los datos almacenados.Data Lake Storage Gen1 also provides enterprise-grade security for the stored data. Para obtener más información, consulte Securing data in Azure Data Lake Storage Gen1 (Protección de los datos almacenados en Azure Data Lake Storage Gen1).For more information, see Securing data in Azure Data Lake Storage Gen1.

Todos los datosAll data

Data Lake Storage Gen1 puede almacenar los datos en su formato nativo, sin necesidad de transformarlo antes.Data Lake Storage Gen1 can store any data in its native format, without requiring any prior transformations. Asimismo, Data Lake Storage Gen1 no requiere la definición de un esquema antes de que se carguen los datos, sino que deja que cada marco analítico interprete los datos y defina un esquema en el momento del análisis.Data Lake Storage Gen1 does not require a schema to be defined before the data is loaded, leaving it up to the individual analytic framework to interpret the data and define a schema at the time of the analysis. La capacidad de almacenar los archivos de formatos y tamaños arbitrarios hace posible para Data Lake Storage Gen1 administrar los datos estructurados, semiestructurados y estructurados.The ability to store files of arbitrary sizes and formats makes it possible for Data Lake Storage Gen1 to handle structured, semi-structured, and unstructured data.

Los contenedores de datos de Data Lake Storage Gen1 son básicamente carpetas y archivos.Data Lake Storage Gen1 containers for data are essentially folders and files. Operar en los datos almacenados mediante el SDK, el portal de Azure y Azure Powershell.You operate on the stored data using SDKs, the Azure portal, and Azure Powershell. Si coloca los datos en el almacén mediante estas interfaces y los contenedores adecuados, puede almacenar cualquier tipo de datos.If you put your data into the store using these interfaces and using the appropriate containers, you can store any type of data. Data Lake Storage Gen1 no realiza ningún control especial de datos según el tipo de datos que almacene.Data Lake Storage Gen1 does not perform any special handling of data based on the type of data it stores.

Protección de datosSecuring data

Listas (ACL) para administrar el acceso de control de usos de Data Lake Storage Gen1 Azure Active Directory (Azure AD) para la autenticación y acceso a los datos.Data Lake Storage Gen1 uses Azure Active Directory (Azure AD) for authentication, and access control lists (ACLs) to manage access to your data.

CaracterísticaFeature DESCRIPCIÓNDescription
AuthenticationAuthentication Data Lake Storage Gen1 se integra con Azure AD para la administración de identidades y acceso para todos los datos almacenados en Data Lake Storage Gen1.Data Lake Storage Gen1 integrates with Azure AD for identity and access management for all the data stored in Data Lake Storage Gen1. Debido a la integración, Data Lake Storage Gen1 ventajas de todo Azure AD de características como la autenticación multifactor, acceso condicional, control de acceso basado en roles, la supervisión del uso de aplicaciones, supervisión de seguridad y alertas y así sucesivamente.Because of the integration, Data Lake Storage Gen1 benefits from all Azure AD feature such as multi-factor authentication, conditional access, role-based access control, application usage monitoring, security monitoring and alerting, and so on. Igualmente, Data Lake Storage Gen1 es compatible con el protocolo OAuth 2.0 para la autenticación en la interfaz de REST.Data Lake Storage Gen1 supports the OAuth 2.0 protocol for authentication within the REST interface. Consulte Data Lake Storage Gen1 autenticación.See Data Lake Storage Gen1 authentication.
Control de accesoAccess control Data Lake Storage Gen1 proporciona control de acceso gracias a la compatibilidad con los permisos de estilo POSIX que expone el protocolo WebHDFS.Data Lake Storage Gen1 provides access control by supporting POSIX-style permissions exposed by the WebHDFS protocol. Puede permitir que las ACL en la carpeta raíz, en las subcarpetas y archivos individuales.You can enable ACLs on the root folder, on subfolders, and on individual files. Para obtener más información acerca de cómo funcionan las ACL en el contexto de Data Lake Storage Gen1, consulte control de acceso en Data Lake Storage Gen1.For more information about how ACLs work in the context of Data Lake Storage Gen1, see Access control in Data Lake Storage Gen1.
CifradoEncryption Data Lake Storage Gen1 también proporciona cifrado de datos que se almacenan en la cuenta.Data Lake Storage Gen1 also provides encryption for data that's stored in the account. Puede especificar la configuración de cifrado mientras crea una cuenta de Data Lake Storage Gen1.You specify the encryption settings while creating a Data Lake Storage Gen1 account. Puede elegir si cifrar o no los datos.You can choose to have your data encrypted or opt for no encryption. Para obtener más información, consulte el artículo de Cifrado de datos en Data Lake Storage Gen1.For more information, see Encryption in Data Lake Storage Gen1. Para obtener instrucciones sobre cómo proporcionar la configuración relacionada con el cifrado, consulte empezar a trabajar con Data Lake Storage Gen1 mediante Azure portal.For instructions on how to provide encryption-related configuration, see Get started with Data Lake Storage Gen1 using the Azure portal.

Para obtener instrucciones sobre cómo proteger datos en el Data Lake Storage Gen1, consulte Securing data in Azure Data Lake Storage Gen1 (Proteger los datos en Azure Data Lake Storage Gen1).For instructions on how to secure data in Data Lake Storage Gen1, see Securing data in Azure Data Lake Storage Gen1.

Compatibilidad de aplicaciónApplication compatibility

Data Lake Storage Gen1 es compatible con la mayor parte de los componentes de código abierto del ecosistema de Hadoop.Data Lake Storage Gen1 is compatible with most open-source components in the Hadoop ecosystem. También se integra bien con otros servicios de Azure.It also integrates well with other Azure services. Para obtener más información acerca de cómo puede usar Data Lake Storage Gen1 con componentes de código abierto y otros servicios de Azure, use los vínculos siguientes:To learn more about how you can use Data Lake Storage Gen1 with open-source components and other Azure services, use the following links:

Sistema de archivos de Data Lake Storage Gen1Data Lake Storage Gen1 file system

Data Lake Storage Gen1 se puede acceder mediante el sistema de archivos, AzureDataLakeFilesystem (adl: / /) en entornos de Hadoop (disponibles con el clúster de HDInsight).Data Lake Storage Gen1 can be accessed via the filesystem AzureDataLakeFilesystem (adl://) in Hadoop environments (available with HDInsight cluster). Las aplicaciones y servicios que usan adl: / / pueden aprovechar aún más las optimizaciones de rendimiento que no están actualmente disponibles en WebHDFS.Applications and services that use adl:// can take advantage of further performance optimizations that aren't currently available in WebHDFS. Como resultado, proporciona Data Lake Storage Gen1 la flexibilidad necesaria para cualquiera que use del mejor rendimiento con la opción recomendada de usar adl: / / o mantener el código existente debe seguir usando la API de WebHDFS directamente.As a result, Data Lake Storage Gen1 gives you the flexibility to either make use of the best performance with the recommended option of using adl:// or maintain existing code by continuing to use the WebHDFS API directly. Azure HDInsight aprovecha completamente AzureDataLakeFilesystem para proporcionar el mejor rendimiento en Data Lake Storage Gen1.Azure HDInsight fully leverages the AzureDataLakeFilesystem to provide the best performance on Data Lake Storage Gen1.

Puede obtener acceso a los datos en Data Lake Storage Gen1 mediante adl://<data_lake_storage_gen1_name>.azuredatalakestore.net.You can access your data in Data Lake Storage Gen1 using adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Para obtener más información acerca de cómo obtener acceso a los datos en Data Lake Storage Gen1, consulte ver las propiedades de los datos almacenados.For more information about how to access the data in Data Lake Storage Gen1, see View properties of the stored data.

Pasos siguientesNext steps