Introdução ao Azure Data Lake Storage Gen2Introduction to Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 é um conjunto de capacidades dedicadas à análise de big data, construídas no armazenamento Azure Blob.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage. Data Lake Storage Gen2 é o resultado de convergir as capacidades dos nossos dois serviços de armazenamento existentes, armazenamento Azure Blob e Azure Data Lake Storage Gen1.Data Lake Storage Gen2 is the result of converging the capabilities of our two existing storage services, Azure Blob storage and Azure Data Lake Storage Gen1. As funcionalidades da Azure Data Lake Storage Gen1, tais como semântica do sistema de ficheiros, diretório e segurança e escala de nível de ficheiro são combinadas com armazenamento e escala de baixo custo, tiered, alta disponibilidade/capacidade de recuperação de desastres a partir do armazenamento Azure Blob.Features from Azure Data Lake Storage Gen1, such as file system semantics, directory, and file level security and scale are combined with low-cost, tiered storage, high availability/disaster recovery capabilities from Azure Blob storage.

Projetado para analítica de big data da empresaDesigned for enterprise big data analytics

Data Lake Storage Gen2 faz do Azure Storage a base para a construção de lagos de dados empresariais em Azure.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Projetado desde o início para o serviço de múltiplos petabytes de informação enquanto sustenta centenas de gigabits de produção, Data Lake Storage Gen2 permite-lhe gerir facilmente quantidades massivas de dados.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Uma parte fundamental do Data Lake Storage Gen2 é a adição de um espaço hierárquico de nomes para o armazenamento blob.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. O espaço hierárquico organiza objetos/ficheiros numa hierarquia de diretórios para um acesso eficiente aos dados.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. Uma convenção comum de nomeação de objetos usa cortes no nome para imitar uma estrutura hierárquica do diretório.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Esta estrutura torna-se real com data lake storage gen2.This structure becomes real with Data Lake Storage Gen2. Operações como renomear ou eliminar um diretório tornam-se operações únicas de metadados atómicos no diretório em vez de enumerar e processar todos os objetos que partilham o prefixo do nome do diretório.Operations such as renaming or deleting a directory become single atomic metadata operations on the directory rather than enumerating and processing all objects that share the name prefix of the directory.

Data Lake Storage Gen2 baseia-se no armazenamento blob e melhora o desempenho, gestão e segurança das seguintes formas:Data Lake Storage Gen2 builds on Blob storage and enhances performance, management, and security in the following ways:

  • O desempenho é otimizado porque não precisa de copiar ou transformar dados como pré-requisito para análise.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. Em comparação com o espaço de nome plano no armazenamento blob, o espaço hierárquico melhora consideravelmente o desempenho das operações de gestão de diretórios, o que melhora o desempenho geral do trabalho.Compared to the flat namespace on Blob storage, the hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • A gestão é mais fácil porque pode organizar e manipular ficheiros através de diretórios e subdiretórios.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • A segurança é executável porque pode definir permissões POSIX em diretórios ou ficheiros individuais.Security is enforceable because you can define POSIX permissions on directories or individual files.

Além disso, o Data Lake Storage Gen2 é muito rentável porque é construído em cima do armazenamento low-cost Azure Blob.Also, Data Lake Storage Gen2 is very cost effective because it is built on top of the low-cost Azure Blob storage. As características adicionais reduzem ainda mais o custo total de propriedade para executar big data analytics em Azure.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Principais características do Data Lake Storage Gen2Key features of Data Lake Storage Gen2

  • Acesso compatível com Hadoop: Data Lake Storage Gen2 permite-lhe gerir e aceder a dados tal como faria com um Sistema de Ficheiros Distribuídos Hadoop (HDFS).Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). O novo controlador ABFS está disponível em todos os ambientes apache Hadoop, incluindo Azure HDInsight, Azure Databrickse Azure Synapse Analytics para aceder a dados armazenados na Data Lake Storage Gen2.The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and Azure Synapse Analytics to access data stored in Data Lake Storage Gen2.

  • Um superconjunto de permissões POSIX: O modelo de segurança para Data Lake Gen2 suporta permissões ACL e POSIX juntamente com alguma granularidade extra específica para data lake storage gen2.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. As definições podem ser configuradas através do Storage Explorer ou através de estruturas como a Colmeia e a Spark.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Custo efetivo: Data Lake Storage Gen2 oferece capacidade de armazenamento de baixo custo e transações.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. À medida que os dados transitam através do seu ciclo de vida completo, as taxas de faturação mudam mantendo os custos para um mínimo através de funcionalidades incorporadas, como o ciclo de vida de armazenamento Azure Blob.As data transitions through its complete lifecycle, billing rates change keeping costs to a minimum via built-in features such as Azure Blob storage lifecycle.

  • Condutor otimizado: O condutor da ABFS está otimizado especificamente para análise de big data.Optimized driver: The ABFS driver is optimized specifically for big data analytics. As APIs de REST correspondentes são emergidas através do ponto dfs.core.windows.net final.The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

EscalabilidadeScalability

O Azure Storage é escalável por design, quer aceda através de interfaces de armazenamento do Data Lake Storage Gen2 ou Blob.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. É capaz de armazenar e servir muitos exabytes de dados.It is able to store and serve many exabytes of data. Esta quantidade de armazenamento está disponível com produção medida em gigabits por segundo (Gbps) em altos níveis de operações de entrada/saída por segundo (IOPS).This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Além da persistência, o processamento é executado em latências quase constantes por pedido que são medidas nos níveis de serviço, conta e arquivo.Beyond just persistence, processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

RentabilidadeCost effectiveness

Um dos muitos benefícios da construção da Data Lake Storage Gen2 em cima do armazenamento Azure Blob é o baixo custo de capacidade de armazenamento e transações.One of the many benefits of building Data Lake Storage Gen2 on top of Azure Blob storage is the low cost of storage capacity and transactions. Ao contrário de outros serviços de armazenamento em nuvem, os dados armazenados na Data Lake Storage Gen2 não são necessários para serem movidos ou transformados antes da realização da análise.Unlike other cloud storage services, data stored in Data Lake Storage Gen2 is not required to be moved or transformed prior to performing analysis. Para obter mais informações sobre preços, consulte os preços de Armazenamento Azure.For more information about pricing, see Azure Storage pricing.

Além disso, características como o espaço hierárquico melhoram significativamente o desempenho global de muitos trabalhos analíticos.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Esta melhoria no desempenho significa que você precisa de menos poder de computação para processar a mesma quantidade de dados, resultando num menor custo total de propriedade (TCO) para o trabalho de análise de ponta a ponta.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

Um serviço, vários conceitosOne service, multiple concepts

Data Lake Storage Gen2 é uma capacidade adicional para análise de big data, construída em cima do armazenamento de Azure Blob.Data Lake Storage Gen2 is an additional capability for big data analytics, built on top of Azure Blob storage. Embora existam muitos benefícios em alavancar os componentes da plataforma existentes de Blobs para criar e operar lagos de dados para análise, isso leva a múltiplos conceitos descrevendo as mesmas coisas partilhadas.While there are many benefits in leveraging existing platform components of Blobs to create and operate data lakes for analytics, it does lead to multiple concepts describing the same, shared things.

Seguem-se as entidades equivalentes, conforme descrito por diferentes conceitos.The following are the equivalent entities, as described by different concepts. Salvo especificação em contrário, estas entidades são diretamente sinónimos:Unless specified otherwise these entities are directly synonymous:

ConceitoConcept Organização de Alto NívelTop Level Organization Organização de nível inferiorLower Level Organization Contentor de DadosData Container
Blobs - Armazenamento de objetos de finalidade geralBlobs – General purpose object storage ContentorContainer Diretório virtual (apenas SDK – não fornece manipulação atómica)Virtual directory (SDK only – does not provide atomic manipulation) BlobBlob
Azure Data Lake Storage Gen2 – Analytics StorageAzure Data Lake Storage Gen2 – Analytics Storage ContentorContainer DiretórioDirectory FicheiroFile

Funcionalidades suportadas do Armazenamento de BlobsSupported Blob storage features

As funcionalidades de armazenamento de blob, tais como o registo de diagnóstico, os níveis de acessoe as políticas de gestão do ciclo de vida blob Storage funcionam agora com contas que têm um espaço hierárquico de nomes.Blob storage features such as diagnostic loggingaccess tiers, and Blob Storage lifecycle management policies now work with accounts that have a hierarchical namespace. Portanto, pode ativar espaços hierárquicos nas suas contas de armazenamento Blob sem perder o acesso a estas funcionalidades.Therefore, you can enable hierarchical namespaces on your Blob storage accounts without losing access to these features.

Para obter uma lista de funcionalidades de armazenamento blob suportadas, consulte as funcionalidades de Armazenamento Blob disponíveis no Azure Data Lake Storage Gen2.For a list of supported Blob storage features, see Blob Storage features available in Azure Data Lake Storage Gen2.

Integrações de serviços suportados aZureSupported Azure service integrations

O Data Lake Storage gen2 suporta vários serviços Azure que pode usar para ingerir dados, realizar análises e criar representações visuais.Data Lake Storage gen2 supports several Azure services that you can use to ingest data, perform analytics, and create visual representations. Para obter uma lista de serviços Azure suportados, consulte os serviços Azure que suportam a Azure Data Lake Storage Gen2.For a list of supported Azure services, see Azure services that support Azure Data Lake Storage Gen2.

Plataformas open source suportadasSupported open source platforms

Várias plataformas de código aberto suportam data lake storage gen2.Several open source platforms support Data Lake Storage Gen2. Para obter uma lista completa, consulte plataformas Open source que suportam a Azure Data Lake Storage Gen2.For a complete list, see Open source platforms that support Azure Data Lake Storage Gen2.

Ver tambémSee also