Introdução ao Azure Data Lake Storage Gen2

Azure Data Lake Armazenamento Gen2 é um conjunto de capacidades dedicadas à análise de big data, construídas em Azure Blob Armazenamento.

Data Lake Armazenamento Gen2 converge as capacidades do Azure Data Lake Armazenamento Gen1 com Azure Blob Armazenamento. Por exemplo, Data Lake Armazenamento Gen2 fornece semântica do sistema de ficheiros, segurança de nível de ficheiro e escala. Como estas capacidades são construídas no armazenamento Blob, você também receberá armazenamento de baixo custo, tiered, com alta disponibilidade/capacidade de recuperação de desastres.

Projetado para analítica de big data da empresa

Data Lake Armazenamento Gen2 faz de Azure Armazenamento a fundação para a construção de lagos de dados empresariais em Azure. Projetado desde o início para o serviço de múltiplos petabytes de informação, mantendo centenas de gigabits de produção, Data Lake Armazenamento Gen2 permite-lhe gerir facilmente quantidades massivas de dados.

Uma parte fundamental do Data Lake Armazenamento Gen2 é a adição de um espaço hierárquico de nomes para o armazenamento de Blob. O espaço hierárquico organiza objetos/ficheiros numa hierarquia de diretórios para um acesso eficiente aos dados. Uma convenção comum de nomeação de objetos usa cortes no nome para imitar uma estrutura hierárquica do diretório. Esta estrutura torna-se real com data lake Armazenamento Gen2. Operações como renomear ou eliminar um diretório, tornam-se operações únicas de metadados atómicos no diretório. Não há necessidade de enumerar e processar todos os objetos que partilham o nome prefixo do diretório.

Data Lake Armazenamento a Gen2 baseia-se no armazenamento blob e melhora o desempenho, a gestão e a segurança das seguintes formas:

  • O desempenho é otimizado porque não precisa de copiar ou transformar dados como pré-requisito para análise. Em comparação com o espaço de nome plano no armazenamento blob, o espaço hierárquico melhora consideravelmente o desempenho das operações de gestão de diretórios, o que melhora o desempenho geral do trabalho.

  • A gestão é mais fácil porque pode organizar e manipular ficheiros através de diretórios e subdiretórios.

  • A segurança é executável porque pode definir permissões POSIX em diretórios ou ficheiros individuais.

Além disso, o Data Lake Armazenamento Gen2 é muito rentável porque é construído em cima do low-cost Azure Blob Armazenamento. As características adicionais reduzem ainda mais o custo total de propriedade para executar big data analytics em Azure.

Principais características do Data Lake Armazenamento Gen2

  • Acesso compatível com Hadoop: Data Lake Armazenamento Gen2 permite-lhe gerir e aceder a dados tal como faria com um Sistema de Ficheiros Distribuídos Hadoop (HDFS). O novo controlador ABFS (usado para aceder aos dados) está disponível em todos os ambientes apache Hadoop. Estes ambientes incluem Azure HDInsight, Azure Databricks,e Azure Synapse Analytics.

  • Um superconjunto de permissões POSIX: O modelo de segurança para Data Lake Gen2 suporta permissões ACL e POSIX juntamente com alguma granularidade extra específica do Data Lake Armazenamento Gen2. Definições podem ser configurados através de Explorador de Armazenamento ou através de estruturas como a Colmeia e a Faísca.

  • Custo-eficácia: Data Lake Armazenamento Gen2 oferece capacidade de armazenamento de baixo custo e transações. Características como Azure Blob Armazenamento o ciclo de vida otimizam os custos à medida que os dados transitam através do seu ciclo de vida.

  • Condutor otimizado: O condutor da ABFS está otimizado especificamente para análise de big data. As APIs de REST correspondentes são emergidas através do ponto dfs.core.windows.net final.

Escalabilidade

O Azure Armazenamento é escalável por design, quer aceda através de interfaces de armazenamento Armazenamento Gen2 ou Blob. É capaz de armazenar e servir muitos exabytes de dados. Esta quantidade de armazenamento está disponível com produção medida em gigabits por segundo (Gbps) em altos níveis de operações de entrada/saída por segundo (IOPS). O processamento é executado em latências quase constantes por pedido que são medidas nos níveis de serviço, conta e arquivo.

Rentabilidade

Como o Data Lake Armazenamento Gen2 é construído em cima do Armazenamento Azure Blob, a capacidade de armazenamento e os custos de transação são mais baixos. Ao contrário de outros serviços de armazenamento em nuvem, não precisa mover ou transformar os seus dados antes de poder analisá-los. Para obter mais informações sobre preços, consulte a Azure Armazenamento preços.

Além disso, características como o espaço hierárquico melhoram significativamente o desempenho global de muitos trabalhos analíticos. Esta melhoria no desempenho significa que você precisa de menos poder de computação para processar a mesma quantidade de dados, resultando num menor custo total de propriedade (TCO) para o trabalho de análise de ponta a ponta.

Um serviço, vários conceitos

Como o Data Lake Armazenamento Gen2 é construído em cima do Armazenamento Azure Blob, vários conceitos podem descrever as mesmas coisas partilhadas.

Seguem-se as entidades equivalentes, conforme descrito por diferentes conceitos. Salvo especificação em contrário, estas entidades são diretamente sinónimos:

Conceito Organização de Alto Nível Organização de nível inferior Contentor de Dados
Blobs - Armazenamento de objetos de finalidade geral Contentor Diretório virtual (apenas SDK – não fornece manipulação atómica) Blobs
Azure Data Lake Armazenamento Gen2 – Analytics Armazenamento Contentor Diretório Ficheiro

Funcionalidades de Armazenamento de Blob suportadas

As funcionalidades de Armazenamento blob, tais como registo de diagnóstico, níveis de acessoe políticas de gestão de ciclo de vida blob Armazenamento estão disponíveis na sua conta. A maioria das funcionalidades blob Armazenamento são totalmente suportadas, mas algumas funcionalidades são suportadas apenas ao nível de pré-visualização ou ainda não suportadas.

Para ver como cada recurso blob Armazenamento é suportado com Data Lake Armazenamento Gen2, consulte blob Armazenamento suporte de funcionalidade em contas Armazenamento Azure.

Integrações de serviços suportados aZure

Data Lake Armazenamento gen2 suporta vários serviços Azure. Pode usá-los para ingerir dados, realizar análises e criar representações visuais. Para obter uma lista de serviços Azure suportados, consulte os serviços da Azure que suportam o Azure Data Lake Armazenamento Gen2.

Plataformas open source suportadas

Várias plataformas de código aberto apoiam data lake Armazenamento Gen2. Para obter uma lista completa, consulte plataformas Open source que suportam o Azure Data Lake Armazenamento Gen2.

Ver também