Entender o Azure Data Lake Storage Gen2

Concluído

Um data lake é um repositório de dados armazenados em seu formato natural, geralmente como blobs ou arquivos. O Azure Data Lake Storage é uma solução de data lake abrangente, amplamente escalonável e econômica para análise de alto desempenho interna do Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

O Azure Data Lake Storage combina um sistema de arquivos com uma plataforma de armazenamento para ajudá-lo a identificar rapidamente insights sobre seus dados. O Data Lake Storage Gen2 baseia-se nas funcionalidades do Armazenamento de Blobs do Azure para otimizá-lo, especificamente para cargas de trabalho de análise. Essa integração habilita as funcionalidades de desempenho da análise, disposição em camadas e gerenciamento de ciclo de vida de dados do Armazenamento de Blobs, bem como as funcionalidades de alta disponibilidade, segurança e durabilidade do Armazenamento do Azure.

Benefícios

O Data Lake Storage foi projetado para lidar com essa variedade e esse volume de dados em escala de exabytes, ao mesmo tempo que manipula centenas de gigabytes de taxa de transferência. Com isso, você pode usar o Data Lake Storage Gen2 como base para soluções em tempo real e em lote.

Acesso compatível com Hadoop

Um benefício do Data Lake Storage é poder tratar os dados como se estivessem armazenados em um HDFS (Sistema de Arquivos Distribuído Hadoop). Com esse recurso, você pode armazenar os dados em um só lugar e acessá-los por meio de tecnologias de computação, incluindo Azure Databricks, Azure HDInsight e Azure Synapse Analytics sem mover os dados entre ambientes. O engenheiro de dados também tem a capacidade de usar mecanismos de armazenamento, como o formato parquet, que é altamente compactado e tem um bom desempenho em várias plataformas usando um armazenamento colunar interno.

Segurança

O Data Lake Storage dá suporte a ACLs (listas de controle de acesso) e a permissões POSIX (Interface do Sistema Operacional Portátil) que não herdam as permissões do diretório pai. Na verdade, você pode definir permissões em um nível de diretório ou arquivo para os dados armazenados no data lake, fornecendo um sistema de armazenamento muito mais seguro. Essa segurança é configurável por meio de tecnologias como Hive e Spark ou utilitários como o Gerenciador de Armazenamento do Azure, que é executado no Windows, no macOS e no Linux. Todos os dados armazenados são criptografados em repouso usando chaves gerenciadas pelo cliente ou pela Microsoft.

Desempenho

O Azure Data Lake Storage organiza os dados armazenados em uma hierarquia de diretórios e subdiretórios, de modo muito semelhante a um sistema de arquivos, permitindo uma navegação mais fácil. Consequentemente, o processamento de dados exige menos recursos computacionais, reduzindo o tempo e o custo.

Redundância de dados

O Data Lake Storage aproveita os modelos de replicação de Blob do Azure que fornecem redundância de dados em um único data center com o LRS (armazenamento com redundância local) ou para uma região secundária usando a opção de GRS (armazenamento com redundância geográfica). Esse recurso garante que seus dados estejam sempre disponíveis e protegidos caso ocorra uma catástrofe.

Dica

Sempre que estiver planejando um data lake, um engenheiro de dados deverá considerar cuidadosamente a estrutura, a governança de dados e a segurança. Isso deve incluir a consideração de fatores que podem influenciar a estrutura e a organização do lake, como:

  • Tipos de dados a serem armazenados
  • Como os dados serão transformados
  • Quem deve acessar os dados
  • Quais são os padrões de acesso típicos

Essa abordagem ajudará a determinar como planejar a governança de controle de acesso em seu lake. Os engenheiros de dados devem ser proativos para garantir que o lake não se torne o proverbial pântano de dados inacessível e inútil para os usuários devido à falta de medidas de governança de dados e da qualidade dos dados. Estabelecer uma linha de base e seguir as práticas recomendadas para o Azure Data Lake ajudará a garantir uma implementação adequada e robusta que permitirá que a organização cresça e obtenha insights para obter mais.