Visão geral do Azure Data Lake Storage Gen1 no HDInsight

O Azure Data Lake Storage Gen1 é um repositório de hiperescala em toda a empresa para cargas de trabalho analíticas de big data. Usando o Azure Data Lake, você pode capturar dados de qualquer tamanho, tipo e velocidade de ingestão. E em um só lugar para análises operacionais e exploratórias.

Acesse o Data Lake Storage Gen1 a partir do Hadoop (disponível com um cluster HDInsight) usando as APIs REST compatíveis com WebHDFS. O Data Lake Storage Gen1 foi projetado para permitir a análise dos dados armazenados e é ajustado para desempenho em cenários de análise de dados. O Gen1 inclui os recursos que são essenciais para casos de uso empresariais reais. Esses recursos incluem segurança, capacidade de gerenciamento, adaptabilidade, confiabilidade e disponibilidade.

Para obter mais informações sobre o Azure Data Lake Storage Gen1, consulte Visão geral detalhada do Azure Data Lake Storage Gen1.

Os principais recursos do Data Lake Storage Gen1 incluem o seguinte.

Compatibilidade com o Hadoop

O Data Lake Storage Gen1 é um sistema de arquivos Apache Hadoop compatível com HDFS e ambiente Hadoop. Os aplicativos ou serviços do HDInsight que usam a API WebHDFS podem ser facilmente integrados ao Data Lake Storage Gen1. O Data Lake Storage Gen1 também expõe uma interface REST compatível com WebHDFS para aplicativos.

Os dados armazenados no Data Lake Storage Gen1 podem ser facilmente analisados usando estruturas analíticas Hadoop. Frameworks como MapReduce ou Hive. Os clusters do Azure HDInsight podem ser provisionados e configurados para acessar diretamente os dados armazenados no Data Lake Storage Gen1.

Armazenamento ilimitado, ficheiros petabyte

O Data Lake Storage Gen1 fornece armazenamento ilimitado e é adequado para armazenar diferentes tipos de dados para análise. Ele não impõe limites para tamanhos de contas ou arquivos. Ou a quantidade de dados que podem ser armazenados em um data lake. Os arquivos individuais variam em tamanho de kilobytes a petabytes, tornando o Data Lake Storage Gen1 uma ótima opção para armazenar qualquer tipo de dados. Os dados são armazenados de forma durável fazendo várias cópias. E não há limites para quanto tempo os dados podem ser armazenados no data lake.

Ajuste de desempenho para análise de big data

O Data Lake Storage Gen1 foi projetado para sistemas analíticos. Sistemas que exigem uma taxa de transferência massiva para consultar e analisar grandes quantidades de dados. O data lake espalha partes de um arquivo por vários servidores de armazenamento individuais. Quando você está analisando dados, essa configuração melhora a taxa de transferência de leitura quando o arquivo é lido em paralelo.

Prontidão para a empresa: Altamente disponível e segura

O Data Lake Storage Gen1 oferece disponibilidade e confiabilidade padrão do setor. Os ativos de dados são armazenados de forma durável: cópias redundantes protegem contra falhas inesperadas. As empresas podem usar o Data Lake Storage Gen1 em suas soluções como uma parte importante de sua plataforma de dados existente.

O Data Lake Storage Gen1 também oferece segurança de nível empresarial para dados armazenados. Para obter mais informações, consulte Protegendo dados no Azure Data Lake Storage Gen1.

Estruturas de dados flexíveis

O Data Lake Storage Gen1 pode armazenar quaisquer dados em seu formato nativo, como está, sem exigir transformações prévias. O Data Lake Storage Gen1 não requer que um esquema seja definido antes que os dados sejam carregados. A estrutura analítica individual interpreta os dados e define um esquema no momento da análise. O Data Lake Storage Gen1 pode lidar com dados estruturados. E dados semiestruturados e não estruturados.

Os contêineres do Data Lake Storage Gen1 para dados são essencialmente pastas e arquivos. Você opera nos dados armazenados usando SDKs, o portal do Azure e o Azure PowerShell. Os dados colocados no armazenamento com essas interfaces e contêineres, podem armazenar qualquer tipo de dados. O Data Lake Storage Gen1 não faz nenhum tratamento especial de dados com base no tipo de dados.

Segurança de dados no Data Lake Storage Gen1

O Data Lake Storage Gen1 usa o ID do Microsoft Entra para autenticação e usa listas de controle de acesso (ACLs) para gerenciar o acesso aos seus dados.

Funcionalidade Descrição
Autenticação O Data Lake Storage Gen1 integra-se com o Microsoft Entra ID para gerenciamento de identidade e acesso para todos os dados armazenados no Data Lake Storage Gen1. Devido à integração, o Data Lake Storage Gen1 se beneficia de todos os recursos do Microsoft Entra. Esses recursos incluem: autenticação multifator, Acesso Condicional e controle de acesso baseado em função do Azure. Além disso, monitoramento de uso de aplicativos, monitoramento e alertas de segurança e assim por diante. O Data Lake Storage Gen1 suporta o protocolo OAuth 2.0 para autenticação na interface REST. Consulte Autenticação no Azure Data Lake Storage Gen1 usando a ID do Microsoft Entra
Controlo de acesso O Data Lake Storage Gen1 fornece controle de acesso suportando permissões no estilo POSIX que são expostas pelo protocolo WebHDFS. As ACLs podem ser ativadas na pasta raiz, nas subpastas e nos ficheiros individuais. Para obter mais informações sobre como as ACLs funcionam no contexto do Data Lake Storage Gen1, consulte Controle de acesso no Data Lake Storage Gen1.
Encriptação O Data Lake Storage Gen1 também fornece criptografia para os dados armazenados na conta. Você especifica as configurações de criptografia ao criar uma conta do Data Lake Storage Gen1. Pode optar por ter os seus dados encriptados ou optar por não encriptar. Para obter mais informações, consulte Criptografia no Data Lake Storage Gen1. Para obter instruções sobre como fornecer uma configuração relacionada à criptografia, consulte Introdução ao Azure Data Lake Storage Gen1 usando o portal do Azure.

Para saber mais sobre como proteger dados no Data Lake Storage Gen1, consulte Protegendo dados armazenados no Azure Data Lake Storage Gen1.

Aplicativos compatíveis com o Data Lake Storage Gen1

O Data Lake Storage Gen1 é compatível com a maioria dos componentes de código aberto no ambiente Hadoop. Também é integrado corretamente com outros serviços do Azure. Siga os links abaixo para saber mais sobre como o Data Lake Storage Gen1 pode ser usado com componentes de código aberto e outros serviços do Azure.

Sistema de arquivos Data Lake Storage Gen1 (adl://)

Em ambientes Hadoop, você pode acessar o Data Lake Storage Gen1 por meio do novo sistema de arquivos, o AzureDataLakeFilesystem (adl://). O desempenho de aplicativos e serviços que usam adl:// pode ser otimizado de maneiras que não estão atualmente disponíveis no WebHDFS. Como resultado, você tem a flexibilidade de aproveitar o melhor desempenho usando o adl:// recomendado. Ou mantenha o código existente continuando a usar a API WebHDFS diretamente. O Azure HDInsight aproveita ao máximo o AzureDataLakeFilesystem para fornecer o melhor desempenho no Data Lake Storage Gen1.

Acesse seus dados no Data Lake Storage Gen1 usando o seguinte URI:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Para obter mais informações sobre como acessar os dados no Data Lake Storage Gen1, consulte Ações disponíveis nos dados armazenados.

Próximos passos