Data LakesData lakes

Um data lake é um repositório de armazenamento que contém uma grande quantidade de dados em seu formato nativo, não processado.A data lake is a storage repository that holds a large amount of data in its native, raw format. Data lake Store é otimizado para dimensionar de terabytes e petabytes de dados.Data lake stores are optimized for scaling to terabytes and petabytes of data. Os dados normalmente provém de várias origens heterogéneas e podem ser estruturados, semiestruturados ou não estruturados.The data typically comes from multiple heterogeneous sources, and may be structured, semi-structured, or unstructured. A idéia com um data lake é armazenar tudo no seu estado original, não transformado.The idea with a data lake is to store everything in its original, untransformed state. Essa abordagem é diferente do tradicional armazém de dados, que transforma e processa os dados no momento da ingestão.This approach differs from a traditional data warehouse, which transforms and processes the data at the time of ingestion.

Vantagens de um data lake:Advantages of a data lake:

  • Dados é nunca ignorados, uma vez que os dados são armazenados em seu formato não processado.Data is never thrown away, because the data is stored in its raw format. Isso é especialmente útil num ambiente de grandes volumes de dados, quando talvez não saibam de antemão que informações estão disponíveis a partir de dados.This is especially useful in a big data environment, when you may not know in advance what insights are available from the data.
  • Os utilizadores podem explorar os dados e criar suas próprias consultas.Users can explore the data and create their own queries.
  • Pode ser mais rápido do que as ferramentas tradicionais de ETL.May be faster than traditional ETL tools.
  • Mais flexível do que um armazém de dados, porque ele pode armazenar dados não estruturados e semiestruturados.More flexible than a data warehouse, because it can store unstructured and semi-structured data.

Uma solução completa de dados lake consiste em armazenamento e processamento.A complete data lake solution consists of both storage and processing. Armazenamento do Data lake foi concebido para a tolerância a falhas, a escalabilidade infinita e alto débito a ingestão de dados com diferentes formas e tamanhos.Data lake storage is designed for fault-tolerance, infinite scalability, and high-throughput ingestion of data with varying shapes and sizes. Processamento do Data lake envolve um ou mais motores de processamento criada com estes objetivos em mente e podem operar em dados armazenados num data lake à escala.Data lake processing involves one or more processing engines built with these goals in mind, and can operate on data stored in a data lake at scale.

Quando utilizar um data lakeWhen to use a data lake

Utilizações típicas para um data lake incluem exploração de dados, análise de dados e machine learning.Typical uses for a data lake include data exploration, data analytics, and machine learning.

Um data lake também pode agir como a origem de dados para um armazém de dados.A data lake can also act as the data source for a data warehouse. Com esta abordagem, os dados brutos são ingeridos para o data lake e, em seguida, transformados num formato estruturado queryable.With this approach, the raw data is ingested into the data lake and then transformed into a structured queryable format. Normalmente, essa transformação usa um ELT (extract-load-transform) pipeline, onde os dados são ingeridos e transformados em vigor.Typically this transformation uses an ELT (extract-load-transform) pipeline, where the data is ingested and transformed in place. Origem de dados que já está a ser relacional pode ir diretamente para o armazém de dados, utilizando um processo ETL, ignorando o data lake.Source data that is already relational may go directly into the data warehouse, using an ETL process, skipping the data lake.

Data lake Store, muitas vezes, é utilizado em eventos de transmissão em fluxo ou cenários de IoT, porque eles podem manter grandes quantidades de dados relacionais e não relacionais sem transformação nem definição de esquema.Data lake stores are often used in event streaming or IoT scenarios, because they can persist large amounts of relational and nonrelational data without transformation or schema definition. Eles são criados para lidar com grandes volumes de pequenas escritas em latência baixa e estão otimizados para débito em massa.They are built to handle high volumes of small writes at low latency, and are optimized for massive throughput.

DesafiosChallenges

  • Falta de um esquema ou metadados descritivos pode tornar os dados difícil de consumir ou consultar.Lack of a schema or descriptive metadata can make the data hard to consume or query.
  • Falta de consistência de semântica nos dados pode tornar um desafio para fazer análises em dados, a menos que os usuários são altamente qualificados em análise de dados.Lack of semantic consistency across the data can make it challenging to perform analysis on the data, unless users are highly skilled at data analytics.
  • Pode ser difícil garantir a qualidade dos dados recebidos nos data lake.It can be hard to guarantee the quality of the data going into the data lake.
  • Sem uma governação adequada, problemas de privacidade e controlo de acesso podem ser problemas.Without proper governance, access control and privacy issues can be problems. As informações que vai no data lake, quem pode aceder a esses dados, e para quais usos?What information is going into the data lake, who can access that data, and for what uses?
  • Um data lake pode não ser a melhor forma de integrar dados que já é relacionais.A data lake may not be the best way to integrate data that is already relational.
  • Por si só, um data lake não fornece exibições integradas ou holísticas em toda a organização.By itself, a data lake does not provide integrated or holistic views across the organization.
  • Um data lake pode se tornar um zero Despejar dados que nunca, na verdade, é analisado ou são explorados para as informações.A data lake may become a dumping ground for data that is never actually analyzed or mined for insights.

Serviços do Azure relevantesRelevant Azure services