O que é engenharia de dados no Microsoft Fabric?

Artigo
04/27/2024

A engenharia de dados no Microsoft Fabric permite que os usuários projetem, criem e mantenham infraestruturas e sistemas que permitem que suas organizações coletem, armazenem, processem e analisem grandes volumes de dados.

O Microsoft Fabric fornece vários recursos de engenharia de dados para garantir que seus dados sejam facilmente acessíveis, bem organizados e de alta qualidade. Na página inicial de engenharia de dados, você pode:

Crie e gerencie seus dados usando uma lakehouse
Projete pipelines para copiar dados para sua casa no lago
Usar definições de trabalho do Spark para enviar trabalho em lote/streaming para o cluster do Spark
Usar blocos de anotações para escrever código para ingestão, preparação e transformação de dados

Casa do Lago

Lakehouses são arquiteturas de dados que permitem às organizações armazenar e gerenciar dados estruturados e não estruturados em um único local, usando várias ferramentas e estruturas para processar e analisar esses dados. Essas ferramentas e estruturas podem incluir consultas e análises baseadas em SQL, bem como aprendizado de máquina e outras técnicas avançadas de análise.

Definição de trabalho do Apache Spark

As definições de trabalho do Spark são um conjunto de instruções que definem como executar um trabalho em um cluster do Spark. Ele inclui informações como as fontes de dados de entrada e saída, as transformações e as definições de configuração para o aplicativo Spark. A definição de trabalho do Spark permite que você envie um trabalho em lote/streaming para o cluster do Spark, aplique uma lógica de transformação diferente aos dados hospedados em sua casa de lago, juntamente com muitas outras coisas.

Bloco de Notas

Os blocos de anotações são um ambiente de computação interativo que permite aos usuários criar e compartilhar documentos que contêm código dinâmico, equações, visualizações e texto narrativo. Eles permitem que os usuários escrevam e executem código em várias linguagens de programação, incluindo Python, R e Scala. Você pode usar blocos de anotações para ingestão, preparação, análise e outras tarefas relacionadas a dados.

Pipeline de dados

Os pipelines de dados são uma série de etapas que podem coletar, processar e transformar dados de sua forma bruta para um formato que você pode usar para análise e tomada de decisões. Eles são um componente crítico da engenharia de dados, pois fornecem uma maneira de mover dados de sua origem para seu destino de forma confiável, escalável e eficiente.

Você pode usar a Engenharia de Dados no Microsoft Fabric gratuitamente ao se inscrever para a avaliação do Fabric. Você também pode comprar uma capacidade do Microsoft Fabric ou uma capacidade reservada do Fabric

Comece com a experiência de Engenharia de Dados:

Para saber mais sobre lakehouses, consulte O que é uma lakehouse no Microsoft Fabric?
Para começar a usar uma lakehouse, consulte Criar uma lakehouse no Microsoft Fabric.
Para saber mais sobre as definições de trabalho do Apache Spark, consulte O que é uma definição de trabalho do Apache Spark?
Para começar a usar uma definição de trabalho do Apache Spark, consulte Como criar uma definição de trabalho do Apache Spark na malha.
Para saber mais sobre blocos de notas, consulte Criar e executar o bloco de notas.
Para começar com a atividade de cópia de pipeline, consulte Como copiar dados usando a atividade de cópia.

Share via

O que é engenharia de dados no Microsoft Fabric?

Casa do Lago

Definição de trabalho do Apache Spark

Bloco de Notas

Pipeline de dados

Comentários

Comentários

Recursos adicionais

Share via

O que é engenharia de dados no Microsoft Fabric?

Casa do Lago

Definição de trabalho do Apache Spark

Bloco de Notas

Pipeline de dados

Conteúdos relacionados

Comentários

Comentários

Recursos adicionais