Wat is Data Engineering in Microsoft Fabric?

Artikel
04/27/2024

Met data engineering in Microsoft Fabric kunnen gebruikers infrastructuren en systemen ontwerpen, bouwen en onderhouden waarmee hun organisaties grote hoeveelheden gegevens kunnen verzamelen, opslaan, verwerken en analyseren.

Microsoft Fabric biedt verschillende mogelijkheden voor data engineering om ervoor te zorgen dat uw gegevens eenvoudig toegankelijk, goed georganiseerd en van hoge kwaliteit zijn. Op de startpagina van data engineering kunt u het volgende doen:

Uw gegevens maken en beheren met behulp van een lakehouse
Pijplijnen ontwerpen om gegevens naar uw lakehouse te kopiëren
Spark-taakdefinities gebruiken om batch-/streamingtaak naar Spark-cluster te verzenden
Notebooks gebruiken om code te schrijven voor gegevensopname, voorbereiding en transformatie

Lakehouse

Lakehouses zijn gegevensarchitecturen waarmee organisaties gestructureerde en ongestructureerde gegevens op één locatie kunnen opslaan en beheren, met behulp van verschillende hulpprogramma's en frameworks om die gegevens te verwerken en te analyseren. Deze hulpprogramma's en frameworks kunnen query's en analyses op basis van SQL bevatten, evenals machine learning en andere geavanceerde analysetechnieken.

Apache Spark-taakdefinitie

Spark-taakdefinities zijn een reeks instructies waarmee wordt gedefinieerd hoe een taak in een Spark-cluster moet worden uitgevoerd. Het bevat informatie zoals de invoer- en uitvoergegevensbronnen, de transformaties en de configuratie-instellingen voor de Spark-toepassing. Met spark-taakdefinitie kunt u batch-/streamingtaak verzenden naar Een Spark-cluster, verschillende transformatielogica toepassen op de gegevens die worden gehost op uw lakehouse, samen met veel andere dingen.

Notebook

Notebooks zijn een interactieve computeromgeving waarmee gebruikers documenten kunnen maken en delen die live code, vergelijkingen, visualisaties en verhaaltekst bevatten. Ze stellen gebruikers in staat om code te schrijven en uit te voeren in verschillende programmeertalen, waaronder Python, R en Scala. U kunt notebooks gebruiken voor gegevensopname, voorbereiding, analyse en andere gegevensgerelateerde taken.

Gegevenspijplijn

Gegevenspijplijnen zijn een reeks stappen waarmee gegevens uit de onbewerkte vorm kunnen worden verzameld, verwerkt en getransformeerd tot een indeling die u kunt gebruiken voor analyse en besluitvorming. Ze zijn een essentieel onderdeel van data engineering, omdat ze een manier bieden om gegevens van de bron naar de bestemming te verplaatsen op een betrouwbare, schaalbare en efficiënte manier.

U kunt gratis Data-engineer in Microsoft Fabric gebruiken wanneer u zich registreert voor de proefversie van Fabric. U kunt ook een Microsoft Fabric-capaciteit of een gereserveerde infrastructuurcapaciteit kopen

Aan de slag met de Data-engineer ervaring:

Zie Wat is een lakehouse in Microsoft Fabric voor meer informatie over lakehouses?
Zie Een lakehouse maken in Microsoft Fabric om aan de slag te gaan met een lakehouse.
Zie Wat is een Apache Spark-taakdefinitie voor meer informatie over Apache Spark-taakdefinities?
Zie Een Apache Spark-taakdefinitie maken in Fabric om aan de slag te gaan met een Apache Spark-taakdefinitie.
Zie Het notitieblok ontwerpen en uitvoeren voor meer informatie over notitieblokken.
Zie Gegevens kopiëren met behulp van kopieeractiviteit voor pijplijnen om aan de slag te gaan met de kopieeractiviteit.

Share via

Wat is Data Engineering in Microsoft Fabric?

Lakehouse

Apache Spark-taakdefinitie

Notebook

Gegevenspijplijn

Feedback

Feedback

Aanvullende resources

Share via

Wat is Data Engineering in Microsoft Fabric?

Lakehouse

Apache Spark-taakdefinitie

Notebook

Gegevenspijplijn

Gerelateerde inhoud

Feedback

Feedback

Aanvullende resources