Share via


Wat is Data Engineering in Microsoft Fabric?

Met data engineering in Microsoft Fabric kunnen gebruikers infrastructuren en systemen ontwerpen, bouwen en onderhouden waarmee hun organisaties grote hoeveelheden gegevens kunnen verzamelen, opslaan, verwerken en analyseren.

Microsoft Fabric biedt verschillende mogelijkheden voor data engineering om ervoor te zorgen dat uw gegevens eenvoudig toegankelijk, goed georganiseerd en van hoge kwaliteit zijn. Op de startpagina van data engineering kunt u het volgende doen:

  • Uw gegevens maken en beheren met behulp van een lakehouse

  • Pijplijnen ontwerpen om gegevens naar uw lakehouse te kopiëren

  • Spark-taakdefinities gebruiken om batch-/streamingtaak naar Spark-cluster te verzenden

  • Notebooks gebruiken om code te schrijven voor gegevensopname, voorbereiding en transformatie

    Schermopname met Data-engineer objecten.

Lakehouse

Lakehouses zijn gegevensarchitecturen waarmee organisaties gestructureerde en ongestructureerde gegevens op één locatie kunnen opslaan en beheren, met behulp van verschillende hulpprogramma's en frameworks om die gegevens te verwerken en te analyseren. Deze hulpprogramma's en frameworks kunnen query's en analyses op basis van SQL bevatten, evenals machine learning en andere geavanceerde analysetechnieken.

Apache Spark-taakdefinitie

Spark-taakdefinities zijn een reeks instructies waarmee wordt gedefinieerd hoe een taak in een Spark-cluster moet worden uitgevoerd. Het bevat informatie zoals de invoer- en uitvoergegevensbronnen, de transformaties en de configuratie-instellingen voor de Spark-toepassing. Met spark-taakdefinitie kunt u batch-/streamingtaak verzenden naar Een Spark-cluster, verschillende transformatielogica toepassen op de gegevens die worden gehost op uw lakehouse, samen met veel andere dingen.

Notebook

Notebooks zijn een interactieve computeromgeving waarmee gebruikers documenten kunnen maken en delen die live code, vergelijkingen, visualisaties en verhaaltekst bevatten. Ze stellen gebruikers in staat om code te schrijven en uit te voeren in verschillende programmeertalen, waaronder Python, R en Scala. U kunt notebooks gebruiken voor gegevensopname, voorbereiding, analyse en andere gegevensgerelateerde taken.

Gegevenspijplijn

Gegevenspijplijnen zijn een reeks stappen waarmee gegevens uit de onbewerkte vorm kunnen worden verzameld, verwerkt en getransformeerd tot een indeling die u kunt gebruiken voor analyse en besluitvorming. Ze zijn een essentieel onderdeel van data engineering, omdat ze een manier bieden om gegevens van de bron naar de bestemming te verplaatsen op een betrouwbare, schaalbare en efficiënte manier.

U kunt gratis Data-engineer in Microsoft Fabric gebruiken wanneer u zich registreert voor de proefversie van Fabric. U kunt ook een Microsoft Fabric-capaciteit of een gereserveerde infrastructuurcapaciteit kopen

Aan de slag met de Data-engineer ervaring: