Datateknik med Azure Databricks

Medel
Datatekniker
Databricks

Lär dig hur du kan dra nytta av kraften i Apache Spark och kraftfulla kluster som körs på Azure Databricks-plattformen för att köra stora datatekniska arbetsbelastningar i molnet.

Förutsättningar

Inget

Moduler i den här utbildningsvägen

Upptäck funktionerna i den Azure Databricks och den Apache Spark notebook-filen för bearbetning av stora filer. Förstå Azure Databricks plattform och identifiera vilka typer av uppgifter som passar Apache Spark.

Förstå arkitekturen för ett Azure Databricks Spark-kluster och Spark-jobb.

Arbeta med stora mängder data från flera källor i olika rådataformat. Azure Databricks har stöd för dagliga funktioner för datahantering, till exempel läsningar, skrivningar och frågor.

Databearbetningen i Azure Databricks genom att definiera DataFrames för att läsa och bearbeta data. Lär dig hur du utför datatransformationer i DataFrames och kör åtgärder för att visa transformerade data.

Förstå skillnaden mellan en transformering och en åtgärd, lata och otåliga utvärderingar, breda och smala transformeringar och andra optimeringar i Azure Databricks.

Använd klassen DataFrame Column i Azure Databricks att tillämpa transformeringar på kolumnnivå, till exempel sorteringar, filter och aggregeringar.

Använd avancerade DataFrame-funktioner för att manipulera data, tillämpa aggregeringar och utföra datum- och tidsåtgärder i Azure Databricks.

Förstå Azure Databricks plattformskomponenter och metodtips för att skydda din arbetsyta via inbyggda Databricks-funktioner och genom att integrera med Azure-tjänster.

Lär dig hur du använder Delta Lake för att skapa, lägga till och upsert-data i Apache Spark tabeller och dra nytta av inbyggd tillförlitlighet och optimering.

Lär dig hur Structured Streaming hjälper dig att bearbeta strömmande data i realtid och hur du kan aggregera data över tidsperioder.

Använd Delta Lakes som ett optimeringslager ovanpå bloblagring för att säkerställa tillförlitlighet och låg svarstid i enhetliga strömmande och Batch-datapipelines.

Azure Data Factory hjälper dig att skapa arbetsflöden som orkestrera dataförflyttning och transformering i stor skala. Integrera Azure Databricks i dina produktionspipelines genom att anropa notebook-datorer och bibliotek.

CI/CID är inte bara för utvecklare. Lär dig hur du Azure Databricks notebook-datorer under versionskontroll i en Azure DevOps-lagringsplatsen och skapar distributionspipelines för att hantera din lanseringsprocess.

Azure Databricks är bara en av många kraftfulla datatjänster i Azure. Lär dig hur du integrerar med Azure Synapse Analytics som en del av din dataarkitektur.

Lär dig metodtips för administration av arbetsytor, säkerhet, verktyg, integrering, Databricks Runtime, HA/DR och kluster i Azure Databricks.