Adatfeldolgozás az Azure Databricksszel

Haladó
Adatmérnök
Databricks

Megtanulhatja, hogyan hasznosíthatja az Apache Spark és az Azure Databricks platformján futó fürtök hatékonyságát ahhoz, hogy nagy méretű adatfeldolgozási számítási feladatokat futtasson a felhőben.

Előfeltételek

Nincs

A képzési terv moduljai

Megismerheti a Azure Databricks és a Apache Spark notebook hatalmas fájlok feldolgozásához szükséges képességeit. A Azure Databricks és a feladatok típusainak azonosítása a Apache Spark.

A spark Azure Databricks- és Spark-feladatok architektúrája.

Különböző nyers formátumokban dolgozhat több forrásból származó nagy mennyiségű adatokkal. Azure Databricks támogatja a napi adatkezelési függvényeket, például az olvasásokat, az írásokat és a lekérdezéseket.

Az adatfeldolgozás a Azure Databricks dataframe-eket definiál az adatok olvasása és feldolgozása érdekében. Megtudhatja, hogyan végezhet adatátalakításokat a DataFrame-ekkel, és hogyan hajthatja végre az átalakított adatok megjelenítéséhez szükséges műveleteket.

Az átalakítás és a művelet, a lusta és lelkes kiértékelése, a széles és a keskeny átalakítások, valamint a folyamat egyéb optimalizálásai közötti Azure Databricks.

Használja a DataFrame Column osztályt a Azure Databricks oszlopszintű átalakítások, például rendezések, szűrők és összesítések alkalmazására.

Fejlett DataFrame-függvényműveletekkel adatokat módosíthat, összesítéseket alkalmazhat, valamint dátum- és időműveleteket hajthat végre a Azure Databricks.

A Azure Databricks platformösszetevők és ajánlott eljárások a munkaterület biztonságossá tétele a Databricks natív funkcióival és az Azure-szolgáltatásokkal való integráció révén.

Megtudhatja, hogyan hozhat létre, fűz hozzá és upsert adatokat Apache Spark a Delta Lake használatával a beépített megbízhatóság és optimalizálás előnyeinek kihasználása érdekében.

Megtudhatja, hogyan segít a Structured Streaming a streamelési adatok valós idejű feldolgozásában, és hogyan összesíthet adatokat időablakok alatt.

A Delta Lake-eket optimalizálási rétegként használhatja a blobtárolón, így biztosíthatja a megbízhatóságot és az alacsony késést az egyesített streamelési és Batch-adatfolyamaton belül.

Azure Data Factory segítségével olyan munkafolyamatokat hozhat létre, amelyek nagy léptékben vezényelik az adatok mozgását és átalakítását. Jegyzetfüzetek Azure Databricks kódtárak hívása használatával integrálhatja az alkalmazásokat az éles folyamatokba.

A CI/CID nem csak fejlesztők számára készült. Megtudhatja, hogyan Azure Databricks notebookokat egy Azure DevOps-adattára verzióvezérlése alá, és hogyan építhet ki üzembe helyezési folyamatokat a kiadási folyamat kezeléséhez.

Azure Databricks az Azure számos hatékony adatszolgáltatásának egyike. Megtudhatja, hogyan integrálhatja a Azure Synapse Analytics az adatarchitektúra részeként.

Megismeri a munkaterületek felügyeletének, biztonságának, eszközeinek, integrációjának, a Databricks-futásidejűnek, a ha/DR-nek és a fürtöknek az ajánlott Azure Databricks.