Adatelemzés végzése az Azure Databricks használatával

Haladó
Adatszakértő
Databricks

Megtanulhatja, hogyan hasznosíthatja az Apache Spark és az Azure Databricks platformján futó fürtök hatékonyságát ahhoz, hogy adattudományi számítási feladatokat futtasson a felhőben.

Előfeltételek

Nincs

A képzési terv moduljai

Megismerheti a Azure Databricks és a Apache Spark notebook hatalmas fájlok feldolgozásához szükséges képességeit. A Azure Databricks és a feladatok típusainak azonosítása a Apache Spark.

A spark Azure Databricks- és Spark-feladatok architektúrája.

Különböző nyers formátumokban dolgozhat több forrásból származó nagy mennyiségű adatokkal. Azure Databricks támogatja a napi adatkezelési függvényeket, például az olvasásokat, az írásokat és a lekérdezéseket.

Az adatfeldolgozás a Azure Databricks dataframe-eket definiál az adatok olvasása és feldolgozása érdekében. Megtudhatja, hogyan végezhet adatátalakításokat a DataFrame-ekkel, és hogyan hajthatja végre az átalakított adatok megjelenítéséhez szükséges műveleteket.

Azure Databricks SQL-függvények széles skáláját támogatja, de néha egyéni függvényeket is meg kell írnia, más néven User-Defined függvényt . Megtudhatja, hogyan regisztrálhat és hívhat meg felhasználó által kért felhasználó által kért fájlokat.

Megtudhatja, hogyan hozhat létre, fűz hozzá és upsert adatokat Apache Spark a Delta Lake használatával a beépített megbízhatóság és optimalizálás előnyeinek kihasználása érdekében.

Megismerheti a gépi tanulást, és megtudhatja, hogyan használhatja a PySpark gépi tanulási csomagját a gépi tanulási munkafolyamatok fő összetevőinek felépítéséhez, amelyek felderítési jellegű adatelemzést, modellbeképést és modellértékelést tartalmaznak.

Megismerheti a Spark gépi tanulási kódtárának három fő építőelemét: az átalakítók, becslők és folyamatok, valamint a folyamatok felépítését a gyakori adat jellemzősítési feladatokhoz.

Az MLflow használatával nyomon követheti a gépi tanulási kísérleteket. Minden kísérleti futtatás rögzítheti a paramétereket, a metrikákat, az összetevőket, a forráskódot és a modellt.

Megtudhatja, hogyan használhatja a Spark gépi tanulási kódtárából származó modulokat a hiperparaméterek finomhangolához és a modell kiválasztásához.

Azure Databricks támogatja az Uber Horovod keretrendszerét, valamint a Petastorm kódtárat elosztott, mélytanulásos betanító feladatok Sparkon való futtatásához Apache Parquet formátumú betanító adatkészletek használatával.

Megtudhatja, hogyan regisztrálhat, csomagolhat és helyezhet üzembe egy betanított modellt az Azure Container Instance-Azure Machine Learning service MLflow és Azure Kubernetes Service pontozási webszolgáltatásként.