Elosztott számítástechnika a felhőben: Spark

Modul
7 Egység

Kezdő

Developer

Student

Azure

A Spark egy nyílt forráskódú fürtszámítási keretrendszer, amely eltérő erősségekkel rendelkezik, mint a MapReduce. Ismerkedjen meg a Spark működésével.

Tanulási célkitűzések

Ebben a modulban a következőkről lesz szó:

Egy iteratív programozási keretrendszer funkcióinak felidézése
A Spark architektúra- és feladatfolyamatainak leírása
A Spark rugalmas elosztott adathalmazai (RDD-i) szerepköreinek felidézése
A Spark RDD-k tulajdonságainak leírása
Az RDD-k és a közös memóriával rendelkező elosztott rendszerek összehasonlítása
A Spark hibatűrési mechanizmusainak leírása
Az RDD-leszármaztatás szerepének leírása hibatűréshez és -helyreállításhoz
Az RDD-k közötti függőségek különböző típusainak ismertetése
A Spark RDD-k alapszintű műveleteinek ismertetése
Egy egyszerű, iteratív Spark-program áttekintése
Különböző Spark-kódtárak és funkcióik felidézése

Partnereink: Dr. Majd Sakr és a Carnegie Mellon University.

Előfeltételek

A felhőalapú számítástechnika, a felhőszolgáltatás-modellek és felhőszolgáltatók fogalmának ismerete
A felhőalapú számítást lehetővé tevő technológiák megismerése
Megtudhatja, hogy a felhőszolgáltatók hogyan fizetnek és számláznak a felhőhasználatért
Megtudhatja, mik azok az adatközpontok, és hogy mire valók
Megtudhatja, hogyan lehet az adatközpontokat beállítani, üzemeltetni és kiépíteni
Megtudhatja, hogyan lehet a felhőerőforrásokat kiépíteni és mérni
A virtualizálás fogalmának ismerete
A különböző virtualizációs típusok ismerete
A CPU-virtualizálás ismerete
A memória virtualizálásának ismerete
Az I/O-virtualizálás ismerete
A különböző adattípusok és azok tárolásának ismerete
Az elosztott fájlrendszerek és azok működésének ismerete
A NoSQL-adatbázisok, az objektumtárolás és ezek működésének ismerete
Annak ismerete, hogy mit jelent az elosztott programozás, illetve hogy miért hasznos a felhőben
A MapReduce és az általa lehetővé tett big data jellegű számítások ismerete

Bevezetés min
A Spark áttekintése min
Rugalmas elosztott adathalmazok min
Leszármaztatás, hibatűrés és helyreállítás min
Programozás a Sparkban min
A Spark ökoszisztémája min
Összefoglalás min