Elosztott számítástechnika a felhőben: Spark
A Spark egy nyílt forráskódú fürtszámítási keretrendszer, amely eltérő erősségekkel rendelkezik, mint a MapReduce. Ismerkedjen meg a Spark működésével.
Tanulási célkitűzések
Ebben a modulban a következőkről lesz szó:
- Egy iteratív programozási keretrendszer funkcióinak felidézése
- A Spark architektúra- és feladatfolyamatainak leírása
- A Spark rugalmas elosztott adathalmazai (RDD-i) szerepköreinek felidézése
- A Spark RDD-k tulajdonságainak leírása
- Az RDD-k és a közös memóriával rendelkező elosztott rendszerek összehasonlítása
- A Spark hibatűrési mechanizmusainak leírása
- Az RDD-leszármaztatás szerepének leírása hibatűréshez és -helyreállításhoz
- Az RDD-k közötti függőségek különböző típusainak ismertetése
- A Spark RDD-k alapszintű műveleteinek ismertetése
- Egy egyszerű, iteratív Spark-program áttekintése
- Különböző Spark-kódtárak és funkcióik felidézése
Partnereink: Dr. Majd Sakr és a Carnegie Mellon University.
Előfeltételek
- A felhőalapú számítástechnika, a felhőszolgáltatás-modellek és felhőszolgáltatók fogalmának ismerete
- A felhőalapú számítást lehetővé tevő technológiák megismerése
- Megtudhatja, hogy a felhőszolgáltatók hogyan fizetnek és számláznak a felhőhasználatért
- Megtudhatja, mik azok az adatközpontok, és hogy mire valók
- Megtudhatja, hogyan lehet az adatközpontokat beállítani, üzemeltetni és kiépíteni
- Megtudhatja, hogyan lehet a felhőerőforrásokat kiépíteni és mérni
- A virtualizálás fogalmának ismerete
- A különböző virtualizációs típusok ismerete
- A CPU-virtualizálás ismerete
- A memória virtualizálásának ismerete
- Az I/O-virtualizálás ismerete
- A különböző adattípusok és azok tárolásának ismerete
- Az elosztott fájlrendszerek és azok működésének ismerete
- A NoSQL-adatbázisok, az objektumtárolás és ezek működésének ismerete
- Annak ismerete, hogy mit jelent az elosztott programozás, illetve hogy miért hasznos a felhőben
- A MapReduce és az általa lehetővé tett big data jellegű számítások ismerete