Meddelandeköer och bearbetning av dataströmmar

Nybörjare
Utvecklare
Student
Azure

Ökningen av tillgängliga data har lett till en framväxten av kontinuerliga dataströmmar av realtidsdata att bearbeta. Här får du lära dig olika system och metoder för förbrukning och bearbetning av realtidsdataströmmar.

Utbildningsmål

I den här modulen kommer du att:

  • Definiera en meddelandekö och påminnas om en grundläggande arkitektur
  • Påminnas om egenskaperna för, och presentera fördelar och nackdelar med, en meddelandekö
  • Förklara den grundläggande arkitekturen för Apache Kafka
  • Diskutera rollerna för ämnen och partitioner samt hur skalbarhet och feltolerans uppnås
  • Diskutera allmänna krav för dataströmbearbetningssystem
  • Påminnas om utvecklingen för dataströmbearbetning
  • Förklara de grundläggande komponenterna i Apache Samza
  • Diskutera hur Samza uppnår tillståndskänslig dataströmbearbetning
  • Diskutera skillnaderna mellan Lambda- och Kappa-arkitekturer
  • Diskutera motivationen för att införa meddelandeköer och bearbetning av dataströmmar i LinkedIn-användningsfallet

I samarbete med dr Majd Sakr och Carnegie Mellon University.

Förutsättningar

  • Förstå vad molnbaserad databehandling innebär, däribland begrepp som molntjänstmodeller och de främsta molnleverantörerna
  • Känna till de tekniker som möjliggör molnbaserad databehandling
  • Förstå hur molnleverantörerna betalar för och fakturerar för molnet
  • Veta vad datacenter är och varför de finns
  • Veta hur datacenter konfigureras, drivs och tillhandahålls
  • Förstå hur molnresurser tillhandahålls och mäts
  • Vara bekant med begreppet virtualisering
  • Känna till de olika typerna av virtualisering
  • Förstå CPU-virtualisering
  • Förstå minnesvirtualisering
  • Förstå I/O-virtualisering
  • Känna till de olika typerna av data och hur de lagras
  • Vara bekant med distribuerade filsystem och hur de fungerar
  • Vara bekant med NoSQL-databaser, objektlagring och hur de fungerar
  • Känna till vad distribuerad programmering är och varför det är användbart för molnet
  • Förstå MapReduce och hur det möjliggör stordatabearbetning
  • Förstå Apache Spark och hur det skiljer sig från MapReduce
  • Förstå GraphLab och hur det skiljer sig från MapReduce och Spark