Распределенные вычисления в облаке: GraphLab

Начальный уровень
Разработка
Учащийся
Azure

GraphLab — это инструмент обработки больших данных, разработанный в Университете Карнеги — Меллона для интеллектуального анализа данных. Узнайте, как работает GraphLab, и в чем заключаются преимущества этого инструмента.

Цели обучения

В этом модуле вы узнаете, как выполнять следующие задачи:

  • ознакомиться с уникальными возможностями GraphLab и вариантами применения, для которых эти возможности предназначены;
  • вспомнить особенности платформы распределенного программирования с параллелизмом графов;
  • вспомнить три основные составляющие механизма GraphLab;
  • описать этапы, задействованные в механизме выполнения GraphLab;
  • обсудить архитектурную модель GraphLab;
  • вспомнить стратегию планирования GraphLab;
  • описать модель программирования GraphLab;
  • перечислить и обосновать уровни согласованности в GraphLab;
  • описать стратегию размещения данных в памяти в GraphLab и ее влияние на производительность для определенных типов графов;
  • обсудить вычислительную модель GraphLab;
  • обсудить механизмы обеспечения отказоустойчивости в GraphLab;
  • определить шаги, связанные с выполнением программы GraphLab;
  • сравнить и сопоставить MapReduce, Spark и GraphLab в контексте их моделей программирования, вычислений, параллелизма, архитектуры и планирования;
  • определить подходящий механизм аналитики с учетом характеристик приложения.

В партнерстве с доктором Маждом Сакром (Majd Sakr) и Университетом Карнеги — Меллона.

Предварительные требования

  • Понимание темы облачных вычислений, в том числе знакомство с моделями и некоторыми поставщиками облачных служб.
  • Знание технологий, лежащих в основе облачных вычислений.
  • Представление о том, как поставщики облачных служб управляют оплатой и выставлением счетов за использование облака.
  • Знание понятия центров обработки данных и их назначения.
  • Знания в области настройки, поддержки и подготовки центров обработки данных.
  • Представление о том, как подготавливаются и измеряются облачные ресурсы.
  • Знакомство с понятием виртуализации.
  • Знание различных типов виртуализации.
  • Представление о виртуализации ЦП.
  • Представление о виртуализации памяти.
  • Представление о виртуализации ввода-вывода.
  • Знания различных типов данных и об их хранении
  • Знакомство с распределенными файловыми системами и принципами их работы
  • Знакомство с базами данных NoSQL и хранилищем объектов, а также с принципами их работы
  • Представление о том, что такое распределенное программирование и почему оно подходит для облачной среды
  • Представление о MapReduce и о том, каким образом эта модель позволяет выполнять вычисления с большими объемами данных
  • Представление о Spark и отличии этой платформы от MapReduce