Общие сведения о виртуальных машинах для обработки и анализа данных

Завершено

Виртуальная машина для обработки и анализа данных (DSVM) — это настраиваемый образ виртуальной машины, созданный специально для обработки и анализа данных. DSVM выполняется на облачной платформе Azure. В ней предварительно установлено и настроено множество популярных средств для анализа и обработки данных, позволяющих быстро приступить к созданию интеллектуальных приложений для расширенной аналитики.

Если вы работаете с данными, вы знаете, что обработка данных занимает много времени. Преобразования данных требуют различных средств для различных задач. Для работы с данными на ЦП или GPU требуется большое количество хранилища и ОЗУ, и становится трудно реплика te. Общий доступ к данным и средствам может стать сложным, и может включать в себя хрупкие передачи данных или общий доступ к дискам через "sneakernet".

Требуется

  • работать в предпочтительной операционной системе;
  • работать с инструментами, которые вам знакомы;
  • работать на мощном компьютере;
  • легко обмениваться результатами работы с коллегами.

Вы можете купить или собрать собственный компьютер, настроив его полностью по своему усмотрению. Покупка машины может быть правильным выбором для вас, если вы готовы нести предварительные расходы, и знаете, что вы можете часто стрессировать машину. Даже поэтому безопасный удаленный доступ к компьютеру для себя или ваших коллег может стать проблемой. По крайней мере, она становится текущей административной задачей.

С помощью DSVM вы платите только при запуске компьютера. Если вы опасаетесь, что забудете вовремя его выключить, запланируйте ежедневное завершение работы в произвольное время на ваш выбор. Вы можете подключаться к интерфейсу командной строки компьютера или использовать его графический рабочий стол.

Снимок экрана: рабочий стол Виртуальная машина для обработки и анализа данных с записной книжкой Jupyter.

DSVM имеет десятки приложений и средств программирования и библиотек, предварительно установленных и предварительно настроенных. Эти средства позволяют получить все преимущества, предоставляемые GPU, если DSVM будет выполняться на оборудовании с GPU. Для разработчиков Python, R, Julia, Node и .NET dsVM предлагает уже установленные базовые языки. Он также предлагает популярные пакеты, среды разработки и ядра Jupyter.

Для этого упражнения представьте, что вы являетесь аналитиком банка, и вы хотите сделать некоторый статистический анализ для прогнозирования инвестиционных тенденций. Вы еще не знаете, где этот анализ может привести, но вы надеетесь, что вы можете извлечь сигнал и разработать модель, которая потенциально имеет большое значение.

На этом раннем этапе процесса вы не знаете, какие инструменты и подходы могут стать важными. Однако объем данных настолько велик, что локально работать с данными при совместном использовании с коллегами невозможно.

Цели обучения

Из этого модуля вы узнаете следующее:

  • сопоставите операционные системы и аппаратные ресурсы, доступные для DSVM;
  • Указание и создание DSVM под управлением Ubuntu Server 20.04 LTS
  • подключитесь к командной строке DSVM с использованием SSH;
  • подключитесь к графическому рабочему столу DSVM с помощью клиента X2Go;
  • Демонстрация использования среды Conda Python, работающей внутри DSVM
  • Получите список пользовательских сред Python, активируете одну из них и запустите сервер записных книжек Jupyter.

Необходимые компоненты

  • Основные сведения о виртуальных машинах