Общие сведения о виртуальных машинах для обработки и анализа данных
Виртуальная машина для обработки и анализа данных (DSVM) — это настраиваемый образ виртуальной машины, созданный специально для обработки и анализа данных. DSVM выполняется на облачной платформе Azure. В ней предварительно установлено и настроено множество популярных средств для анализа и обработки данных, позволяющих быстро приступить к созданию интеллектуальных приложений для расширенной аналитики.
Если вы работаете с данными, вы знаете, что обработка данных занимает много времени. Преобразования данных требуют различных средств для различных задач. Для работы с данными на ЦП или GPU требуется большое количество хранилища и ОЗУ, и становится трудно реплика te. Общий доступ к данным и средствам может стать сложным, и может включать в себя хрупкие передачи данных или общий доступ к дискам через "sneakernet".
Требуется
- работать в предпочтительной операционной системе;
- работать с инструментами, которые вам знакомы;
- работать на мощном компьютере;
- легко обмениваться результатами работы с коллегами.
Вы можете купить или собрать собственный компьютер, настроив его полностью по своему усмотрению. Покупка машины может быть правильным выбором для вас, если вы готовы нести предварительные расходы, и знаете, что вы можете часто стрессировать машину. Даже поэтому безопасный удаленный доступ к компьютеру для себя или ваших коллег может стать проблемой. По крайней мере, она становится текущей административной задачей.
С помощью DSVM вы платите только при запуске компьютера. Если вы опасаетесь, что забудете вовремя его выключить, запланируйте ежедневное завершение работы в произвольное время на ваш выбор. Вы можете подключаться к интерфейсу командной строки компьютера или использовать его графический рабочий стол.
DSVM имеет десятки приложений и средств программирования и библиотек, предварительно установленных и предварительно настроенных. Эти средства позволяют получить все преимущества, предоставляемые GPU, если DSVM будет выполняться на оборудовании с GPU. Для разработчиков Python, R, Julia, Node и .NET dsVM предлагает уже установленные базовые языки. Он также предлагает популярные пакеты, среды разработки и ядра Jupyter.
Для этого упражнения представьте, что вы являетесь аналитиком банка, и вы хотите сделать некоторый статистический анализ для прогнозирования инвестиционных тенденций. Вы еще не знаете, где этот анализ может привести, но вы надеетесь, что вы можете извлечь сигнал и разработать модель, которая потенциально имеет большое значение.
На этом раннем этапе процесса вы не знаете, какие инструменты и подходы могут стать важными. Однако объем данных настолько велик, что локально работать с данными при совместном использовании с коллегами невозможно.
Цели обучения
Из этого модуля вы узнаете следующее:
- сопоставите операционные системы и аппаратные ресурсы, доступные для DSVM;
- Указание и создание DSVM под управлением Ubuntu Server 20.04 LTS
- подключитесь к командной строке DSVM с использованием SSH;
- подключитесь к графическому рабочему столу DSVM с помощью клиента X2Go;
- Демонстрация использования среды Conda Python, работающей внутри DSVM
- Получите список пользовательских сред Python, активируете одну из них и запустите сервер записных книжек Jupyter.
Необходимые компоненты
- Основные сведения о виртуальных машинах