Introducción a Data Science Virtual Machine de Azure para Linux y WindowsIntroduction to Azure Data Science Virtual Machine for Linux and Windows

La máquina virtual de ciencia de datos (DSVM) es una imagen de VM personalizada en la nube de Azure de Microsoft diseñada específicamente para realizar la ciencia de datos.The Data Science Virtual Machine (DSVM) is a customized VM image on Microsoft’s Azure cloud built specifically for doing data science. Tiene muchas ciencias de datos conocidas y otras herramientas preinstaladas y preconfiguradas para impulsar la creación de aplicaciones inteligentes para análisis avanzado.It has many popular data science and other tools pre-installed and pre-configured to jump-start building intelligent applications for advanced analytics. Está disponible en Windows Server y en Linux.It is available on Windows Server and on Linux. La edición de Windows de la DSVM se ofrece en Server 2016 y Server 2012.We offer Windows edition of DSVM on Server 2016 and Server 2012. Se ofrecen las ediciones de Linux de la DSVM en Ubuntu 16.04 LTS y CentOS 7.4.We offer Linux editions of the DSVM on Ubuntu 16.04 LTS and CentOS 7.4.

Este tema describe qué puede hacer con la VM de ciencia de datos, describe algunos de los escenarios clave para el uso de la VM, detalla las funciones clave disponibles en las versiones de Windows y Linux y proporciona instrucciones sobre cómo comenzar a utilizarlas.This topic discusses what you can do with the Data Science VM, outlines some of the key scenarios for using the VM, itemizes the key features available on the Windows and Linux versions, and provides instructions on how to get started using them.

¿Qué puedo hacer con la máquina virtual de ciencia de datos?What can I do with the Data Science Virtual Machine?

El objetivo de Data Science Virtual Machine (DSVM) es proporcionar a los profesionales de datos de todos los roles y niveles de conocimiento un entorno de ciencia de datos preconfigurado, totalmente integrado y libre de problemas.The goal of the Data Science Virtual Machine (DSVM) is to provide data professionals at all skill levels and in all roles with a friction-free, pre-configured, and fully-integrated data science environment. En lugar de implementar un área de trabajo comparable por su cuenta, puede aprovisionar una DSVM y ahorrarse días o incluso semanas en los procesos de instalación, configuración y administración del paquetes.Instead of rolling out a comparable workspace on your own, you can provision a DSVM - saving you days or even weeks on the installation, configuration, and package management processes. Después de que se ha asignado la DSVM, puede comenzar a trabajar inmediatamente en su proyecto de ciencia de datos.After your DSVM has been allocated, you can immediately begin working on your data science project.

La máquina virtual de ciencia de datos está diseñada y configurada para trabajar con una amplia variedad de escenarios de uso.The Data Science VM is designed and configured for working with a broad range of usage scenarios. Puede escalar verticalmente o reducir verticalmente el entorno a medida que cambian las necesidades del proyecto.You can scale your environment up or down as your project needs change. Puede usar el idioma que prefiera para programar tareas de ciencia de datos.You are able to use your preferred language to program data science tasks. Puede instalar otras herramientas y personalizar el sistema para sus necesidades exactas.You can install other tools and customize the system for your exact needs.

Escenarios principalesKey Scenarios

En esta sección se sugieren algunos escenarios clave para los que se pueden implementar la VM de ciencia de datos.This section suggests some key scenarios for which the Data Science VM can be deployed.

Escritorio de análisis preconfigurados en la nubePreconfigured analytics desktop in the cloud

La VM de ciencia de datos proporciona una configuración de línea de base para los equipos de ciencia de datos que buscan sustituir sus escritorios locales por un escritorio en la nube administrado.The Data Science VM provides a baseline configuration for data science teams looking to replace their local desktops with a managed cloud desktop. Esta línea de base garantiza que todos los científicos de datos en un equipo tienen una configuración coherente con la que comprobar experimentos y promover la colaboración.This baseline ensures that all the data scientists on a team have a consistent setup with which to verify experiments and promote collaboration. También se reducen los costos al reducir la carga del administrador del sistema y guardar en el tiempo necesario para evaluar, instalar y mantener los diversos paquetes de software necesarios para realizar análisis avanzado.It also lowers costs by reducing the sysadmin burden and saving on the time needed to evaluate, install, and maintain the various software packages needed to do advanced analytics.

Educación y formación de ciencia de datosData science training and education

Los instructores y educadores de empresa que enseñan clases suelen proporcionar una imagen de máquina virtual para garantizar que sus estudiantes tienen una configuración coherente y que los ejemplos funcionan de forma predecible.Enterprise trainers and educators that teach data science classes usually provide a virtual machine image to ensure that their students have a consistent setup and that the samples work predictably. La VM de ciencia de datos crea un entorno a petición con una configuración coherente que simplifica los desafíos de incompatibilidad y soporte técnico.The Data Science VM creates an on-demand environment with a consistent setup that eases the support and incompatibility challenges. En los casos en donde estos entornos tienen que crearse con frecuencia, especialmente para las clases de aprendizaje más cortas, estos entornos se benefician sustancialmente.Cases where these environments need to be built frequently, especially for shorter training classes, benefit substantially.

Capacidad elástica a petición para proyectos de gran escalaOn-demand elastic capacity for large-scale projects

La exploración y el modelado de datos a gran escala o las competencias/hackathons de ciencia de datos requieren un escalado horizontal de la capacidad de hardware, normalmente durante poco tiempo.Data science hackathons/competitions or large-scale data modeling and exploration require scaled out hardware capacity, typically for short duration. La VM de ciencia de datos puede ayudar a replicar el entorno de ciencia de datos rápidamente a petición, en servidores escalados horizontalmente que permiten experimentos que requieren que se ejecuten recursos informáticos de alta potencia.The Data Science VM can help replicate the data science environment quickly on demand, on scaled out servers that allow experiments requiring high-powered computing resources to be run.

Evaluación y experimentación a corto plazoShort-term experimentation and evaluation

La máquina virtual de ciencia de datos puede usarse para evaluar o aprender herramientas como Microsoft ML Server, SQL Server, herramientas de Visual Studio, Jupyter, aprendizaje profundo/kits de herramientas de ML y nuevas herramientas conocidas de la comunidad con el mínimo esfuerzo de instalación.The Data Science VM can be used to evaluate or learn tools such as Microsoft ML Server, SQL Server, Visual Studio tools, Jupyter, deep learning / ML toolkits, and new tools popular in the community with minimal setup effort. Puesto que la VM de ciencia de datos se puede configurar rápidamente, se puede aplicar en otros escenarios de uso a corto plazo como la replicación de los experimentos publicados, la ejecución de demostraciones, el seguimiento de tutoriales en las sesiones en línea o los tutoriales de conferencia.Since the Data Science VM can be set up quickly, it can be applied in other short-term usage scenarios such as replicating published experiments, executing demos, following walkthroughs in online sessions or conference tutorials.

Aprendizaje profundoDeep learning

La VM de ciencia de datos puede usarse para el modelo de aprendizaje mediante algoritmos de aprendizaje profundo en hardware basado en GPU (unidades de procesamiento de gráficos).The data science VM can be used for training model using deep learning algorithms on GPU (Graphics processing units) based hardware. Al utilizar la funcionalidad de escalado de máquinas virtuales que ofrece la nube de Azure, la DSVM lo ayudará a usar hardware basado en GPU en la nube según las necesidades.Utilizing VM scaling capabilites of Azure cloud, DSVM helps you use GPU-based hardware on the cloud as per need. Se puede cambiar a una máquina virtual basada en GPU cuando hay que entrenar modelos grandes o cuando se necesitan cálculos de alta velocidad conservando al mismo tiempo el mismo disco del SO.One can switch to a GPU-based VM when training large models or need high-speed computations while keeping the same OS disk. La edición de Windows Server 2016 de la DSVM viene preinstalada con controladores de GPU, marcos y las versiones de GPU de las plataformas de aprendizaje profundo.The Windows Server 2016 edition of DSVM comes pre-installed with GPU drivers, frameworks, and GPU versions of deep learning frameworks. En Linux, el aprendizaje profundo en GPU está habilitado en las DSVM de CentOS y Ubuntu.On the Linux, deep learning on GPU is enabled on both the CentOS and Ubuntu DSVMs. Puede implementar la edición de Ubuntu, CentOS o Windows Server 2016 de la máquina virtual de ciencia de datos (DSVM) en una máquina virtual de Azure no basada en GPU, en cuyo caso todas las plataformas de aprendizaje profundo se reservarán al modo CPU.You can deploy the Ubuntu, CentOS, or Windows 2016 edition of Data Science VM to non GPU-based Azure virtual machine in which case all the deep learning frameworks will fallback to the CPU mode.

¿Qué se incluye en la VM de ciencia de datos?What's included in the Data Science VM?

La máquina virtual de ciencia de datos tiene muchas herramientas de ciencia de datos y aprendizaje profundo conocidas ya instaladas y configuradas.The Data Science Virtual Machine has many popular data science and deep learning tools already installed and configured. También incluye herramientas que facilitan trabajar con diversos productos y análisis de datos de Azure.It also includes tools that make it easy to work with various Azure data and analytics products. Puede explorar y compilar modelos predictivos en conjuntos de datos a gran escala mediante Microsoft ML Server (R, Python) o con SQL Server 2017.You can explore and build predictive models on large-scale data sets using the Microsoft ML Server (R, Python) or using SQL Server 2017. También se incluye un host de otras herramientas de la comunidad de código abierto y desde Microsoft, así como código de ejemplo y bloc de notas.A host of other tools from the open source community and from Microsoft are also included, as well as sample code and notebooks. En la tabla siguiente se detalla y compara los componentes principales incluidos en las ediciones de Windows y Linux de la máquina virtual de ciencia de datos.The following table itemizes and compares the main components included in the Windows and Linux editions of the Data Science Virtual Machine.

HerramientaTool Edición de WindowsWindows Edition Edición de LinuxLinux Edition
Microsoft R Open con paquetes populares preinstaladosMicrosoft R Open with popular packages pre-installed YY YY
Microsoft ML Server (R, Python) Developer Edition incluye:Microsoft ML Server (R, Python) Developer Edition includes,
    * Marco de RevoScaleR/RevoScalePy de alto rendimiento paralelo y distribuido (R y Python)    * RevoScaleR/revoscalepy parallel and distributed high-performance framework (R & Python)
    * MicrosoftML Nuevos algoritmos de aprendizaje automático de última generación de Microsoft    * MicrosoftML - New state-of-the-art ML algorithms from Microsoft
    * Operacionalización de R y Python    * R and Python Operationalization
YY YY
Microsoft Office Pro Plus con activación compartida: Excel, Word y PowerPointMicrosoft Office Pro-Plus with shared activation - Excel, Word and PowerPoint YY NN
Anaconda Python 2.7, 3.5 con paquetes populares preinstaladosAnaconda Python 2.7, 3.5 with popular packages pre-installed YY YY
JuliaPro con paquetes populares para lenguaje Julia preinstaladosJuliaPro with popular packages for Julia language pre-installed YY YY
Bases de datos relacionalesRelational Databases SQL Server 2017SQL Server 2017
Developer EditionDeveloper Edition
PostgreSQL(solo CentOS)PostgreSQL(CentOS only)
Herramientas de base de datosDatabase tools * SQL Server Management Studio* SQL Server Management Studio
* SQL Server Integration Services* SQL Server Integration Services
* bcp, sqlcmd* bcp, sqlcmd
* Controladores ODBC/JDBC* ODBC/JDBC drivers
* SQuirreL SQL (herramienta de consulta),* SQuirreL SQL (querying tool),
* bcp, sqlcmd* bcp, sqlcmd
* Controladores ODBC/JDBC* ODBC/JDBC drivers
Análisis de base de datos escalable con ML Services de SQL Server (R, Python)Scalable in-database analytics with SQL Server ML services (R, Python) YY NN
Jupyter Notebook Server con los kernel siguientes,Jupyter Notebook Server with following kernels, YY YY
    * R    * R YY YY
    * Python 2.7 y 3.5    * Python 2.7 & 3.5 YY YY
    * Julia    * Julia YY YY
    * PySpark    * PySpark YY YY
    * Sparkmagic    * Sparkmagic NN Y (solo Ubuntu)Y (Ubuntu Only)
    * SparkR    * SparkR NN YY
JupyterHub (servidor de cuadernos de varios usuarios)JupyterHub (Multi-user notebooks server) NN YY
Herramientas de desarrollo, entornos de desarrollo integrados y editores de códigoDevelopment tools, IDEs and Code editors
    * Visual Studio 2017 (Community Edition) > con Git Plugin, Azure HDInsight (Hadoop), Data Lake, SQL Server Data Tools, Node.js, Python y Herramientas de R para Visual Studio (RTVS)    * Visual Studio 2017 (Community Edition) >with Git Plugin, Azure HDInsight (Hadoop), Data Lake, SQL Server Data tools, Node.js, Python, and R Tools for Visual Studio (RTVS) YY NN
    * Visual Studio Code    * Visual Studio Code YY YY
    * RStudio Desktop    * RStudio Desktop YY YY
    * RStudio Server    * RStudio Server NN YY
    * PyCharm    * PyCharm NN YY
    * Atom    * Atom NN YY
    * Juno (Julia IDE)    * Juno (Julia IDE) YY YY
    * Vim y Emacs    * Vim and Emacs YY YY
    * Git y GitBash    * Git and GitBash YY YY
    * OpenJDK    * OpenJDK YY YY
    * .NET Framework    * .Net Framework YY NN
PowerBI DesktopPowerBI Desktop YY NN
SDK para obtener acceso al conjunto de aplicaciones Cortana Intelligence y AzureSDKs to access Azure and Cortana Intelligence Suite of services YY YY
Herramientas de movimiento de datos y administraciónData Movement and management Tools
    * Explorador de Azure Storage    * Azure Storage Explorer YY YY
    * CLI de Azure    * Azure CLI YY YY
    * Azure Powershell    * Azure Powershell YY NN
    * Azcopy    * Azcopy YY NN
    * Controlador de Blob FUSE    * Blob FUSE driver NN YY
    * Adlcopy (Azure Data Lake Store)    * Adlcopy(Azure Data Lake Storage) YY NN
    * Herramienta DocDB Data Migration    * DocDB Data Migration Tool YY NN
    * Microsoft Data Management Gateway: traslado de datos entre local y la nube    * Microsoft Data Management Gateway: Move data between OnPrem and Cloud YY NN
    * Utilidades de línea de comandos Unix/Linux    * Unix/Linux Command-Line Utilities YY YY
Apache Drill para la exploración de datosApache Drill for Data exploration YY YY
Herramientas de Machine LearningMachine Learning Tools
    * Integración con Azure Machine Learning (R, Python)    * Integration with Azure Machine Learning (R, Python) YY YY
    * Xgboost    * Xgboost YY YY
    * Vowpal Wabbit    * Vowpal Wabbit YY YY
    * Weka    * Weka YY YY
    * Rattle    * Rattle YY YY
    * LightGBM    * LightGBM NN Y (solo Ubuntu)Y (Ubuntu Only)
    * H2O    * H2O NN Y (solo Ubuntu)Y (Ubuntu only)
Herramientas de aprendizaje profundo basado en GPUGPU-based Deep Learning Tools Edición de Windows Server 2016Windows Server 2016 edition YY
    * Microsoft Cognitive Toolkit (anteriormente conocido como CNTK)    * Microsoft Cognitive Toolkit (formerly known as CNTK) YY YY
    * TensorFlow    * TensorFlow YY YY
    * MXNet    * MXNet YY YY
    * Caffe y Caffe2    * Caffe & Caffe2 NN YY
    * Torch    * Torch NN YY
    * Theano    * Theano NN YY
    * Keras    * Keras NN YY
    * PyTorch    * PyTorch NN YY
    * NVidia Digits    * NVidia Digits NN YY
    * MXNet Model Server    * MXNet Model Server NN YY
    * TensorFlow Serving    * TensorFlow Serving NN YY
    * CUDA, CUDNN, Nvidia Driver    * CUDA, CUDNN, Nvidia Driver YY YY
Plataforma de macrodatos (solo Devtest)Big Data Platform (Devtest only)
    * Spark Standalone local    * Local Spark Standalone NN YY
    * Hadoop (HDFS, YARN) local    * Local Hadoop (HDFS, YARN) NN YY

Introducción a la máquina virtual de ciencia de datos en WindowsGet started with the Windows Data Science VM

  • Cree una instancia de la edición de la DSVM de Windows que quiera accediendo aCreate an instance of the desired Windows DSVM edition by navigating to

    oor

  • Haga clic en el botón OBTENERLA AHORA.Click the GET IT NOW button.
  • Inicie sesión en la VM desde el escritorio remoto con las credenciales que especificó cuando creó la VM.Sign in to the VM from your remote desktop using the credentials you specified when you created the VM.
  • Para detectar e iniciar las herramientas disponibles, haga clic en el menú Inicio.To discover and launch the tools available, click the Start menu.

Introducción a la VM de ciencia de datos de LinuxGet started with the Linux Data Science VM

  • Cree una instancia de la edición de la DSVM de Linux que quiera accediendo aCreate an instance of the desired Linux DSVM edition by navigating to

    oor

  • Haga clic en el botón Obtenerla ahora.Click the Get it now button.

  • Inicie sesión en una VM desde un cliente SSH, como Putty o comando SSH con las credenciales que especificó cuando creó la VM.Sign in to the VM from an SSH client, such as Putty or SSH Command, using the credentials you specified when you created the VM.
  • En el símbolo del sistema de shell, especifique dsvm-more-info.In the shell prompt, enter dsvm-more-info.
  • Para un escritorio gráfico, descargue el cliente X2Go para la plataforma cliente aquí y siga las instrucciones en el documento de VM de ciencia de datos de Linux Aprovisionamiento de máquina virtual de ciencia de datos de Linux.For a graphical desktop, download the X2Go client for your client platform here and follow the instructions in the Linux Data Science VM document Provision the Linux Data Science Virtual Machine.

Pasos siguientesNext steps

Para la VM de ciencia de datos de WindowsFor the Windows Data Science VM

Una VM de ciencia de los datos de LinuxFor the Linux Data Science VM