¿Qué es Azure Data Science Virtual Machine de Azure para Linux y Windows?What is the Azure Data Science Virtual Machine for Linux and Windows?

Data Science Virtual Machine (DSVM) es una imagen de máquina virtual personalizada en la plataforma en la nube de Azure diseñada específicamente para realizar ciencia de datos.The Data Science Virtual Machine (DSVM) is a customized VM image on the Azure cloud platform built specifically for doing data science. Tiene muchas ciencias de datos conocidas y otras herramientas preinstaladas y preconfiguradas para impulsar la creación de aplicaciones inteligentes para análisis avanzado.It has many popular data science and other tools pre-installed and pre-configured to jump-start building intelligent applications for advanced analytics.

Científicos de datos y desarrolladores de Microsoft, junto con la comunidad de ciencia de datos más amplia, han probado rigurosamente las configuraciones de las herramientas.The tool configurations are rigorously tested by data scientists and developers at Microsoft and by the broader data science community. Estas pruebas ayudan a garantizar la estabilidad y la viabilidad general.This testing helps ensure stability and general viability.

El DSVM está disponible en:The DSVM is available on:

  • Windows Server 2016, Windows Server 2012Windows Server 2016, Windows Server 2012
  • Ubuntu 16.04 LTS y CentOS 7.4Ubuntu 16.04 LTS and CentOS 7.4

Nota

Todas las herramientas de máquina virtual para el aprendizaje profundo se han incluido en Data Science Virtual Machine.All VM tools for deep learning have been folded into the Data Science Virtual Machine.

¿Qué puedo hacer con DSVM?What can I do with the DSVM?

El objetivo de Data Science Virtual Machine es proporcionar a los profesionales de datos de todos los niveles de aptitud y de distintos sectores, un entorno de ciencia de datos preconfigurado, totalmente integrado y libre de problemas.The goal of the Data Science Virtual Machine is to provide data professionals of all skill levels and across industries with a friction-free, pre-configured, and fully integrated data science environment. En lugar de implementar un área de trabajo comparable por su cuenta, puede aprovisionar un DSVM.Instead of rolling out a comparable workspace on your own, you can provision a DSVM. Esta opción puede ahorrarle días, o incluso semanas, en los procesos de instalación, configuración y administración de paquetes.That choice can save you days or even weeks on the installation, configuration, and package management processes. Después de que se ha asignado la DSVM, puede comenzar a trabajar inmediatamente en su proyecto de ciencia de datos.After your DSVM has been allocated, you can immediately begin working on your data science project.

Data Science Virtual Machine está diseñada y configurada para trabajar con un amplio rango de escenarios de uso.The DSVM is designed and configured for working with a broad range of usage scenarios. Puede escalar o reducir verticalmente el entorno a medida que cambien los requisitos del proyecto.You can scale your environment up or down as your project requirements change. También puede usar el lenguaje que prefiera para programar tareas de ciencia de datos e instalar otras herramientas para personalizar el sistema para ajustarlo a sus necesidades.You can also use your preferred language to program data science tasks and install other tools to customize the system for your needs.

Escritorio de análisis preconfigurados en la nubePreconfigured analytics desktop in the cloud

Data Science Virtual Machine proporciona una configuración de base de referencia para los equipos de ciencia de datos que desean sustituir sus escritorios locales por un escritorio en la nube administrado.The DSVM provides a baseline configuration for data science teams that want replace their local desktops with a managed cloud desktop. Esta línea de base garantiza que todos los científicos de datos en un equipo tienen una configuración coherente con la que comprobar experimentos y promover la colaboración.This baseline ensures that all the data scientists on a team have a consistent setup with which to verify experiments and promote collaboration. Al reducirse la carga del administrador del sistema, también se reducen los costos.It also lowers costs by reducing the sysadmin burden. Esta reducción de la carga ahorra el tiempo necesario para evaluar, instalar y mantener los paquetes de software para realizar análisis avanzados.This burden reduction saves on the time needed to evaluate, install, and maintain software packages for advanced analytics.

Educación y formación de ciencia de datosData science training and education

Los instructores y educadores que imparten clases de ciencia de datos proporcionan normalmente una imagen de máquina virtual.Enterprise trainers and educators who teach data science classes usually provide a virtual machine image. La imagen garantiza que los alumnos tienen una configuración coherente y que las muestras funcionan según lo previsto.The image ensures that students have a consistent setup and that the samples work predictably.

Data Science Virtual Machine crea un entorno a petición con una configuración coherente que simplifica los desafíos de incompatibilidad y soporte técnico.The DSVM creates an on-demand environment with a consistent setup that eases the support and incompatibility challenges. En los casos en donde estos entornos tienen que crearse con frecuencia, especialmente para las clases de aprendizaje más cortas, estos entornos se benefician sustancialmente.Cases where these environments need to be built frequently, especially for shorter training classes, benefit substantially.

Capacidad elástica a petición para proyectos de gran escalaOn-demand elastic capacity for large-scale projects

Tanto los hackathons/competiciones como la exploración y el modelado de datos a gran escala requieren capacidad de hardware para la escalabilidad horizontal, normalmente durante poco tiempo.Data science hackathons/competitions or large-scale data modeling and exploration require scaled-out hardware capacity, typically for short duration. Data Science Virtual Machine puede ayudar a replicar el entorno de la ciencia de datos rápidamente a petición, en servidores con escalabilidad horizontal que permiten experimentos que los recursos informáticos de alta potencia pueden ejecutar.The DSVM can help replicate the data science environment quickly on demand, on scaled-out servers that allow experiments that high-powered computing resources can run.

Capacidad de proceso personalizada para Azure NotebooksCustom compute power for Azure Notebooks

Azure Notebooks es un servicio hospedado gratuito para desarrollar, ejecutar y compartir cuadernos de Jupyter Notebook en la nube sin necesidad de instalación.Azure Notebooks is a free hosted service to develop, run, and share Jupyter notebooks in the cloud with no installation. El nivel de servicio gratuito está limitado a 4 GB de memoria y 1 GB de datos.The free service tier is limited to 4 GB of memory and 1 GB of data.

Para liberar todos los límites, puede asociar un proyecto de Notebooks a una instancia de Data Science Virtual Machine o a cualquier otra máquina virtual que se ejecute en un servidor de Jupyter.To release all limits, you can attach a Notebooks project to a DSVM or any other VM running on a Jupyter server. Si inicia sesión en Azure Notebooks con una cuenta mediante Azure Active Directory (por ejemplo, una cuenta corporativa), Notebooks muestra automáticamente las instancias de Data Science Virtual Machine en las suscripciones asociadas a esa cuenta.If you sign in to Azure Notebooks with an account by using Azure Active Directory (such as a corporate account), Notebooks automatically shows DSVMs in any subscriptions associated with that account. Puede asociar una instancia de Data Science Virtual Machine a Azure Notebooks para ampliar la potencia de proceso disponible.You can attach a DSVM to Azure Notebooks to expand the available compute power.

Evaluación y experimentación a corto plazoShort-term experimentation and evaluation

Puede usar DSVM para evaluar o aprender herramientas como estas con un esfuerzo mínimo de configuración:You can use the DSVM to evaluate or learn tools like these, with minimal setup effort:

  • Servidor de Microsoft Machine LearningMicrosoft Machine Learning Server
  • SQL ServerSQL Server
  • Visual Studio ToolsVisual Studio tools
  • JupyterJupyter
  • Kits de herramientas de aprendizaje profundo y de aprendizaje automáticoDeep learning and machine learning toolkits
  • Nuevas herramientas populares en la comunidadNew tools popular in the community

Dado que DSVM se puede configurar rápidamente, puede aplicarlo en otros escenarios de uso a corto plazo.Because you can set up the DSVM quickly, you can apply it in other short-term usage scenarios. Estos escenarios incluyen la replicación de experimentos publicados, la ejecución de demostraciones y el seguimiento de tutoriales en sesiones en línea y tutoriales de conferencia.These scenarios include replicating published experiments, executing demos, and following walkthroughs in online sessions and conference tutorials.

Aprendizaje profundoDeep learning

En Data Science Virtual Machine, los modelos de entrenamiento pueden usar algoritmos de aprendizaje profundo en hardware basado en unidades de procesamiento de gráficos (GPU).In the DSVM, your training models can use deep learning algorithms on hardware that's based on graphics processing units (GPUs). Aprovechando las funcionalidades de escalado de máquinas virtuales de la plataforma Azure, DSVM le ayuda a usar hardware basado en GPU en la nube según sus necesidades.By taking advantage of the VM scaling capabilities of the Azure platform, the DSVM helps you use GPU-based hardware in the cloud according to your needs. Puede cambiar a una máquina virtual basada en GPU cuando vaya a entrenar modelos grandes o cuando necesite cálculos a alta velocidad y desee mantener el mismo disco del SO.You can switch to a GPU-based VM when you're training large models, or when you need high-speed computations while keeping the same OS disk.

La edición de Windows Server 2016 de la DSVM viene preinstalada con controladores de GPU, marcos y las versiones de GPU de los marcos de aprendizaje profundo.The Windows Server 2016 edition of the DSVM comes pre-installed with GPU drivers, frameworks, and GPU versions of deep learning frameworks. En la edición Linux, el aprendizaje profundo en las GPU está habilitado en las DSVM de CentOS y Ubuntu.On the Linux edition, deep learning on GPUs is enabled on both the CentOS and Ubuntu DSVMs.

También puede implementar la edición de Ubuntu, CentOS o Windows 2016 de Data Science VM en una máquina virtual de Azure no basada en GPU.You can also deploy the Ubuntu, CentOS, or Windows 2016 edition of the DSVM to an Azure virtual machine that isn't based on GPUs. En este caso, todos los marcos de aprendizaje profundo se revertirán al modo CPU.In this case, all the deep learning frameworks will fall back to the CPU mode.

Más información sobre los marcos de aprendizaje profundo y de inteligencia artificial.Learn more about available deep learning and AI frameworks.

¿Qué incluye DSVM?What's included on the DSVM?

La máquina virtual de ciencia de datos tiene muchas herramientas de ciencia de datos y aprendizaje profundo conocidas ya instaladas y configuradas.The Data Science Virtual Machine has many popular data science and deep learning tools already installed and configured. También incluye herramientas que facilitan trabajar con diversos productos y análisis de datos de Azure.It also includes tools that make it easy to work with various Azure data and analytics products. Estos productos incluyen Microsoft Machine Learning Server (R y Python) para la creación de modelos predictivos y SQL Server 2017 para la exploración a gran escala de los conjuntos de datos.These products include Microsoft Machine Learning Server (R, Python) for building predictive models, and SQL Server 2017 for large-scale exploration of data sets. Data Science Virtual Machine incluye otras herramientas tanto de la comunidad de código abierto como de Microsoft, junto con código de ejemplo y cuadernos.The DSVM includes other tools from the open-source community and from Microsoft, along with sample code and notebooks.

Esta es una lista de las herramientas y plataformas:Here's a list of tools and platforms:

En la tabla siguiente se detalla y compara los componentes principales incluidos en las ediciones de Windows y Linux de la máquina virtual de ciencia de datos.The following table itemizes and compares the main components included in the Windows and Linux editions of the Data Science Virtual Machine.

HerramientaTool Edición de WindowsWindows edition Edición de LinuxLinux edition
Microsoft R Open con paquetes populares preinstaladosMicrosoft R Open with popular packages pre-installed YY YY
Microsoft Machine Learning Server (R y Python) Developer Edition incluye:Microsoft Machine Learning Server (R, Python) Developer Edition includes:
Marco de alto rendimiento distribuido y paralelo de      RevoScaleR/revoscalepy (R y Python)     RevoScaleR/revoscalepy parallel and distributed high-performance framework (R and Python)
    MicrosoftML, nuevos algoritmos de aprendizaje automático de última generación     MicrosoftML, new state-of-the-art machine learning algorithms from Microsoft
    Operacionalización de R y Python     R and Python operationalization
SY SY
Microsoft Office ProPlus con activación compartida: Excel, Word y PowerPointMicrosoft Office ProPlus with shared activation: Excel, Word, and PowerPoint SY NN
Anaconda Python 2.7 y 3.5 con los paquetes más usados preinstaladosAnaconda Python 2.7 and 3.5 with popular packages pre-installed SY SY
JuliaPro con paquetes populares para lenguaje Julia preinstaladosJuliaPro with popular packages for Julia language pre-installed SY SY
Bases de datos relacionalesRelational databases SQL Server 2017SQL Server 2017
Developer EditionDeveloper Edition
PostgreSQL (CentOS),PostgreSQL (CentOS),
SQL Server 2017SQL Server 2017
Developer Edition (Ubuntu)Developer Edition (Ubuntu)
Herramientas de base de datosDatabase tools SQL Server Management StudioSQL Server Management Studio
SQL Server Integration ServicesSQL Server Integration Services
bcp, sqlcmdbcp, sqlcmd
Controladores ODBC/JDBCODBC/JDBC drivers
SQuirreL SQL (herramienta de consulta),SQuirreL SQL (querying tool),
bcp, sqlcmdbcp, sqlcmd
Controladores ODBC/JDBCODBC/JDBC drivers
Análisis de base de datos escalable con los servicios de aprendizaje automático de SQL Server (R y Python)Scalable in-database analytics with SQL Server machine learning services (R, Python) SY NN
Servidor de Jupyter Notebook con los siguientes kernels:Jupyter Notebook Server with the following kernels: SY SY
     R     R SY SY
     Python     Python SY SY
     Julia     Julia SY SY
     PySpark     PySpark SY SY
     Sparkmagic     Sparkmagic NN S (solo Ubuntu)Y (Ubuntu only)
     SparkR     SparkR NN SY
JupyterHub (servidor de cuadernos multiusuario)JupyterHub (multiuser notebook server) NN SY
JupyterLab (servidor de cuadernos multiusuario)JupyterLab (multiuser notebook server) NN S (solo Ubuntu)Y (Ubuntu only)
Herramientas de desarrollo, entornos de desarrollo integrados y editores de código:Development tools, IDEs, and code editors:
    Visual Studio 2019 (Community Edition) con el complemento de Git, Azure HDInsight (Hadoop), Azure Data Lake, SQL Server Data Tools, Node.js, Python y Herramientas de R para Visual Studio (RTVS)     Visual Studio 2019 (Community Edition) with Git plug-in, Azure HDInsight (Hadoop), Azure Data Lake, SQL Server Data Tools, Node.js, Python, and R Tools for Visual Studio (RTVS) SY NN
     Visual Studio Code     Visual Studio Code SY SY
     RStudio Desktop     RStudio Desktop SY SY
     RStudio Server     RStudio Server NN SY
     PyCharm Community Edition     PyCharm Community Edition NN SY
     Atom     Atom NN SY
     Juno (entorno de desarrollo integrado de Julia)     Juno (Julia IDE) SY SY
     Vim y Emacs     Vim and Emacs SY SY
     Git y Git Bash     Git and Git Bash SY SY
     OpenJDK     OpenJDK SY SY
     .NET Framework     .NET Framework SY NN
Power BI DesktopPower BI Desktop SY NN
SDK para obtener acceso al conjunto de aplicaciones Cortana Intelligence y AzureSDKs to access Azure and Cortana Intelligence Suite of services SY SY
Herramientas de administración y movimiento de datos:Data movement and management tools:
     Explorador de Azure Storage     Azure Storage Explorer SY SY
     CLI de Azure     Azure CLI SY SY
     Azure PowerShell     Azure PowerShell SY NN
     Azcopy     Azcopy SY NN
    Controlador FUSE de blobs     Blob FUSE driver NN SY
     Adlcopy (Azure Data Lake Storage)     Adlcopy (Azure Data Lake Storage) SY NN
     Herramienta de migración de datos de Azure Cosmos DB     Azure Cosmos DB Data Migration Tool SY NN
     Microsoft Data Management Gateway: movimiento de datos entre un entorno local y la nube     Microsoft Data Management Gateway: move data between on-premises and the cloud SY NN
    * Herramientas de línea de comandos de Unix/Linux     Unix/Linux command-line tools SY SY
Apache Drill para la exploración de datosApache Drill for data exploration SY SY
Herramientas de aprendizaje automático:Machine learning tools:
    * Integración con Azure Machine Learning (R y Python)     Integration with Azure Machine Learning (R, Python) SY SY
     XGBoost     XGBoost SY SY
     Vowpal Wabbit     Vowpal Wabbit SY SY
     Weka     Weka SY SY
     Rattle     Rattle SY SY
     LightGBM     LightGBM NN S (solo Ubuntu)Y (Ubuntu only)
     CatBoost     CatBoost NN S (solo Ubuntu)Y (Ubuntu only)
     H2O, Sparkling Water     H2O, Sparkling Water NN S (solo Ubuntu)Y (Ubuntu only)
Herramientas de aprendizaje profundo que funcionan en una GPU o CPU:Deep learning tools that work on a GPU or CPU:
    Microsoft Cognitive Toolkit (CNTK) (Windows 2016)     Microsoft Cognitive Toolkit (CNTK) (Windows 2016) SY SY
     TensorFlow     TensorFlow S (Windows 2016)Y (Windows 2016) SY
     Horovod     Horovod NN S (Ubuntu)Y (Ubuntu)
     MXNet     MXNet S (Windows 2016)Y (Windows 2016) SY
     Caffe y Caffe2     Caffe and Caffe2 NN SY
     Chainer     Chainer NN SY
     Torch     Torch NN SY
     Theano     Theano NN SY
     Keras     Keras NN SY
     PyTorch     PyTorch NN SY
     NVidia Digits     NVidia Digits NN SY
     Servidor de modelos MXNet     MXNet Model Server NN SY
     TensorFlow Serving     TensorFlow Serving NN SY
     TensorRT     TensorRT NN SY
     CUDA, cuDNN y controlador NVIDIA     CUDA, cuDNN, NVIDIA Driver SY SY

Pasos siguientesNext steps

Obtenga más información en estos artículos:Learn more with these articles: