Introduzione alla macchina virtuale per l'analisi scientifica dei dati basata su cloud per Linux e Windows

La macchina virtuale per l'analisi scientifica dei dati (DSVM) è un'immagine VM personalizzata nel cloud di Microsoft Azure creata in modo specifico per l'analisi scientifica dei dati. Include diversi strumenti comuni per l'analisi scientifica dei dati e altri strumenti preinstallati e preconfigurati per implementare rapidamente la creazione di applicazioni intelligenti per l'analisi avanzata. È disponibile in Windows Server e in Linux. L'edizione della DSVM per Windows è disponibile in Windows Server 2016 e Windows Server 2012. L'edizione della DSVM per Linux è disponibile in Ubuntu 16.04 LTS e nelle distribuzioni Linux basate su OpenLogic 7.2 CentOS.

Questo argomento illustra le operazioni possibili con la VM per l'analisi scientifica dei dati, descrive alcuni degli scenari chiave per l'uso della VM, indica in modo dettagliato le funzionalità principali disponibili nelle versioni per Windows e Linux e include le istruzioni su come iniziare a usarle.

Usi della macchina virtuale per l'analisi scientifica dei dati

L'obiettivo della macchina virtuale per l'analisi scientifica dei dati è offrire ai professionisti dei dati, in tutti i livelli e i ruoli, un ambiente di analisi scientifica dei dati privo di problemi. La VM consente di risparmiare una notevole quantità di tempo che sarebbe necessario se si volesse implementare un ambiente analogo in autonomia. Questa soluzione consente invece di avviare immediatamente il progetto di analisi scientifica dei dati in una nuova istanza di VM.

La VM per l'analisi scientifica dei dati è progettata e configurata per l'uso in un'ampia gamma di scenari di utilizzo. È possibile aumentare e ridurre le prestazioni dell'ambiente a seconda delle esigenze del progetto. Può essere usato il linguaggio preferito per programmare le attività di analisi scientifica dei dati. È inoltre possibile installare altri strumenti e personalizzare il sistema in base alle esigenze specifiche.

Scenari chiave

Questa sezione suggerisce alcuni scenari chiave per i quali può essere distribuita la VM per l'analisi scientifica dei dati.

Desktop di analisi preconfigurato nel cloud

La VM per l'analisi scientifica dei dati offre una configurazione di base per i team di analisi scientifica dei dati che vogliono sostituire i desktop locali con un desktop cloud gestito. Questa configurazione di base garantisce che tutti gli scienziati dei dati presenti in un team abbiano una configurazione coerente mediante la quale verificare gli esperimenti e promuovere la collaborazione. Anche i costi diminuiscono, grazie alla riduzione del carico lavorativo per gli amministratori di sistema e del tempo richiesto per valutare, installare e gestire i vari pacchetti di software necessari per eseguire analisi avanzate.

Preparazione e formazione sull'analisi scientifica dei dati

Gli istruttori e i formatori aziendali che insegnano l'analisi scientifica dei dati in genere forniscono un'immagine di macchina virtuale per garantire che gli studenti abbiano una configurazione coerente e che gli esempi abbiano un comportamento prevedibile. La VM per l'analisi scientifica dei dati consente di creare un ambiente su richiesta con una configurazione coerente che semplifica i problemi relativi a incompatibilità e supporto. Esistono vantaggi sostanziali per i casi in cui tali ambienti devono essere compilati di frequente, in particolare per i corsi di formazione più brevi.

Capacità elastica su richiesta per progetti su larga scala

Gli hackathon e i concorsi di analisi scientifica dei dati o la modellazione e l'esplorazione di dati su larga scala richiedono una maggiore capacità hardware, in genere per brevi periodi di tempo. La VM per l'analisi scientifica dei dati consente di replicare rapidamente e su richiesta l'ambiente di analisi scientifica dei dati su server con maggiore capacità, che consentono di eseguire esperimenti che richiedono l'esecuzione di risorse di calcolo con potenza elevata.

Valutazione e sperimentazione a breve termine

La VM per l'analisi scientifica dei dati può essere usata per valutare o imparare a usare strumenti quali Microsoft R Server, SQL Server, strumenti di Visual Studio, Jupyter, toolkit di deep learning/ML e i nuovi strumenti popolari nella comunità con il minimo sforzo di installazione. La VM per l'analisi scientifica dei dati può essere configurata rapidamente, pertanto può essere usata anche in altri scenari di utilizzo a breve termine, ad esempio nella replica di esperimenti pubblicati, nell'esecuzione di demo e di procedure dettagliate in sessioni online, nonché in esercitazioni in conferenza.

Apprendimento avanzato

La VM di analisi scientifica dei dati può essere usata per il training del modello usando gli algoritmi di apprendimento avanzato sull'hardware basato su GPU (unità di elaborazione grafica). Grazie alle funzioni di scalabilità delle VM del cloud di Azure, la DSVM consente di usare hardware basato su GPU nel cloud in base alle necessità. È possibile passare a una VM basata su GPU durante il training di modelli di grandi dimensioni o quando sono necessari calcoli ad alta velocità, mantenendo lo stesso disco del sistema operativo. Nell'edizione Windows Server 2016 della DSVM sono preinstallati i driver GPU, i framework e la versione GPU degli algoritmi di apprendimento avanzato. In Linux l'apprendimento avanzato su GPU è abilitato solo nell'edizione della VM di analisi scientifica dei dati per Linux (Ubuntu). È possibile distribuire l'edizione Ubuntu/Windows 2016 della VM di analisi scientifica dei dati alla macchina virtuale di Azure non basata su GPU, nel qual caso tutti i framework di apprendimento avanzato eseguiranno il fallback alla modalità CPU. Per Windows Server 2012 è stato in precedenza pubblicato un toolkit di apprendimento avanzato, ma ora è consigliabile usare Windows Server 2016 per i carichi di lavoro di apprendimento avanzato basati su Windows. L'edizione Linux basata su CentOS della VM di analisi scientifica dei dati contiene solo le build CPU di alcuni strumenti di apprendimento avanzato (CNTK, Tensorflow, MXNet), senza avere i framework e i driver di GPU preinstallati.

Funzionalità incluse nella VM per l'analisi scientifica dei dati

La macchina virtuale per l'analisi scientifica dei dati ha già installati e configurati numerosi strumenti comuni per l'analisi scientifica dei dati e l'apprendimento avanzato. Include inoltre strumenti che semplificano l'uso di vari prodotti di Azure per l'analisi e per i dati. È possibile esplorare e creare modelli predittivi in set di dati su larga scala usando Microsoft R Server o SQL Server 2016. Sono inclusi anche una serie di altri strumenti della community open source e di Microsoft, nonché esempi di codice e blocchi appunti. La tabella seguente indica in modo dettagliato e confronta i componenti principali inclusi nelle edizioni per Windows e Linux della macchina virtuale per l'analisi scientifica dei dati.

Strumento Edizione per Windows Edizione per Linux
Microsoft R Open con i pacchetti più diffusi pre-installati S S
Microsoft R Server Developer Edition include
    * ScaleR parallelo e framework R distribuito ad alte prestazioni
    * MicrosoftML: nuovi algoritmi ML all'avanguardia da Microsoft
    * Operazionalizzazione R
S S
(MicrosoftML non ancora disponibile)
Microsoft Office Pro-Plus con attivazione condivisa - Excel, Word e PowerPoint S N
Anaconda Python 2.7, 3.5 con i pacchetti più diffusi pre-installati S S
JuliaPro con i pacchetti più diffusi pre-installati per il linguaggio di programmazione Julia S S
Database relazionali SQL Server 2016 SP1
Developer Edition
PostgreSQL
Strumenti del database * SQL Server Management Studio
* SQL Server Integration Services
* bcp, sqlcmd
* driver di ODBC/JDBC
* SQuirreL SQL (strumento di query),
* bcp, sqlcmd
* driver di ODBC/JDBC
Analisi database scalabile con SQL Server R services S N
Jupyter Notebook Server con i kernel seguenti, S S
    * R S S
    * Python 2.7 & 3.5 S S
    * Julia S S
    * PySpark N S
    * Sparkmagic N Y (soltanto Ubuntu)
    * SparkR N S
JupyterHub (server notebook multiutente) N S
Strumenti di sviluppo, editor di codice e IDE
    * Visual Studio 2017 (Community Edition) >con plug-in Git, Azure HDInsight (Hadoop), Data Lake, SQL Server Data Tools, Node.js, Python e R Tools per Visual Studio (RTVS) S N
    * Visual Studio Code S S
    * RStudio Desktop S S
    * RStudio Server N S
    * PyCharm N S
    * Atom N S
    * Juno (Julia IDE) S S
    * Vim ed Emacs S S
    * Git e GitBash S S
    * OpenJDK S S
    * .Net Framework S N
PowerBI Desktop S N
SDK per accedere alla suite di servizi di Cortana Intelligence e di Azure S S
Strumenti di gestione e spostamento dati
    * Azure Storage Explorer S S
    * Interfaccia della riga di comando di Azure S S
    * Azure Powershell S N
    * Azcopy S N
    * Adlcopy(Azure Data Lake Storage) S N
    * Strumento di migrazione dei dati DocDB S N
    * Gateway di gestione dati di Microsoft: spostare i dati tra posizione locale e cloud S N
    * Utilità della riga di comando Unix/Linux S S
Apache Drill per l'esplorazione dei dati S S
Strumenti di Machine Learning
    *- Integrazione con Azure Machine Learning (R, Python) S S
    * Xgboost S S
    * Vowpal Wabbit S S
    * Weka S S
    * Rattle S S
    * LightGBM N Y (soltanto Ubuntu)
    * H2O N Y (soltanto Ubuntu)
Strumenti di apprendimento avanzato basati sulla GPU Edizione Windows Server 2016 Edizione Ubuntu
    * Microsoft Cognitive Toolkit (CNTK) S S
    * Tensorflow S S
    * MXNet S S
    * Caffe & Caffe2 N S
    * Torch N S
    * Theano N S
    * Keras N S
    * NVidia Digits N S
    * Driver Nvidia, CUDA, CUDNN S S
Piattaforma Big Data (soltanto Devtest)
    * Spark locale indipendente N S
    * Hadoop locale (HDFS, YARN) N S

Introduzione alla VM Windows per l'analisi scientifica dei dati

  • Creare un'istanza dell'edizione Windows desiderata per la DSVM passando a

    oppure

  • Fare clic sul pulsante SCARICA ADESSO.
  • Accedere alla VM dal desktop remoto usando le credenziali specificate durante la creazione della VM.
  • Per individuare e avviare gli strumenti disponibili, fare clic sul menu Start.

Introduzione alla VM Linux per l'analisi scientifica dei dati

Passaggi successivi

Per la VM Windows per l'analisi scientifica dei dati

Per la VM Linux per l'analisi scientifica dei dati