Linux および Windows 用の Azure データ サイエンス仮想マシンの概要Introduction to Azure Data Science Virtual Machine for Linux and Windows

データ サイエンス仮想マシン (DSVM) とは、データ サイエンス専用に構築された Microsoft の Azure クラウド上にあるカスタマイズされた VM イメージです。The Data Science Virtual Machine (DSVM) is a customized VM image on Microsoft’s Azure cloud built specifically for doing data science. 多くのよく使われるデータ サイエンス ツールや他のツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。It has many popular data science and other tools pre-installed and pre-configured to jump-start building intelligent applications for advanced analytics. Windows Server と Linux で使用できます。It is available on Windows Server and Linux. Windows エディションの DSVM は、Windows Server 2016 と Windows Server 2012 で提供しています。We offer Windows edition of DSVM on Server 2016 and Server 2012. Linux エディションの DSVM は、Ubuntu 16.04 LTS と CentOS 7.4 で提供しています。We offer Linux editions of the DSVM on Ubuntu 16.04 LTS and CentOS 7.4.

このトピックは、データ サイエンス VM でできることを説明し、VM を使う主なシナリオの概要を示し、Windows および Linux バージョンで使用できる主な機能の一覧を示し、使い始める方法について説明します。This topic discusses what you can do with the Data Science VM, outlines some of the key scenarios for using the VM, itemizes the key features available on the Windows and Linux versions, and provides instructions on how to get started using them.

データ サイエンス仮想マシンでできることWhat can I do with the Data Science Virtual Machine?

Data Science Virtual Machine (DSVM) の目標は、業界を越えてすべてのスキル レベルのデータ専門家に、摩擦のない、事前に構成され、かつ完全に統合されたデータ サイエンス環境を提供することです。The goal of the Data Science Virtual Machine (DSVM) is to provide data professionals of all skill levels and across industries with a friction-free, pre-configured, and fully-integrated data science environment. 同等のワークスペースを独自にロールアウトする代わりに DSVM をプロビジョニングすることによって、インストール、構成、およびパッケージ管理プロセスにかかる数日、場合によっては "数週間" の期間を節約できます。Instead of rolling out a comparable workspace on your own, you can provision a DSVM - saving you days or even weeks on the installation, configuration, and package management processes. DSVM が割り当てられたら、直ちにデータ サイエンス プロジェクトに関する作業を開始できます。After your DSVM has been allocated, you can immediately begin working on your data science project.

データ サイエンス VM は、広範な使用シナリオで使えるように設計および構成されています。The Data Science VM is designed and configured for working with a broad range of usage scenarios. プロジェクトのニーズの変化に応じて、環境をスケールアップまたはスケールダウンできます。好みの言語を使ってデータ サイエンス タスクをプログラミングできます。他のツールをインストールし、正確なニーズに合わせてシステムをカスタマイズできます。You can scale your environment up or down as your project needs change, use your preferred language to program data science tasks and install other tools to customize the system for your exact needs.

主なシナリオKey Scenarios

ここでは、データ サイエンス VM をデプロイできる主要なシナリオをいくつか示します。This section suggests some key scenarios for which the Data Science VM can be deployed.

クラウド内の事前構成済み分析デスクトップPreconfigured analytics desktop in the cloud

データ サイエンス VM は、ローカル デスクトップを管理されたクラウド デスクトップに置き換えようと考えているデータ サイエンス チームに基準となる構成を提供します。The Data Science VM provides a baseline configuration for data science teams looking to replace their local desktops with a managed cloud desktop. この基準により、チームのすべてのデータ科学者に、実験を確認して共同作業を促進するための一貫性のあるセットアップが保証されます。This baseline ensures that all the data scientists on a team have a consistent setup with which to verify experiments and promote collaboration. また、システム管理者の負担を軽減し、高度な分析を行うために必要なさまざまなソフトウェア パッケージの評価、インストール、および管理に必要な時間を短縮することで、コストも削減できます。It also lowers costs by reducing the sysadmin burden and saving on the time needed to evaluate, install, and maintain the various software packages needed to do advanced analytics.

データ サイエンスのトレーニングと教育Data science training and education

エンタープライズでデータ サイエンスを教える訓練と教育の担当者は、通常、受講者が一貫したセットアップを使用でき、サンプルが予測どおりに動作するように、仮想マシン イメージを提供します。Enterprise trainers and educators that teach data science classes usually provide a virtual machine image to ensure that their students have a consistent setup and that the samples work predictably. データ サイエンス VM は、サポートと非互換性の問題を軽減する一貫したセットアップでオンデマンドの環境を作成します。The Data Science VM creates an on-demand environment with a consistent setup that eases the support and incompatibility challenges. このような環境を頻繁に構築する必要がある場合 (特に短期間のトレーニング クラスの場合)、非常にメリットがあります。Cases where these environments need to be built frequently, especially for shorter training classes, benefit substantially.

大規模なプロジェクトのためのオンデマンドで柔軟な容量On-demand elastic capacity for large-scale projects

データ サイエンスのハッカーソンや競技または大規模なデータ モデリングと探索では、スケールアウトしたハードウェア容量が通常は短期間に必要になります。Data science hackathons/competitions or large-scale data modeling and exploration require scaled out hardware capacity, typically for short duration. データ サイエンス VM は、高性能コンピューティング リソースを実行する必要がある実験を可能にするスケールアウトされたサーバー上で、必要に応じて迅速にデータ サイエンス環境を複製できます。The Data Science VM can help replicate the data science environment quickly on demand, on scaled out servers that allow experiments requiring high-powered computing resources to be run.

短期的な実験と評価Short-term experimentation and evaluation

データ サイエンス VM は、Microsoft ML Server、SQL Server、Visual Studio ツール、Jupyter、ディープ ラーニング/ML ツールキット、およびコミュニティで人気のあるセットアップ作業が最小限の新しいツールなど、ツールの学習と評価のために使用できます。The Data Science VM can be used to evaluate or learn tools such as Microsoft ML Server, SQL Server, Visual Studio tools, Jupyter, deep learning / ML toolkits, and new tools popular in the community with minimal setup effort. Data Science VM は迅速に設定できるので、公開された実験の複製、デモの実行、オンライン セッションでのチュートリアルの実施、会議チュートリアルなど、他の短期的な使用シナリオに適用できます。Since the Data Science VM can be set up quickly, it can be applied in other short-term usage scenarios like replicating published experiments, executing demos, following walkthroughs in online sessions and conference tutorials.

ディープ ラーニングDeep learning

Data Science VM は、GPU (グラフィック処理装置) ベースのハードウェア上でディープ ラーニング アルゴリズムを使用するトレーニング モデルに使用できます。The data science VM can be used for training models using deep learning algorithms on GPU (Graphics processing units) based hardware. DSVM では、Azure クラウドの VM スケーリング機能を利用すると、必要に応じてクラウド上で GPU ベースのハードウェアを使用できます。Utilizing VM scaling capabilities of Azure cloud, DSVM helps you use GPU-based hardware on the cloud as per need. 同じ OS ディスクを保持しつつ、大規模モデルをトレーニングするときまたは高速計算が必要なときに GPU ベースの VM に切り替えることができます。One can switch to a GPU-based VM when training large models or need high-speed computations while keeping the same OS disk. Windows Server 2016 エディションの DSVM には、GPU ドライバー、フレームワーク、および GPU バージョンのディープ ラーニング フレームワークが事前インストールされています。The Windows Server 2016 edition of DSVM comes pre-installed with GPU drivers, frameworks, and GPU versions of deep learning frameworks. Linux エディションでは、GPU でのディープ ラーニングは、CentOS と Ubuntu DSVM の両方で可能です。On the Linux edition, deep learning on GPU is enabled on both the CentOS and Ubuntu DSVMs. Data Science VM の Ubuntu、CentOS、または Windows 2016 エディションは GPU ベースでない Azure 仮想マシンにデプロイできます。その場合、すべてのディープ ラーニング フレームワークは CPU モードにフォールバックします。You can deploy the Ubuntu, CentOS, or Windows 2016 edition of Data Science VM to a non GPU-based Azure virtual machine in which case all the deep learning frameworks will fall back to the CPU mode.

データ サイエンス VM に含まれるものWhat's included in the Data Science VM?

データ サイエンス仮想マシンには、多くの一般的なデータ サイエンスおよびディープ ラーニング ツールが既にインストールされ、構成されています。The Data Science Virtual Machine has many popular data science and deep learning tools already installed and configured. また、Microsoft ML Server (R、Python) などの各種の Azure データおよび分析製品を簡単に操作して予測モデルを構築したり、SQL Server 2017 を使用して大規模なデータ セットを探査したりするためのツールも含まれています。It also includes tools that make it easy to work with various Azure data and analytics products such as, Microsoft ML Server (R, Python) for building predictive models or SQL Server 2017 for large-scale data set exploration. オープン ソース コミュニティや Microsoft の他のツールのホスト、およびサンプル コードとノートブックも含まれます。A host of other tools from the open source community and from Microsoft are also included, as well as sample code and notebooks. 次の表は、データ サイエンス仮想マシンの Windows エディションと Linux エディションに含まれる主要なコンポーネントを列記して比較したものです。The following table itemizes and compares the main components included in the Windows and Linux editions of the Data Science Virtual Machine.

ツールTool Windows エディションWindows Edition Linux エディションLinux Edition
人気のパッケージがプレインストールされた Microsoft R OpenMicrosoft R Open with popular packages pre-installed YY YY
Microsoft ML Server (R、Python) Developer エディションには次のものが含まれます。Microsoft ML Server (R, Python) Developer Edition includes,
    * RevoScaleR/revoscalepy の並列および分散型の高機能フレームワーク (R および Python)    * RevoScaleR/revoscalepy parallel and distributed high-performance framework (R & Python)
    * MicrosoftML - Microsoft の新しい最先端 ML アルゴリズム    * MicrosoftML - New state-of-the-art ML algorithms from Microsoft
    * R および Python の運用化    * R and Python Operationalization
YY YY
Microsoft Office Pro-Plus (共有アクティベーション付き) - Excel、Word および PowerPointMicrosoft Office Pro-Plus with shared activation - Excel, Word and PowerPoint YY NN
人気のパッケージがプレインストールされた Anaconda Python 2.7、3.5Anaconda Python 2.7, 3.5 with popular packages pre-installed YY YY
Julia 言語用の人気のパッケージがプレインストールされた JuliaProJuliaPro with popular packages for Julia language pre-installed YY YY
リレーショナル データベースRelational Databases SQL Server 2017SQL Server 2017
Developer エディションDeveloper Edition
PostgreSQL (CentOS)、PostgreSQL (CentOS),
SQL Server 2017SQL Server 2017
Developer エディション (Ubuntu)Developer Edition (Ubuntu)
データベース ツールDatabase tools * SQL Server Management Studio* SQL Server Management Studio
* SQL Server Integration Services* SQL Server Integration Services
* bcp、sqlcmd* bcp, sqlcmd
* ODBC/JDBC ドライバー* ODBC/JDBC drivers
* SQuirreL SQL (クエリ ツール)、* SQuirreL SQL (querying tool),
* bcp、sqlcmd* bcp, sqlcmd
* ODBC/JDBC ドライバー* ODBC/JDBC drivers
SQL Server ML サービス (R、Python) によるスケーラブルなデータベース内分析Scalable in-database analytics with SQL Server ML services (R, Python) YY NN
次のカーネルを備えた Jupyter Notebook ServerJupyter Notebook Server with following kernels, YY YY
    * R    * R YY YY
    * Python    * Python YY YY
    * Julia    * Julia YY YY
    * PySpark    * PySpark YY YY
    * Sparkmagic    * Sparkmagic NN Y (Ubuntu のみ)Y (Ubuntu only)
    * SparkR    * SparkR NN YY
JupyterHub (マルチ ユーザー Notebook サーバー)JupyterHub (Multi-user notebook server) NN YY
JupyterLab (マルチ ユーザー Notebook サーバー)JupyterLab (Multi-user notebook server) NN Y (Ubuntu のみ)Y (Ubuntu only)
開発ツール、IDE、およびコード エディターDevelopment tools, IDEs and Code editors
    * Git プラグイン、Azure HDInsight (Hadoop)、Data Lake、SQL Server データ ツール、Node.jsPython、および R Tools for Visual Studio (RTVS)を備えた Visual Studio 2017 (Community Edition)    * Visual Studio 2017 (Community Edition) with Git Plugin, Azure HDInsight (Hadoop), Data Lake, SQL Server Data tools, Node.js, Python, and R Tools for Visual Studio (RTVS) YY NN
    * Visual Studio Code    * Visual Studio Code YY YY
    * RStudio Desktop    * RStudio Desktop YY YY
    * RStudio Server    * RStudio Server NN YY
    * PyCharm Community Edition    * PyCharm Community Edition NN YY
    * Atom    * Atom NN YY
    * Juno (Julia IDE)    * Juno (Julia IDE) YY YY
    * Vim および Emacs    * Vim and Emacs YY YY
    * Git および GitBash    * Git and GitBash YY YY
    * OpenJDK    * OpenJDK YY YY
    * .Net Framework    * .Net Framework YY NN
PowerBI DesktopPowerBI Desktop YY NN
Azure および Cortana Intelligence Suite のサービスにアクセスするための SDKSDKs to access Azure and Cortana Intelligence Suite of services YY YY
データ移動および管理ツールData Movement and management Tools
    * Azure Storage Explorer    * Azure Storage Explorer YY YY
    * Azure CLI    * Azure CLI YY YY
    * Azure Powershell    * Azure Powershell YY NN
    * Azcopy    * Azcopy YY NN
    * Blob FUSE ドライバー    * Blob FUSE driver NN YY
    * Adlcopy(Azure Data Lake Storage)    * Adlcopy(Azure Data Lake Storage) YY NN
    * DocDB データ移行ツール    * DocDB Data Migration Tool YY NN
    * Microsoft Data Management Gateway: オンプレミスとクラウドの間でのデータの移動    * Microsoft Data Management Gateway: Move data between OnPrem and Cloud YY NN
    * Unix/Linux コマンド ライン ユーティリティ    * Unix/Linux Command-Line Utilities YY YY
データ探索用 Apache DrillApache Drill for Data exploration YY YY
Machine Learning ツールMachine Learning Tools
    * Azure Machine Learning との統合 (R、Python)    * Integration with Azure Machine Learning (R, Python) YY YY
    * Xgboost    * Xgboost YY YY
    * Vowpal Wabbit    * Vowpal Wabbit YY YY
    * Weka    * Weka YY YY
    * Rattle    * Rattle YY YY
    * LightGBM    * LightGBM NN Y (Ubuntu のみ)Y (Ubuntu only)
    * CatBoost    * CatBoost NN Y (Ubuntu のみ)Y (Ubuntu only)
    * H2OSparkling Water    * H2O, Sparkling Water NN Y (Ubuntu のみ)Y (Ubuntu only)
ディープ ラーニング ツールDeep Learning Tools
すべてのツールは GPU または CPU で動作しますAll tools will work on a GPU or CPU
    * Microsoft Cognitive Toolkit (CNTK) (Windows 2016)    * Microsoft Cognitive Toolkit (CNTK) (Windows 2016) YY YY
    * TensorFlow    * TensorFlow Y (Windows 2016)Y (Windows 2016) YY
    * Horovod    * Horovod NN Y (Ubuntu)Y (Ubuntu)
    * MXNet    * MXNet Y (Windows 2016)Y (Windows 2016) YY
    * Caffe および Caffe2    * Caffe & Caffe2 NN YY
    * Chainer    * Chainer NN YY
    * Torch    * Torch NN YY
    * Theano    * Theano NN YY
    * Keras    * Keras NN YY
    * PyTorch    * PyTorch NN YY
    * NVidia Digits    * NVidia Digits NN YY
    * MXNet モデル サーバー    * MXNet Model Server NN YY
    * TensorFlow Serving    * TensorFlow Serving NN YY
    * TensorRT    * TensorRT NN YY
    * CUDA、cuDNN、NVIDIA Driver    * CUDA, cuDNN, NVIDIA Driver YY YY
ビッグ データ プラットフォーム (Devtest のみ)Big Data Platform (Devtest only)
    * ローカル Spark Standalone    * Local Spark Standalone YY YY
    * ローカル Hadoop (HDFS、YARN)    * Local Hadoop (HDFS, YARN) NN YY

作業開始Get started

Windows データ サイエンス VMWindows Data Science VM

Linux データ サイエンス VMLinux Data Science VM

次の手順Next steps

Azure での R 開発者向けガイドR developer's guide to Azure