Linux および Windows 用の Azure データ サイエンス仮想マシンの概要Introduction to Azure Data Science Virtual Machine for Linux and Windows

データ サイエンス仮想マシン (DSVM) とは、データ サイエンス専用に構築された Microsoft の Azure クラウド上にあるカスタマイズされた VM イメージです。The Data Science Virtual Machine (DSVM) is a customized VM image on Microsoft’s Azure cloud built specifically for doing data science. 多くのよく使われるデータ サイエンス ツールや他のツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。It has many popular data science and other tools pre-installed and pre-configured to jump-start building intelligent applications for advanced analytics. Windows Server と Linux で使用できます。It is available on Windows Server and Linux. Windows エディションの DSVM は、Windows Server 2016 と Windows Server 2012 で提供しています。We offer Windows edition of DSVM on Server 2016 and Server 2012. Linux エディションの DSVM は、Ubuntu 16.04 LTS と CentOS 7.4 で提供しています。We offer Linux editions of the DSVM on Ubuntu 16.04 LTS and CentOS 7.4.

この記事では、Data Science VM でできることについて説明します。This article discusses what you can do with the Data Science VM. VM の使用に関する主要なシナリオの概要を説明し、Windows および Linux のバージョンで使用できる主な機能を列挙します。It outlines some of the key scenarios for using the VM and itemizes the key features available on the Windows and Linux versions. また、この記事では、それらの使用を開始する手順についても説明します。The article also provides instructions on how to get started using them.

データ サイエンス仮想マシンでできることWhat can I do with the Data Science Virtual Machine?

Data Science Virtual Machine (DSVM) の目標は、業界を越えてすべてのスキル レベルのデータ専門家に、摩擦のない、事前に構成され、かつ完全に統合されたデータ サイエンス環境を提供することです。The goal of the Data Science Virtual Machine (DSVM) is to provide data professionals of all skill levels and across industries with a friction-free, pre-configured, and fully-integrated data science environment. 同等のワークスペースを独自にロールアウトする代わりに DSVM をプロビジョニングすることによって、インストール、構成、およびパッケージ管理プロセスにかかる数日、場合によっては "数週間" の期間を節約できます。Instead of rolling out a comparable workspace on your own, you can provision a DSVM - saving you days or even weeks on the installation, configuration, and package management processes. DSVM が割り当てられたら、直ちにデータ サイエンス プロジェクトに関する作業を開始できます。After your DSVM has been allocated, you can immediately begin working on your data science project.

データ サイエンス VM は、広範な使用シナリオで使えるように設計および構成されています。The Data Science VM is designed and configured for working with a broad range of usage scenarios. 環境は、プロジェクトの要件の変化に応じてスケールアップまたはスケールダウンできます。You can scale your environment up or down as your project requirements change. また、好みの言語を使ってデータ サイエンス タスクをプログラミングしたり、他のツールをインストールして正確なニーズに合わせてシステムをカスタマイズしたりすることもできます。You can also use your preferred language to program data science tasks and install other tools to customize the system for your exact needs.

主なシナリオKey Scenarios

ここでは、データ サイエンス VM をデプロイできる主要なシナリオをいくつか示します。This section suggests some key scenarios for which the Data Science VM can be deployed.

クラウド内の事前構成済み分析デスクトップPreconfigured analytics desktop in the cloud

データ サイエンス VM は、ローカル デスクトップを管理されたクラウド デスクトップに置き換えようと考えているデータ サイエンス チームに基準となる構成を提供します。The Data Science VM provides a baseline configuration for data science teams looking to replace their local desktops with a managed cloud desktop. この基準により、チームのすべてのデータ科学者に、実験を確認して共同作業を促進するための一貫性のあるセットアップが保証されます。This baseline ensures that all the data scientists on a team have a consistent setup with which to verify experiments and promote collaboration. また、システム管理者の負担が軽減されるためコストも低減されます。It also lowers costs by reducing the sysadmin burden. この負担軽減により、高度な分析を行うために必要なさまざまなソフトウェア パッケージの評価、インストール、および保守に必要な時間が節約されます。This burden reduction saves on time needed to evaluate, install, and maintain the various software packages needed to do advanced analytics.

データ サイエンスのトレーニングと教育Data science training and education

データ サイエンスのクラスを教える企業のトレーナーや教育担当者は、通常、仮想マシン イメージを提供します。Enterprise trainers and educators that teach data science classes usually provide a virtual machine image. 彼らは、受講者が一貫したセットアップを行い、サンプルが予想どおりに動作するように、そのイメージを提供します。They provide the image to ensure that their students have a consistent setup and that the samples work predictably. データ サイエンス VM は、サポートと非互換性の問題を軽減する一貫したセットアップでオンデマンドの環境を作成します。The Data Science VM creates an on-demand environment with a consistent setup that eases the support and incompatibility challenges. このような環境を頻繁に構築する必要がある場合 (特に短期間のトレーニング クラスの場合)、非常にメリットがあります。Cases where these environments need to be built frequently, especially for shorter training classes, benefit substantially.

大規模なプロジェクトのためのオンデマンドで柔軟な容量On-demand elastic capacity for large-scale projects

データ サイエンスのハッカーソンや競技または大規模なデータ モデリングと探索では、スケールアウトしたハードウェア容量が通常は短期間に必要になります。Data science hackathons/competitions or large-scale data modeling and exploration require scaled out hardware capacity, typically for short duration. Data Science VM は、高性能コンピューティング リソースが実行される実験を可能にするスケールアウトされたサーバー上で、必要に応じて迅速にデータ サイエンス環境を複製する際に役立ちます。The Data Science VM can help replicate the data science environment quickly on demand, on scaled out servers that allow experiments that high-powered computing resources to be run.

Azure Notebooks のカスタム コンピューティング能力Custom compute power for Azure Notebooks

Azure Notebooks は、インストールせずに、クラウドで Jupyter ノートブックを開発、実行、および共有するための無料のホストされるサービスです。Azure Notebooks is a free hosted service to develop, run, and share Jupyter notebooks in the cloud with no installation. ただし、無料のサービス レベルは 4GB のメモリと 1GB のデータに制限されています。The free service tier, however, is limited to 4GB of memory and 1GB of data. すべての制限を解放するには、その後 Notebooks プロジェクトを Data Science VM か、または Jupyter サーバーを実行している他の任意の VM に接続できます。To release all limits, you can then attach a Notebooks project to a Data Science VM or any other VM running Jupyter server. Azure Active Directory を使用してアカウント (会社のアカウントなど) で Azure Notebooks にサインインすると、Notebooks には、そのアカウントに関連付けられたいずれかのサブスクリプションの Data Science VM が自動的に表示されます。If you sign into Azure Notebooks with an account using Azure Active Directory (such as a corporate account), Notebooks automatically shows Data Science VMs in any subscriptions associated with that account. 詳細については、「プロジェクトの管理と構成」の「Compute tier (コンピューティング レベル)」を参照してください。For more information, see Manage and configure projects - Compute tier.

短期的な実験と評価Short-term experimentation and evaluation

データ サイエンス VM は、Microsoft ML Server、SQL Server、Visual Studio ツール、Jupyter、ディープ ラーニング/ML ツールキット、およびコミュニティで人気のあるセットアップ作業が最小限の新しいツールなど、ツールの学習と評価のために使用できます。The Data Science VM can be used to evaluate or learn tools such as Microsoft ML Server, SQL Server, Visual Studio tools, Jupyter, deep learning / ML toolkits, and new tools popular in the community with minimal setup effort. Data Science VM は短時間で設定できるため、他の短期的な使用シナリオに適用できます。Since the Data Science VM can be set up quickly, it can be applied in other short-term usage scenarios. これらのシナリオには、公開された実験の複製、デモの実行、オンライン セッションでのチュートリアルの実施、会議チュートリアルが含まれます。These scenarios include replicating published experiments, executing demos, following walkthroughs in online sessions and conference tutorials.

ディープ ラーニングDeep learning

Data Science VM は、GPU (グラフィック処理装置) ベースのハードウェア上でディープ ラーニング アルゴリズムを使用するトレーニング モデルに使用できます。The data science VM can be used for training models using deep learning algorithms on GPU (Graphics processing units) based hardware. DSVM では、Azure クラウドの VM スケーリング機能を利用すると、必要に応じてクラウド上で GPU ベースのハードウェアを使用できます。Utilizing VM scaling capabilities of Azure cloud, DSVM helps you use GPU-based hardware on the cloud as per need. 同じ OS ディスクを保持しつつ、大規模モデルをトレーニングするときまたは高速計算が必要なときに GPU ベースの VM に切り替えることができます。One can switch to a GPU-based VM when training large models or need high-speed computations while keeping the same OS disk. Windows Server 2016 エディションの DSVM には、GPU ドライバー、フレームワーク、および GPU バージョンのディープ ラーニング フレームワークが事前インストールされています。The Windows Server 2016 edition of DSVM comes pre-installed with GPU drivers, frameworks, and GPU versions of deep learning frameworks. Linux エディションでは、GPU でのディープ ラーニングは、CentOS と Ubuntu DSVM の両方で可能です。On the Linux edition, deep learning on GPU is enabled on both the CentOS and Ubuntu DSVMs. Data Science VM の Ubuntu、CentOS、または Windows 2016 エディションは GPU ベース以外の Azure 仮想マシンにデプロイできます。You can deploy the Ubuntu, CentOS, or Windows 2016 edition of Data Science VM to a non GPU-based Azure virtual machine. この場合、すべてのディープ ラーニング フレームワークは CPU モードにフォールバックはします。In this case, all the deep learning frameworks will fall back to the CPU mode.

データ サイエンス VM に含まれるものWhat's included in the Data Science VM?

データ サイエンス仮想マシンには、多くの一般的なデータ サイエンスおよびディープ ラーニング ツールが既にインストールされ、構成されています。The Data Science Virtual Machine has many popular data science and deep learning tools already installed and configured. また、Microsoft ML Server (R、Python) などの各種の Azure データおよび分析製品を簡単に操作して予測モデルを構築したり、SQL Server 2017 を使用して大規模なデータ セットを探査したりするためのツールも含まれています。It also includes tools that make it easy to work with various Azure data and analytics products such as, Microsoft ML Server (R, Python) for building predictive models or SQL Server 2017 for large-scale data set exploration. この Data Science VM には、オープンソース コミュニティや Microsoft の他のツールのホストのほか、サンプル コードやノートブックも含まれます。The Data Science VM includes a host of other tools from the open-source community and from Microsoft, as well as sample code and notebooks. 次の表は、データ サイエンス仮想マシンの Windows エディションと Linux エディションに含まれる主要なコンポーネントを列記して比較したものです。The following table itemizes and compares the main components included in the Windows and Linux editions of the Data Science Virtual Machine.

ツールTool Windows エディションWindows Edition Linux エディションLinux Edition
人気のパッケージがプレインストールされた Microsoft R OpenMicrosoft R Open with popular packages pre-installed YY YY
Microsoft ML Server (R、Python) Developer エディションには次のものが含まれます。Microsoft ML Server (R, Python) Developer Edition includes,
    * RevoScaleR/revoscalepy の並列および分散型の高機能フレームワーク (R および Python)    * RevoScaleR/revoscalepy parallel and distributed high-performance framework (R & Python)
    * MicrosoftML - Microsoft の新しい最先端 ML アルゴリズム    * MicrosoftML - New state-of-the-art ML algorithms from Microsoft
    * R および Python の運用化    * R and Python Operationalization
YY YY
Microsoft Office Pro-Plus (共有アクティベーション付き) - Excel、Word、PowerPointMicrosoft Office Pro-Plus with shared activation - Excel, Word, and PowerPoint YY NN
人気のパッケージがプレインストールされた Anaconda Python 2.7、3.5Anaconda Python 2.7, 3.5 with popular packages pre-installed YY YY
Julia 言語用の人気のパッケージがプレインストールされた JuliaProJuliaPro with popular packages for Julia language pre-installed YY YY
リレーショナル データベースRelational Databases SQL Server 2017SQL Server 2017
Developer エディションDeveloper Edition
PostgreSQL (CentOS)、PostgreSQL (CentOS),
SQL Server 2017SQL Server 2017
Developer エディション (Ubuntu)Developer Edition (Ubuntu)
データベース ツールDatabase tools * SQL Server Management Studio* SQL Server Management Studio
* SQL Server Integration Services* SQL Server Integration Services
* bcp、sqlcmd* bcp, sqlcmd
* ODBC/JDBC ドライバー* ODBC/JDBC drivers
* SQuirreL SQL (クエリ ツール)、* SQuirreL SQL (querying tool),
* bcp、sqlcmd* bcp, sqlcmd
* ODBC/JDBC ドライバー* ODBC/JDBC drivers
SQL Server ML サービス (R、Python) によるスケーラブルなデータベース内分析Scalable in-database analytics with SQL Server ML services (R, Python) YY NN
次のカーネルを備えた Jupyter Notebook ServerJupyter Notebook Server with following kernels, YY YY
    * R    * R YY YY
    * Python    * Python YY YY
    * Julia    * Julia YY YY
    * PySpark    * PySpark YY YY
    * Sparkmagic    * Sparkmagic NN Y (Ubuntu のみ)Y (Ubuntu only)
    * SparkR    * SparkR NN YY
JupyterHub (マルチ ユーザー Notebook サーバー)JupyterHub (Multi-user notebook server) NN YY
JupyterLab (マルチ ユーザー Notebook サーバー)JupyterLab (Multi-user notebook server) NN Y (Ubuntu のみ)Y (Ubuntu only)
開発ツール、IDE、コード エディターDevelopment tools, IDEs, and Code editors
    * Git プラグイン、Azure HDInsight (Hadoop)、Data Lake、SQL Server Data Tools、Node.jsPython、および R Tools for Visual Studio (RTVS) を備えた Visual Studio 2019 (Community Edition)    * Visual Studio 2019 (Community Edition) with Git Plugin, Azure HDInsight (Hadoop), Data Lake, SQL Server Data tools, Node.js, Python, and R Tools for Visual Studio (RTVS) YY NN
    * Visual Studio Code    * Visual Studio Code YY YY
    * RStudio Desktop    * RStudio Desktop YY YY
    * RStudio Server    * RStudio Server NN YY
    * PyCharm Community Edition    * PyCharm Community Edition NN YY
    * Atom    * Atom NN YY
    * Juno (Julia IDE)    * Juno (Julia IDE) YY YY
    * Vim および Emacs    * Vim and Emacs YY YY
    * Git および GitBash    * Git and GitBash YY YY
    * OpenJDK    * OpenJDK YY YY
    * .NET Framework    * .NET Framework YY NN
Power BI DesktopPower BI Desktop YY NN
Azure および Cortana Intelligence Suite のサービスにアクセスするための SDKSDKs to access Azure and Cortana Intelligence Suite of services YY YY
データ移動および管理ツールData Movement and management Tools
    * Azure Storage Explorer    * Azure Storage Explorer YY YY
    * Azure CLI    * Azure CLI YY YY
    * Azure Powershell    * Azure Powershell YY NN
    * Azcopy    * Azcopy YY NN
    * Blob FUSE ドライバー    * Blob FUSE driver NN YY
    * Adlcopy(Azure Data Lake Storage)    * Adlcopy(Azure Data Lake Storage) YY NN
    * DocDB データ移行ツール    * DocDB Data Migration Tool YY NN
    * Microsoft データ管理ゲートウェイ: オンプレミスとクラウドの間におけるデータの移動    * Microsoft Data Management Gateway: Move data between OnPrem and Cloud YY NN
    * Unix/Linux コマンド ライン ユーティリティ    * Unix/Linux Command-Line Utilities YY YY
データ探索用 Apache DrillApache Drill for Data exploration YY YY
Machine Learning ツールMachine Learning Tools
    * Azure Machine Learning との統合 (R、Python)    * Integration with Azure Machine Learning (R, Python) YY YY
    * Xgboost    * Xgboost YY YY
    * Vowpal Wabbit    * Vowpal Wabbit YY YY
    * Weka    * Weka YY YY
    * Rattle    * Rattle YY YY
    * LightGBM    * LightGBM NN Y (Ubuntu のみ)Y (Ubuntu only)
    * CatBoost    * CatBoost NN Y (Ubuntu のみ)Y (Ubuntu only)
    * H2OSparkling Water    * H2O, Sparkling Water NN Y (Ubuntu のみ)Y (Ubuntu only)
ディープ ラーニング ツールDeep Learning Tools
すべてのツールは GPU または CPU で動作しますAll tools will work on a GPU or CPU
    * Microsoft Cognitive Toolkit (CNTK) (Windows 2016)    * Microsoft Cognitive Toolkit (CNTK) (Windows 2016) YY YY
    * TensorFlow    * TensorFlow Y (Windows 2016)Y (Windows 2016) YY
    * Horovod    * Horovod NN Y (Ubuntu)Y (Ubuntu)
    * MXNet    * MXNet Y (Windows 2016)Y (Windows 2016) YY
    * Caffe および Caffe2    * Caffe & Caffe2 NN YY
    * Chainer    * Chainer NN YY
    * Torch    * Torch NN YY
    * Theano    * Theano NN YY
    * Keras    * Keras NN YY
    * PyTorch    * PyTorch NN YY
    * NVidia Digits    * NVidia Digits NN YY
    * MXNet モデル サーバー    * MXNet Model Server NN YY
    * TensorFlow Serving    * TensorFlow Serving NN YY
    * TensorRT    * TensorRT NN YY
    * CUDA、cuDNN、NVIDIA Driver    * CUDA, cuDNN, NVIDIA Driver YY YY
ビッグ データ プラットフォーム (Devtest のみ)Big Data Platform (Devtest only)
    * ローカル Spark Standalone    * Local Spark Standalone YY YY
    * ローカル Hadoop (HDFS、YARN)    * Local Hadoop (HDFS, YARN) NN YY

作業開始Get started

Windows データ サイエンス VMWindows Data Science VM

Linux データ サイエンス VMLinux Data Science VM

次の手順Next steps

Azure での R 開発者向けガイドR developer's guide to Azure