チュートリアル 1: あやめの分類 - データを準備するTutorial 1: Classify Iris - Preparing the data

注意

この記事は非推奨となっています。This article is deprecated. このサービスの以前のバージョンについては、サポートを順次終了いたします。Support for earlier versions of this service will end incrementally. サポートのタイムラインをご確認くださいView the support timeline. こちらのクイック スタートを参考に、最新バージョンの使用を開始してください。Start using the latest version with this quickstart.

Azure Machine Learning サービス (プレビュー) は、データ サイエンスと高度な分析をエンドツーエンドで支援する統合ソリューションです。データの準備、実験の開発、モデルのデプロイをクラウド スケールで行うプロフェッショナルなデータ サイエンティストを対象としています。Azure Machine Learning service (preview) is an integrated, end-to-end data science and advanced analytics solution for professional data scientists to prepare data, develop experiments, and deploy models at cloud scale.

このチュートリアルは、3 部構成のシリーズのパート 1 になります。This tutorial is part one of a three-part series. このチュートリアルでは、Azure Machine Learning サービス (プレビュー) の基礎を確認し、以下の方法について説明します。In this tutorial, you walk through the basics of Azure Machine Learning service (preview) and learn how to:

  • Azure Machine Learning Workbench でプロジェクトを作成するCreate a project in Azure Machine Learning Workbench
  • データ準備パッケージを作成するCreate a data preparation package
  • データ準備パッケージを呼び出す Python/PySpark コードを生成するGenerate Python/PySpark code to invoke a data preparation package

このチュートリアルでは、経時的な変化を伴わないあやめデータ セットを使用します。This tutorial uses the timeless Iris flower data set.

重要

Azure Machine Learning サービスは現在プレビューの段階です。Azure Machine Learning service is currently in preview. プレビュー版は、追加使用条件に同意することを条件に使用できます。Previews are made available to you on the condition that you agree to the supplemental terms of use. この機能の一部の側面は、一般公開 (GA) 前に変更される可能性があります。Some aspects of this feature may change prior to general availability (GA).

前提条件Prerequisites

Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。If you don't have an Azure subscription, create a free account before you begin.

このチュートリアルを完了するには、以下が必要です。To complete this tutorial, you must have:

  • Azure Machine Learning 実験アカウントAn Azure Machine Learning Experimentation account
  • Azure Machine Learning Workbench のインストールAzure Machine Learning Workbench installed

これらの前提条件をまだ満たしていない場合は、インストールと基本操作のクイックスタートの手順に従ってアカウントを設定し、Azure Machine Learning Workbench アプリケーションをインストールしてください。If you don't have these prerequisites already, follow the steps in the Quickstart: Install and start article to set up your accounts and install the Azure Machine Learning Workbench application.

Workbench で新しいプロジェクトを作成するCreate a new project in Workbench

インストールと基本操作のクイック スタートの記事の手順を終え、このプロジェクトが既に存在する場合は、次のセクションにスキップしてかまいません。If you followed the steps in the Quickstart: Install and start article you should already have this project and can skip to the next section.

  1. Azure Machine Learning Workbench アプリを開き、必要に応じてログインします。Open the Azure Machine Learning Workbench app, and log in if needed.

    • Windows の場合は、Machine Learning Workbench のデスクトップ ショートカットを使用して起動します。On Windows, launch it using the Machine Learning Workbench desktop shortcut.
    • macOS の場合は、Launchpad で [Azure ML Workbench] を選択します。On macOS, select Azure ML Workbench in Launchpad.
  2. [プロジェクト] ウィンドウの正符号 (+) を選択し、[新しいプロジェクト] を選択します。Select the plus sign (+) in the PROJECTS pane and choose New Project.

    新しいワークスペース

  3. フォームの各フィールドに必要事項を入力し、[作成] ボタンを選択すると、Workbench で新しいプロジェクトが作成されます。Fill out of the form fields and select the Create button to create a new project in the Workbench.

    フィールドField チュートリアルの推奨値Suggested value for tutorial 説明Description
    プロジェクト名Project name myIrismyIris アカウントを識別する一意の名前を入力します。Enter a unique name that identifies your account. 独自の名前を使用できるほか、実験を識別するうえで最適な部門またはプロジェクトの名前を使用できます。You can use your own name, or a departmental or project name that best identifies the experiment. この名前は 2 ~ 32 文字で指定します。The name should be 2 to 32 characters. これには、英数字とダッシュ (-) 文字のみを使用してください。It should include only alphanumeric characters and the dash (-) character.
    プロジェクト ディレクトリProject directory c:\Temp\c:\Temp\ プロジェクトの作成先となるディレクトリを指定します。Specify the directory in which the project is created.
    プロジェクトの説明Project description "空白のまま"leave blank 省略可能なフィールド。プロジェクトの説明を入力することができます。Optional field useful for describing the projects.
    Visualstudio.com の GIT リポジトリの URLVisualstudio.com GIT Repository URL "空白のまま"leave blank 省略可能なフィールド。Optional field. ソース管理とコラボレーションのために、Azure DevOps でプロジェクトを Git リポジトリに関連付けることができます。You can associate a project with a Git repository on Azure DevOps for source control and collaboration. セットアップ方法に関するページを参照してください。Learn how to set that up.
    選択したワークスペースSelected workspace IrisGarden (存在する場合)IrisGarden (if it exists) Azure Portal で実験アカウント用に作成したワークスペースを選択します。Choose a workspace that you have created for your Experimentation account in the Azure portal.
    このクイック スタートの手順に従っている場合、ワークスペースの名前は IrisGarden です。If you followed the Quickstart, you should have a workspace by the name IrisGarden. それ以外の場合は、実験アカウントの作成時に作ったワークスペースを選択してください。それ以外に使いたいワークスペースがあれば、そちらを選んでもかまいません。If not, select the one you created when you created your Experimentation account or any other you want to use.
    プロジェクト テンプレートProject template あやめの分類Classifying Iris テンプレートには、製品に習熟するうえで役立つスクリプトとデータが含まれています。Templates contain scripts and data you can use to explore the product. このクイック スタートに必要なスクリプトとデータ、そしてこのドキュメント サイトに存在する他のチュートリアルで使用するスクリプトとデータも、このテンプレートに含まれています。This template contains the scripts and data you need for this quickstart and other tutorials in this documentation site.

    新しいプロジェクト

    新しいプロジェクトが作成されて、プロジェクト ダッシュボードにそのプロジェクトが表示されます。A new project is created and the project dashboard opens with that project. この時点で、プロジェクトのホーム ページ、データ ソース、ノートブック、ソース コード ファイルを確認できます。At this point, you can explore the project home page, data sources, notebooks, and source code files.

    プロジェクトを開く

データ準備パッケージを作成するCreate a data preparation package

次に、Azure Machine Learning Workbench でデータを確認して準備を開始できます。Next, you can explore and start preparing the data in Azure Machine Learning Workbench. Workbench で実行する変換はそれぞれ、JSON 形式でローカルのデータ準備パッケージ (*.dprep ファイル) に格納されます。Each transformation you perform in Workbench is stored in a JSON format in a local data preparation package (*.dprep file). このデータ準備パッケージが、Workbench におけるデータ準備作業の主要なコンテナーとなります。This data preparation package is the primary container for your data preparation work in Workbench.

このデータ準備パッケージは、後でランタイム (ローカル C#/CoreCLR、Scala/Spark、Scala/HDI など) に渡すことができます。This data preparation package can be handed off later to a runtime, such as local-C#/CoreCLR, Scala/Spark, or Scala/HDI.

  1. フォルダー アイコンを選択してファイル ビューを開き、iris.csv を選択して、そのファイルを開きます。Select the folder icon to open the Files view, then select iris.csv to open that file.

    このファイルには、5 つの列と 50 個の行を含んだテーブルがあります。This file contains a table with 5 columns and 50 rows. 4 つの列は数値特徴列です。Four columns are numerical feature columns. 5 つ目の列は文字列ターゲット列です。The fifth column is a string target column. どの列にもヘッダー名はありません。None of the columns have header names.

    iris.csv

    注意

    プロジェクト フォルダーにはデータ ファイルを含めないでください (特に、ファイル サイズが大きい場合)。Do not include data files in your project folder, particularly when the file size is large. iris.csv データ ファイルは小さいため、デモのためにこのテンプレートに含まれていました。Because the iris.csv data file is tiny, it was included in this template for demonstration purposes. 詳細については、大きなデータ ファイルの読み取りと書き込みの方法に関するページを参照してください。For more information, see How to read and write large data files.

  2. データ ビューで、新しいデータ ソースを追加するために、プラス記号 (+) を選択します。In the Data view, select the plus sign (+) to add a new data source. [データ ソースの追加] ページが開きます。The Add Data Source page opens.

    Azure Machine Learning Workbench のデータ ビュー

  3. [テキスト ファイル (*.csv、*.json、*.txt、...)] を選択し、[次へ] をクリックします。Select Text Files(*.csv, *.json, *.txt., ...) and click Next. Azure Machine Learning Workbench のデータ ソースData Source in Azure Machine Learning Workbench

  4. iris.csv ファイルを参照して、[完了] をクリックします。Browse to the file iris.csv, and click Finish. 区切り記号やデータ型などのパラメーターには、既定値が使用されます。This will use default values for parameters such as the separator and data types.

    重要

    この演習用の現在のプロジェクト ディレクトリ内の iris.csv ファイルを必ず選択してください。Make sure you select the iris.csv file from within the current project directory for this exercise. そうしないと、以降の手順が失敗する可能性があります。Otherwise, later steps might fail.

    iris を選択する

  5. iris-1.dsource という名前の新しいファイルが作成されます。A new file named iris-1.dsource is created. サンプル プロジェクトに番号なしの iris.dsource ファイルが既に含まれているため、このファイルには "-1" が付いた一意の名前が付けられています。The file is named uniquely with "-1" because the sample project already comes with an unnumbered iris.dsource file.

    ファイルが開き、データが表示されます。The file opens, and the data is shown. 一連の列ヘッダー (Column1 から Column5) がこのデータ セットに自動的に追加されます。A series of column headers, from Column1 to Column5, is automatically added to this data set. 下部までスクロールし、データ セットの最後の行が空であることに注意してください。Scroll to the bottom and notice that the last row of the data set is empty. この行が空になっているのは、CSV ファイルに余分な改行があるためです。The row is empty because there is an extra line break in the CSV file.

    iris データ ビュー

  6. [メトリック] ボタンを選択します。Select the Metrics button. ヒストグラムが生成され、表示されます。Histograms are generated and displayed.

    [データ] ボタンを選択して、データ ビューに戻ることができます。You can switch back to the data view by selecting the Data button.

    iris データ ビュー

  7. ヒストグラムを観察します。Observe the histograms. 各列に対して統計情報の完全なセットが計算されています。A complete set of statistics has been calculated for each column.

    iris データ ビュー

  8. [準備] ボタンを選択して、データ準備パッケージの作成を開始します。Begin creating a data preparation package by selecting the Prepare button. [準備] ダイアログ ボックスが開きます。The Prepare dialog box opens.

    サンプル プロジェクトには、既定で選択される iris.dprep データ準備ファイルが含まれています。The sample project contains a iris.dprep data preparation file that is selected by default.

    iris データ ビュー

  9. ドロップダウン メニューから [+ New Data Preparation Package](+ 新しいデータ準備パッケージ) を選択して、新しいデータ準備パッケージを作成します。Create a new data preparation package by selecting + New Data Preparation Package from the drop-down menu.

    iris データ ビュー

  10. パッケージの名前に新しい値 (iris-1 を使用) を入力して、[OK] を選択します。Enter a new value for the package name (use iris-1) and then select OK.

    iris-1.dprep という名前の新しいデータ準備パッケージが作成され、データ準備エディターで開かれます。A new data preparation package named iris-1.dprep is created and opened in the data preparation editor.

    iris データ ビュー

    基本的なデータ準備操作を実行してみましょう。Now, let's do some basic data preparation.

  11. それぞれの列ヘッダーを選択して、ヘッダーのテキストを編集可能にします。Select each column header to make the header text editable. 次に、各列の名前を以下のように変更します。Then, rename each column as follows:

    5 つの列にそれぞれ「Sepal Length」、「Sepal Width」、「Petal Length」、「Petal Width」、「Species」と順に入力します。In order, enter Sepal Length, Sepal Width, Petal Length, Petal Width, and Species for the five columns respectively.

    列名を変更する

  12. 個別の値をカウントします。Count distinct values:

    1. Species 列を選択しますSelect the Species column
    2. 右クリックしてそれを選択します。Right-click to select it.
    3. ドロップダウン メニューから [Value Counts](値のカウント) を選択します。Select Value Counts from the drop-down menu.

    データの下に [Inspectors](インスペクター) ウィンドウが表示されます。The Inspectors pane opens below the data. 4 つのバーのあるヒストグラムが表示されます。A histogram with four bars appears. ターゲット列には、Iris-virginicaIris-versicolorIris-setosa、および (null) という 4 種類の値が含まれています。The target column has four distinct values: Iris-virginica, Iris-versicolor, Iris-setosa, and a (null) value.

    [Value Counts](値のカウント) を選択する

    値のカウントのヒストグラム

  13. null 値を除外するために、"(null)" 棒グラフを選択し、マイナス記号 (-) を選択します。To filter out the null values, select the "(null)" bar and then select the minus sign (-).

    (null) の行が灰色に変わり、除外されていることがわかります。Then, the (null) row turns gray to indicate that it was filtered out.

    null 値をフィルター処理する

  14. [ステップ] ウィンドウに列挙されている個々のデータ準備ステップに注目します。Take notice of the individual data preparation steps that are detailed in the STEPS pane. 列の名前を変更し、null 値の行をフィルター処理したので、各アクションがデータ準備ステップとして記録されています。As you renamed the columns and filtered the null value rows, each action was recorded as a data preparation step. 個々のステップを編集して設定を調整できるほか、ステップを並べ替えたり、ステップを削除したりすることもできます。You can edit individual steps to adjust their settings, reorder the steps, and remove steps.

    手順

  15. データ準備エディターを閉じます。Close the data preparation editor. グラフ アイコンが付いた [iris-1] タブの X アイコンを選択して、このタブを閉じます。作業内容は、[Data Preparations](データ準備) という見出しの下に表示された iris-1.dprep ファイルに自動的に保存されます。Select the x icon on the iris-1 tab with the graph icon to close the tab. Your work is automatically saved into the iris-1.dprep file shown under the Data Preparations heading.

    閉じます

データ準備パッケージを呼び出す Python/PySpark コードを生成するGenerate Python/PySpark code to invoke a data preparation package

データ準備パッケージの出力は、Python または Jupyter Notebook で直接調査できます。The output of a data preparation package can be explored directly in Python or in a Jupyter Notebook. パッケージは、ローカル Python、Spark (Docker 内を含む)、HDInsight などの複数のランタイムにまたがって実行できます。The packages can be executed across multiple runtimes including local Python, Spark (including in Docker), and HDInsight.

  1. [Data Preparations](データ準備) タブで iris-1.dprep ファイルを特定します。Find the iris-1.dprep file under the Data Preparations tab.

  2. [iris-1.dprep] ファイルを右クリックし、コンテキスト メニューから [Generate Data Access Code File](データ アクセス コード ファイルの生成) を選択します。Right-click the iris-1.dprep file, and select Generate Data Access Code File from the context menu.

    コードを生成する

    iris-1.py という名前の新しいファイルが開きます。このファイルには、次のコード行が記述されており、データ準備パッケージとして作成したロジックを呼び出す際に使用されます。A new file named iris-1.py opens with the following lines of code to invoke the logic you created as a data preparation package:

    # Use the Azure Machine Learning data preparation package
    from azureml.dataprep import package
    
    # Use the Azure Machine Learning data collector to log various metrics
    from azureml.logging import get_azureml_logger
    logger = get_azureml_logger()
    
    # This call will load the referenced package and return a DataFrame.
    # If run in a PySpark environment, this call returns a
    # Spark DataFrame. If not, it will return a Pandas DataFrame.
    df = package.run('iris-1.dprep', dataflow_idx=0)
    
    # Remove this line and add code that uses the DataFrame
    df.head(10)
    

    このコードが実行されるコンテキストに応じて、df は異なるデータフレームの種類を表します。Depending on the context in which this code is run, df represents a different kind of DataFrame:

    Azure Machine Learning Workbench でデータを準備する方法について確認するには、データ準備の概要に関するガイドを参照してください。To learn more about how to prepare data in Azure Machine Learning Workbench, see the Get started with data preparation guide.

リソースのクリーンアップClean up resources

重要

作成したリソースは、Azure Machine Learning サービスに関連したその他のチュートリアルおよびハウツー記事の前提条件として使用できます。The resources you created can be used as prerequisites to other Azure Machine Learning service tutorials and how-to articles.

ここで作成したリソースを今後使用する予定がない場合は、課金が発生しないように削除します。If you don't plan to use the resources you created here, delete them so you don't incur any charges.

  1. Azure Portal で、左端にある [リソース グループ] を選択します。In the Azure portal, select Resource groups on the far left.

    Azure Portal での削除

  2. 作成したリソース グループを一覧から選択します。From the list, select the resource group you created.

  3. [リソース グループの削除] を選択します。Select Delete resource group.

  4. リソース グループの名前を入力し、[削除] を選択します。Enter the resource group name, and then select Delete.

    "入れ子になっているリソースを削除する前にリソースを削除することはできません" というエラー メッセージが表示される場合は、入れ子になったリソースを先に削除する必要があります。If you see the error message "Cannot delete resource before nested resources are deleted," you must delete any nested resources first. 入れ子になったリソースを削除する方法については、このトラブルシューティングのセクションを参照してください。For information on how to delete nested resources, see this troubleshooting section.

次の手順Next steps

このチュートリアルでは、Azure Machine Learning Workbench を使用して、次の作業を行いました。In this tutorial, you used Azure Machine Learning Workbench to:

  • 新しいプロジェクトを作成するCreate a new project
  • データ準備パッケージを作成するCreate a data preparation package
  • データ準備パッケージを呼び出す Python/PySpark コードを生成するGenerate Python/PySpark code to invoke a data preparation package

チュートリアル シリーズの次のパートに移り、Azure Machine Learning モデルをビルドする方法を学習しましょう。You are ready to move on to the next part in the tutorial series, where you learn how to build an Azure Machine Learning model: