Machine Learning のチュートリアル: Azure Machine Learning Studio で初めてのデータ サイエンス実験を作成するMachine learning tutorial: Create your first data science experiment in Azure Machine Learning Studio

Azure Machine Learning Studio の使用経験がない方は、このチュートリアルをご覧ください。If you've never used Azure Machine Learning Studio before, this tutorial is for you.

このチュートリアルでは、Studio を使用して初めて機械学習の実験を作成する方法について説明します。In this tutorial, we'll walk through how to use Studio for the first time to create a machine learning experiment. 実験を使用して、製造仕様や技術仕様などのさまざまな変数に基づいて自動車の価格を予測する分析モデルをテストします。The experiment will test an analytical model that predicts the price of an automobile based on different variables such as make and technical specifications.

注意

このチュートリアルでは、実験にモジュールをドラッグ アンド ドロップして互いに結び付け、実験を実行して結果を確認する方法の基本について説明します。This tutorial shows you the basics of how to drag-and-drop modules onto your experiment, connect them together, run the experiment, and look at the results. 機械学習の一般的なトピックや、Studio に含まれている 100 個を超える組み込みのアルゴリズムとデータ操作モジュールを選択して使用する方法については説明しません。We're not going to discuss the general topic of machine learning or how to select and use the 100+ built-in algorithms and data manipulation modules included in Studio.

機械学習についてよく知らない場合は、まずビデオ シリーズ「初心者向けデータ サイエンス」をご覧になることをお勧めします。If you're new to machine learning, the video series Data Science for Beginners might be a good place to start. 日常的な言葉と概念が使用されているこのビデオ シリーズは、機械学習の導入として優れています。This video series is a great introduction to machine learning using everyday language and concepts.

機械学習についての知識はあるものの、Machine Learning Studio の全般的な情報と Machine Learning Studio に含まれる機械学習アルゴリズムを調べたい場合は、次のいくつかのリソースが役に立ちます。If you're familiar with machine learning, but you're looking for more general information about Machine Learning Studio, and the machine learning algorithms it contains, here are some good resources:

注意

Azure Machine Learning を無料でお試しいただけます。You can try Azure Machine Learning for free. クレジット カードも Azure サブスクリプションも必要ありません。No credit card or Azure subscription is required. 今すぐ使ってみるGet started now.

Machine Learning Studio を使う利点How does Machine Learning Studio help?

Machine Learning Studio を使用すると、予測モデリング手法で事前にプログラムされたドラッグ アンド ドロップ モジュールを使って簡単に実験をセットアップすることができます。Machine Learning Studio makes it easy to set up an experiment using drag-and-drop modules preprogrammed with predictive modeling techniques.

視覚的操作に対応した対話型ワークスペースを使用して、"データセット" と分析 "モジュール" を対話型キャンバスにドラッグ アンド ドロップします。Using an interactive, visual workspace, you drag-and-drop datasets and analysis modules onto an interactive canvas. これらを互いに結び付けて、Machine Learning Studio で実行する "実験" を作成します。You connect them together to form an experiment that you run in Machine Learning Studio. "モデルの作成"、"モデルのトレーニング"、"モデルのスコア付けとテスト" を行います。You create a model, train the model, and score and test the model.

求めている結果が得られるまで実験を編集、実行して、モデル設計を繰り返すことができます。You can iterate on your model design, editing the experiment and running it until it gives you the results you're looking for. モデルを準備できたら、それを "Web サービス" として発行できます。これにより、他のユーザーはそのモデルに新しいデータを送信し、それに対して予測を得ることができます。When your model is ready, you can publish it as a web service so that others can send it new data and get predictions in return.

Machine Learning Studio の開始Open Machine Learning Studio

Studio の使用を開始するには、https://studio.azureml.net に移動します。To get started with Studio, go to https://studio.azureml.net. 以前 Machine Learning Studio にサインインしたことがある場合は、[サインイン] をクリックします。If you’ve signed into Machine Learning Studio before, click Sign In. それ以外の場合は、[Sign up here (ここでサインアップ)] をクリックし、無料と有料のどちらかのオプションを選択します。Otherwise, click Sign up here and choose between free and paid options.

Machine Learning Studio へのサインイン Sign in to Machine Learning Studio
Machine Learning Studio へのサインインSign in to Machine Learning Studio

実験を作成する 5 つの手順Five steps to create an experiment

この機械学習のチュートリアルでは、Machine Learning Studio で 5 つの基本的なステップに従って、モデルを作成、トレーニング、スコア付けする実験を構築します。In this machine learning tutorial, you'll follow five basic steps to build an experiment in Machine Learning Studio to create, train, and score your model:

ヒント

Azure AI ギャラリーには、次の実験の作業コピーがあります。You can find a working copy of the following experiment in the Azure AI Gallery. Your first data science experiment - Automobile price prediction (初めてのデータ サイエンス実験 - 自動車価格の予測)」にアクセスし、[Open in Studio (Studio で開く)] をクリックして Machine Learning Studio ワークスペースに実験のコピーをダウンロードしてください。Go to Your first data science experiment - Automobile price prediction and click Open in Studio to download a copy of the experiment into your Machine Learning Studio workspace.

手順 1: データを取得するStep 1: Get data

機械学習の実行にはまずデータが必要です。The first thing you need to perform machine learning is data. 使用できるサンプル データセットがいくつか Machine Learning Studio に含まれています。また、多数のソースからデータをインポートできます。There are several sample datasets included with Machine Learning Studio that you can use, or you can import data from many sources. この例では、ワークスペースに含まれているサンプル データセットである自動車価格データ (未加工) を使用します。For this example, we'll use the sample dataset, Automobile price data (Raw), that's included in your workspace. このデータセットには、製造仕様、モデル仕様、技術仕様、価格などの情報を含む、さまざまな個別の自動車のエントリが含まれています。This dataset includes entries for various individual automobiles, including information such as make, model, technical specifications, and price.

データセットを実験に取得する方法を次に示します。Here's how to get the dataset into your experiment.

  1. Machine Learning Studio ウィンドウの下部にある [+新規] をクリックして新しい実験を作成し、[EXPERIMENT (実験)] を選択してから [Blank Experiment (空の実験)] を選択します。Create a new experiment by clicking +NEW at the bottom of the Machine Learning Studio window, select EXPERIMENT, and then select Blank Experiment.

  2. 実験には既定の名前が付いており、キャンバスの上部で確認できます。The experiment is given a default name that you can see at the top of the canvas. このテキストを選択し、「自動車価格の予測」などのわかりやすい名前に変更します。Select this text and rename it to something meaningful, for example, Automobile price prediction. 名前は一意でなくてもかまいません。The name doesn't need to be unique.

    実験の名前の変更

  3. 実験キャンバスの左側には、データセットとモジュールのパレットがあります。To the left of the experiment canvas is a palette of datasets and modules. このパレットの上部にある検索ボックスに「自動車」と入力し、自動車価格データ (未加工) というラベルが付いたデータセットを検索します。Type automobile in the Search box at the top of this palette to find the dataset labeled Automobile price data (Raw). このデータセットを実験キャンバスにドラッグします。Drag this dataset to the experiment canvas.

    自動車データセットの検索と実験キャンバスへのドラッグ Find the automobile dataset and drag it onto the experiment canvas
    自動車データセットの検索と実験キャンバスへのドラッグFind the automobile dataset and drag it onto the experiment canvas

このデータの中身を確認するには、自動車データセットの下部にある出力ポートをクリックし、 [視覚化]を選択します。To see what this data looks like, click the output port at the bottom of the automobile dataset, and then select Visualize.

出力ポートのクリックと [Visualize (視覚化)] の選択 Click the output port and select "Visualize"
出力ポートのクリックと [Visualize (視覚化)] の選択Click the output port and select "Visualize"

ヒント

データセットとモジュールには、小さな円で表される入力ポートと出力ポートがあります (入力ポートは上部、出力ポートは下部)。Datasets and modules have input and output ports represented by small circles - input ports at the top, output ports at the bottom. 実験を通じてデータのフローを作成するには、1 つのモジュールの出力ポートを別のモジュールの入力ポートに接続します。To create a flow of data through your experiment, you'll connect an output port of one module to an input port of another. いつでもデータセットまたはモジュールの出力ポートをクリックして、データ フローのその時点でデータがどのようになっているかを確認できます。At any time, you can click the output port of a dataset or module to see what the data looks like at that point in the data flow.

このサンプル データセットでは、自動車の各インスタンスは行として表示され、各自動車に関連付けられている変数は列として表示されます。In this sample dataset, each instance of an automobile appears as a row, and the variables associated with each automobile appear as columns. 特定の自動車の変数が指定されると、右端の列で価格が予測されます ("price" という名前の列 26)。Given the variables for a specific automobile, we're going to try to predict the price in far-right column (column 26, titled "price").

データ視覚化ウィンドウでの自動車データの表示 View the automobile data in the data visualization window
データ視覚化ウィンドウでの自動車データの表示View the automobile data in the data visualization window

右上隅の "x" をクリックして、視覚化ウィンドウを閉じます。Close the visualization window by clicking the "x" in the upper-right corner.

手順 2: データを準備するStep 2: Prepare the data

通常、データセットには、分析前にある程度の前処理が必要です。A dataset usually requires some preprocessing before it can be analyzed. たとえば、さまざまな行の中に、値が不足している列があります。For example, you might have noticed the missing values present in the columns of various rows. モデルがデータを正しく分析するには、これらの不足値をクリーニングする必要があります。These missing values need to be cleaned so the model can analyze the data correctly. この例では、値が見つからない行をすべて削除します。In our case, we'll remove any rows that have missing values. また、見つからない値の大部分は、正規化された損失列にあります。したがって、モデルからこの列も一緒に除外します。Also, the normalized-losses column has a large proportion of missing values, so we'll exclude that column from the model altogether.

ヒント

見つからない値を入力データから整理することが、ほとんどのモジュールを使用するための前提条件となっています。Cleaning the missing values from input data is a prerequisite for using most of the modules.

normalized-losses 列を完全に削除するモジュールを最初に追加してから、見つからないデータを含む行を削除する別のモジュールを追加します。First we add a module that removes the normalized-losses column completely, and then we add another module that removes any row that has missing data.

  1. モジュールのパレットの上部にある検索ボックスに「列の選択」と入力し、データセット内の列の選択モジュールを見つけてから、それを実験キャンバスにドラッグします。Type select columns in the Search box at the top of the module palette to find the Select Columns in Dataset module, then drag it to the experiment canvas. このモジュールを使用すると、モデルに含める、またはモデルから除外するデータの列を選択できます。This module allows us to select which columns of data we want to include or exclude in the model.

  2. 自動車価格データ (未加工) データセットの出力ポートを、データセット内の列の選択モジュールの入力ポートに接続します。Connect the output port of the Automobile price data (Raw) dataset to the input port of the Select Columns in Dataset module.

    実験キャンバスへの "データセット内の列の選択" モジュールの追加と接続 Add the "Select Columns in Dataset" module to the experiment canvas and connect it
    実験キャンバスへの "データセット内の列の選択" モジュールの追加と接続Add the "Select Columns in Dataset" module to the experiment canvas and connect it

  3. データセット内の列の選択モジュールを選択し、[プロパティ] ウィンドウの [Launch column selector (列セレクターの起動)] をクリックします。Click the Select Columns in Dataset module and click Launch column selector in the Properties pane.

    • 左側の [With rules (規則を使用)]On the left, click With rules
    • [Begin With (次で始まる)][All columns (すべての列)] をクリックします。Under Begin With, click All columns. これにより、データセット内の列の選択では、(これから除外する列を除き) すべての列がフィルターを通過します。This directs Select Columns in Dataset to pass through all the columns (except those columns we're about to exclude).
    • ドロップダウンから [除外]列名を選択し、テキスト ボックスの内側をクリックします。From the drop-downs, select Exclude and column names, and then click inside the text box. 列の一覧が表示されます。A list of columns is displayed. [normalized-losses] を選択すると、テキスト ボックスに追加されます。Select normalized-losses, and it's added to the text box.
    • (右下の) チェック マーク (OK) ボタンをクリックして列セレクターを閉じます。Click the check mark (OK) button to close the column selector (on the lower-right).

      列セレクターの起動と "normalized-losses" 列の除外 Launch the column selector and exclude the "normalized-losses" column
      列セレクターの起動と "normalized-losses" 列の除外Launch the column selector and exclude the "normalized-losses" column

      これで、データセット内の列の選択のプロパティ ウィンドウに、normalized-losses 以外のデータセットのすべての列がフィルターを通過することが示されます。Now the properties pane for Select Columns in Dataset indicates that it will pass through all columns from the dataset except normalized-losses.

      "normalized-losses" 列が除外されたことを示すプロパティ ウィンドウ The properties pane shows that the "normalized-losses" column is excluded
      "normalized-losses" 列が除外されたことを示すプロパティ ウィンドウThe properties pane shows that the "normalized-losses" column is excluded

      ヒント

      モジュールをダブルクリックして、テキストを入力すると、モジュールにコメントを追加できます。You can add a comment to a module by double-clicking the module and entering text. これで、実験でモジュールがどのような処理をするのかがひとめでわかります。This can help you see at a glance what the module is doing in your experiment. この例では、データセット内の列の選択モジュールをダブルクリックして、「正規化された損失を除外する」というコメントを入力します。In this case double-click the Select Columns in Dataset module and type the comment "Exclude normalized losses."

      モジュールをダブルクリックしてコメントを追加 Double-click a module to add a comment
      モジュールをダブルクリックしてコメントを追加Double-click a module to add a comment

  4. 見つからないデータのクリーンアップ モジュールを実験キャンバスにドラッグして、データセット内の列の選択モジュールに接続します。Drag the Clean Missing Data module to the experiment canvas and connect it to the Select Columns in Dataset module. [プロパティ] ウィンドウで、[Cleaning mode (クリーニング モード)] の下の [Remove entire row (行全体を削除)] を選択します。In the Properties pane, select Remove entire row under Cleaning mode. これにより、見つからないデータのクリーンアップでは、見つからない値が含まれる行が削除されてデータがクリーンアップされます。This directs Clean Missing Data to clean the data by removing rows that have any missing values. モジュールをダブルクリックして、「値が見つからない行を削除する」というコメントを入力します。Double-click the module and type the comment "Remove missing value rows."

    "見つからないデータのクリーンアップ" モジュールのクリーニング モードを "行全体を削除" に設定 Set the cleaning mode to "Remove entire row" for the "Clean Missing Data" module
    "見つからないデータのクリーンアップ" モジュールのクリーニング モードを "行全体を削除" に設定Set the cleaning mode to "Remove entire row" for the "Clean Missing Data" module

  5. ページの下部の [実行] をクリックして、実験を実行します。Run the experiment by clicking RUN at the bottom of the page.

    実験の実行が終了すると、すべてのモジュールに緑色のチェック マークが付けられ、正常に完了したことが示されます。When the experiment has finished running, all the modules have a green check mark to indicate that they finished successfully. 右上隅にも [実行が完了しました] というステータスが表示されます。Notice also the Finished running status in the upper-right corner.

実行後の実験の状態 After running it, the experiment should look something like this
実行後の実験の状態After running it, the experiment should look something like this

ヒント

ここで実験を実行したのはなぜでしょうか。Why did we run the experiment now? 実験を実行することで、データセット内の列の選択モジュールと見つからないデータのクリーンアップ モジュールを介して、データセットからデータ パスの列の定義が渡されます。By running the experiment, the column definitions for our data pass from the dataset, through the Select Columns in Dataset module, and through the Clean Missing Data module. つまり、見つからないデータのクリーンアップに接続するすべてのモジュールに、この同じ情報が設定されることになります。This means that any modules we connect to Clean Missing Data will also have this same information.

ここまで実験で実行したことは、データのクリーンアップのみです。All we have done in the experiment up to this point is clean the data. 整理したデータセットを表示するには、見つからないデータのクリーンアップ モジュールの左側の出力ポートをクリックし、[視覚化] を選択します。If you want to view the cleaned dataset, click the left output port of the Clean Missing Data module and select Visualize. 正規化された損失 列が、もう含まれていないことと、見つからない値がなくなったことが確認できます。Notice that the normalized-losses column is no longer included, and there are no missing values.

データが整理できたので、予測モデルで使用する特徴を指定する準備が整いました。Now that the data is clean, we're ready to specify what features we're going to use in the predictive model.

手順 3: 特徴を定義するStep 3: Define features

機械学習において 特徴 とは、関心のある項目を個別に測定できるプロパティです。In machine learning, features are individual measurable properties of something you’re interested in. この例のデータセットでは、各行が 1 つの車種を表し、各列がその車種の特徴に対応します。In our dataset, each row represents one automobile, and each column is a feature of that automobile.

予測モデルの作成に役立つ特徴を見つけるには、解決する問題に関する実験と知識が必要です。Finding a good set of features for creating a predictive model requires experimentation and knowledge about the problem you want to solve. 一部の特徴は、他よりも対象を予測することに優れています。Some features are better for predicting the target than others. また、他の特徴と強い相関関係があって削除できる特徴もあります。Also, some features have a strong correlation with other features and can be removed. たとえば、city-mpg と highway-mpg は密接に関連しているため、予測に大きな影響を及ぼすことなく一方を残して他方を削除することができます。For example, city-mpg and highway-mpg are closely related so we can keep one and remove the other without significantly affecting the prediction.

ここでは、データセット内の特徴のサブセットを使用するモデルを構築します。Let's build a model that uses a subset of the features in our dataset. 後でこの手順に戻って別の特徴を選択し、もう一度実験を実行して、より優れた結果が得られるかどうかを確認できます。You can come back later and select different features, run the experiment again, and see if you get better results. しかしまずは、次の特徴を試してみましょう。But to start, let's try the following features:

make, body-style, wheel-base, engine-size, horsepower, peak-rpm, highway-mpg, price
  1. 別のデータセット内の列の選択モジュールを、実験キャンバスにドラッグします。Drag another Select Columns in Dataset module to the experiment canvas. 見つからないデータのクリーンアップ モジュールの左側の出力ポートを、データセット内の列の選択モジュールの入力に接続します。Connect the left output port of the Clean Missing Data module to the input of the Select Columns in Dataset module.

    "データセット内の列の選択" モジュールを "見つからないデータのクリーンアップ" モジュールに接続 Connect the "Select Columns in Dataset" module to the "Clean Missing Data" module
    "データセット内の列の選択" モジュールを "見つからないデータのクリーンアップ" モジュールに接続Connect the "Select Columns in Dataset" module to the "Clean Missing Data" module

  2. モジュールをダブルクリックして、「予測対象の特徴を選択する」と入力します。Double-click the module and type "Select features for prediction."

  3. [プロパティ] ウィンドウで、[列セレクターの起動] をクリックします。Click Launch column selector in the Properties pane.

  4. [With rules (規則を使用)]をクリックします。Click With rules.

  5. [Begin With (次で始まる)][No columns (列なし)] をクリックします。Under Begin With, click No columns. フィルター行で、[Include (含める)][column names (列名)] を選択してから、テキスト ボックス中の列名の一覧を選択します。In the filter row, select Include and column names and select our list of column names in the text box. これによりこのモジュールでは、指定した列を除いて列 (特徴) が渡されなくなります。This directs the module to not pass through any columns (features) except the ones that we specify.

  6. チェック マーク (OK) ボタンをクリックします。Click the check mark (OK) button.

    予測に含める列 (特徴) の選択 Select the columns (features) to include in the prediction
    予測に含める列 (特徴) の選択Select the columns (features) to include in the prediction

これにより、フィルター処理されたデータセットが生成されます。このデータセットには、次の手順で使用する学習アルゴリズムに渡す特徴のみが含まれます。This produces a filtered dataset containing only the features we want to pass to the learning algorithm we'll use in the next step. 後でこの手順に戻り、別の特徴を選択して再度実行することができます。Later, you can return and try again with a different selection of features.

手順 4: 学習アルゴリズムを選択して、適用するStep 4: Choose and apply a learning algorithm

データが準備できると、分析モデルの構築に必要なのは、トレーニングとテストになります。Now that the data is ready, constructing a predictive model consists of training and testing. このデータを使用してモデルのトレーニングとテストを行い、価格を予測する精度を確認します。We'll use our data to train the model, and then we'll test the model to see how closely it's able to predict prices.

"分類" と "回帰" は、2 種類の教師あり機械学習アルゴリズムです。Classification and regression are two types of supervised machine learning algorithms. 分類は、色 (赤、青、または緑) のような定義された一連のカテゴリから予測するものです。Classification predicts an answer from a defined set of categories, such as a color (red, blue, or green). 回帰は、数値を予測する目的で使用されます。Regression is used to predict a number.

予測したい価格は数値であるため、回帰アルゴリズムを使用することになります。Because we want to predict price, which is a number, we'll use a regression algorithm. この例では単純な "線形回帰" を使用します。For this example, we'll use a simple linear regression model.

ヒント

さまざまな種類の機械学習アルゴリズムの詳細とその使用場面について知りたい場合は、初心者向けデータ サイエンス シリーズの最初のビデオ「データ サイエンスが回答する 5 つの質問」をご覧ください。If you want to learn more about different types of machine learning algorithms and when to use them, you might view the first video in the Data Science for Beginners series, The five questions data science answers. Machine Learning の基礎とアルゴリズムの使用例が含まれたインフォグラフィックを参照することもできます。または、機械学習アルゴリズム チート シートをご確認ください。You might also look at the infographic Machine learning basics with algorithm examples, or check out the Machine learning algorithm cheat sheet.

価格が含まれた一連のデータを指定してモデルをトレーニングします。We train the model by giving it a set of data that includes the price. モデルによってデータがスキャンされ、自動車の特徴と価格の相関関係が検出されます。The model scans the data and look for correlations between an automobile's features and its price. 次にモデルのテストを行います。よく知っている自動車の特徴のセットをモデルに与え、モデルが既知の価格を予測する精度を確認します。Then we'll test the model - we'll give it a set of features for automobiles we're familiar with and see how close the model comes to predicting the known price.

データは別個のトレーニング データセットとテスト データセットに分割して、モデルのトレーニングとテストの両方に使用します。We'll use our data for both training the model and testing it by splitting the data into separate training and testing datasets.

  1. データの分割モジュールを選択して実験キャンバスにドラッグし、最後のデータセット内の列の選択モジュールに接続します。Select and drag the Split Data module to the experiment canvas and connect it to the last Select Columns in Dataset module.

  2. データの分割モジュールをクリックして選択します。Click the Split Data module to select it. (キャンバス右側の [プロパティ] ウィンドウにある) [Fraction of rows in the first output dataset (最初の出力データセットにおける列の割合)] を探して 0.75 に設定します。Find the Fraction of rows in the first output dataset (in the Properties pane to the right of the canvas) and set it to 0.75. このようにして、データの 75% をモデルのトレーニングに使用し、25% をテスト用に保持しておきます (後で異なる割合を使用して実験できます)。This way, we'll use 75 percent of the data to train the model, and hold back 25 percent for testing (later, you can experiment with using different percentages).

    "データの分割" モジュールの分割の割合を 0.75 に設定 Set the split fraction of the "Split Data" module to 0.75
    "データの分割" モジュールの分割の割合を 0.75 に設定Set the split fraction of the "Split Data" module to 0.75

    ヒント

    ランダム シード パラメーターを変更して、トレーニング用とテスト用に異なるランダムなサンプルを作成できます。By changing the Random seed parameter, you can produce different random samples for training and testing. このパラメーターでは、擬似乱数ジェネレーターによる生成を制御できます。This parameter controls the seeding of the pseudo-random number generator.

  3. 実験を実行します。Run the experiment. 実験を実行すると、データセット内の列の選択モジュールとデータの分割モジュールによって、次に追加するモジュールに列定義が渡されます。When the experiment is run, the Select Columns in Dataset and Split Data modules pass column definitions to the modules we'll be adding next.

  4. 学習アルゴリズムを選ぶには、キャンバスの左側にあるモジュールのパレットの [Machine Learning] カテゴリを展開してから、[モデルを初期化] を展開します。To select the learning algorithm, expand the Machine Learning category in the module palette to the left of the canvas, and then expand Initialize Model. これにより、機械学習アルゴリズムの初期化に使用できるモジュールのカテゴリが複数表示されます。This displays several categories of modules that can be used to initialize machine learning algorithms. この実験では、[回帰] カテゴリにある線形回帰モジュールを選択し、実験キャンバスにドラッグします For this experiment, select the Linear Regression module under the Regression category, and drag it to the experiment canvas. (パレットの検索ボックスで「線形回帰」と入力してモジュールを探すこともできます)。(You can also find the module by typing "linear regression" in the palette Search box.)

  5. モデルのトレーニング モジュールを見つけて、実験にドラッグします。Find and drag the Train Model module to the experiment canvas. 線形回帰モジュールの出力を、モデルのトレーニング モジュールの左側の入力に接続します。次に、データの分割モジュールのトレーニング データ出力 (左側のポート) を、モデルのトレーニング モジュールの右側の入力に接続します。Connect the output of the Linear Regression module to the left input of the Train Model module, and connect the training data output (left port) of the Split Data module to the right input of the Train Model module.

    "線形回帰" モジュールと "データの分割" モジュールの両方に "モデルのトレーニング" モジュールを接続 Connect the "Train Model" module to both the "Linear Regression" and "Split Data" modules
    "線形回帰" モジュールと "データの分割" モジュールの両方に "モデルのトレーニング" モジュールを接続Connect the "Train Model" module to both the "Linear Regression" and "Split Data" modules

  6. モデルのトレーニング モジュールを選択して、[プロパティ] ウィンドウの [起動列セレクター] をクリックし、[価格] 列を選択します。Click the Train Model module, click Launch column selector in the Properties pane, and then select the price column. これが、作成しているモデルで予測する値です。This is the value that our model is going to predict.

    [Available columns (使用できる列)] の一覧から [Selected columns (選択した列)] の一覧に移動させることで、列セレクターの price 列を選択します。You select the price column in the column selector by moving it from the Available columns list to the Selected columns list.

    "モデルのトレーニング" モジュールの price 列の選択 Select the price column for the "Train Model" module
    "モデルのトレーニング" モジュールの price 列の選択Select the price column for the "Train Model" module

  7. 実験を実行します。Run the experiment.

新しい自動車データをスコア付けして価格の予測を実行するのに使用できる、トレーニングされた回帰モデルができます。We now have a trained regression model that can be used to score new automobile data to make price predictions.

実行後の実験の状態 After running, the experiment should now look something like this
実行後の実験の状態After running, the experiment should now look something like this

手順 5: 新しい自動車の価格を予測するStep 5: Predict new automobile prices

これまでにデータの 75% を使用してモデルをトレーニングしました。ここからは残りの 25% のデータにスコアを付け、モデルの機能の効果を確認します。Now that we've trained the model using 75 percent of our data, we can use it to score the other 25 percent of the data to see how well our model functions.

  1. モデルのスコア付けモジュールを探して、実験キャンバスにドラッグします。Find and drag the Score Model module to the experiment canvas. モデルのトレーニング モジュールの出力を、モデルのスコア付けの左側の入力ポートに接続します。Connect the output of the Train Model module to the left input port of Score Model. データの分割モジュールのテスト データの出力 (右側のポート) をモデルのスコア付けの右側の入力ポートに接続します。Connect the test data output (right port) of the Split Data module to the right input port of Score Model.

    "モデルのトレーニング" モジュールと "データの分割" モジュールへの "モデルのスコア付け" モジュールの接続 Connect the "Score Model" module to both the "Train Model" and "Split Data" modules
    "モデルのトレーニング" モジュールと "データの分割" モジュールへの "モデルのスコア付け" モジュールの接続Connect the "Score Model" module to both the "Train Model" and "Split Data" modules

  2. 実験を実行して、モデルのスコア付けモジュールの出力を表示します (モデルのスコア付けの出力ポートをクリックして、[視覚化] を選択します)。Run the experiment and view the output from the Score Model module (click the output port of Score Model and select Visualize). 出力に、予測された価格の値と、テスト データから既知の値が表示されます。The output shows the predicted values for price and the known values from the test data.

    "モデルのスコア付け" モジュールの出力 Output of the "Score Model" module
    "モデルのスコア付け" モジュールの出力Output of the "Score Model" module

  3. 最後に、結果の品質をテストします。Finally, we test the quality of the results. モデルの評価モジュールを選択して実験キャンバスにドラッグし、モデルのスコア付けモジュールの出力を、モデルの評価の左側の入力に接続します。Select and drag the Evaluate Model module to the experiment canvas, and connect the output of the Score Model module to the left input of Evaluate Model.

    ヒント

    モデルの評価モジュールには 2 つの入力ポートがあります。これは、2 つのモデルの対照比較に使用できるためです。There are two input ports on the Evaluate Model module because it can be used to compare two models side by side. 後で別のアルゴリズムを実験に追加し、モデルの評価を使用してどちらの結果が良いかを確認できます。Later, you can add another algorithm to the experiment and use Evaluate Model to see which one gives better results.

  4. 実験を実行します。Run the experiment.

モデルの評価モジュールの出力を表示するには、出力ポートをクリックして、[視覚化] を選択します。To view the output from the Evaluate Model module, click the output port, and then select Visualize.

実験の評価結果 Evaluation results for the experiment
実験の評価結果Evaluation results for the experiment

作成したモデルに対して、以下の統計値が表示されます。The following statistics are shown for our model:

  • 平均絶対誤差 (MAE): 絶対誤差の平均です ( 誤差 とは、予測された値と実際の値との差です)。Mean Absolute Error (MAE): The average of absolute errors (an error is the difference between the predicted value and the actual value).
  • 二乗平均平方根誤差 (RMSE): テスト データセットに対して実行した予測の二乗誤差平均の平方根です。Root Mean Squared Error (RMSE): The square root of the average of squared errors of predictions made on the test dataset.
  • 相対絶対誤差: 実際の値とすべての実際の値の平均との絶対差を基準にした絶対誤差の平均です。Relative Absolute Error: The average of absolute errors relative to the absolute difference between actual values and the average of all actual values.
  • 相対二乗誤差: 実際の値とすべての実際の値の平均との二乗差を基準にした二乗誤差の平均です。Relative Squared Error: The average of squared errors relative to the squared difference between the actual values and the average of all actual values.
  • 決定係数: R-2 乗値ともいいます。どの程度モデルが高い精度でデータと適合するかを示す統計指標です。Coefficient of Determination: Also known as the R squared value, this is a statistical metric indicating how well a model fits the data.

エラーの各統計情報を小さくすることをお勧めします。For each of the error statistics, smaller is better. 小さい値は、予測が実際の値をより厳密に照合することを示します。A smaller value indicates that the predictions more closely match the actual values. 決定係数では、値が 1 (1.0) に近づくほど、予測の精度が高くなります。For Coefficient of Determination, the closer its value is to one (1.0), the better the predictions.

最終的な実験Final experiment

最終的な実験は次のようになります。The final experiment should look something like this:

最終的な実験 The final experiment
最終的な実験The final experiment

次の手順Next steps

これで初めての機械学習チュートリアルが完了し、実験のセットアップが終わりました。引き続きモデルを改良し、予測 Web サービスとしてデプロイできます。Now that you've completed the first machine learning tutorial and have your experiment set up, you can continue to improve the model and then deploy it as a predictive web service.

  • 繰り返しによってモデルの改善を試みる - たとえば、予測で使用する特徴を変更できます。Iterate to try to improve the model - For example, you can change the features you use in your prediction. または、線形回帰アルゴリズムのプロパティを変更するか、別のアルゴリズムを一緒に試すことができます。Or you can modify the properties of the Linear Regression algorithm or try a different algorithm altogether. モデルの評価モジュールを使用すれば、複数の機械学習アルゴリズムを同時に実験に追加して、2 つを比較することもできます。You can even add multiple machine learning algorithms to your experiment at one time and compare two of them by using the Evaluate Model module. 単一の実験で複数のモデルを比較する方法の例については、Azure AI ギャラリーの「Compare Regressors (リグレッサーの比較)」を参照してください。For an example of how to compare multiple models in a single experiment, see Compare Regressors in the Azure AI Gallery.

    ヒント

    繰り返す実験をコピーするには、ページの下部にある [名前を付けて保存] ボタンを使用します。To copy any iteration of your experiment, use the SAVE AS button at the bottom of the page. ページの下部にある [実行履歴を表示] をクリックすると、繰り返す実験をすべて表示できます。You can see all the iterations of your experiment by clicking VIEW RUN HISTORY at the bottom of the page. 詳細については、「Azure Machine Learning Studio での実験イテレーションの管理」をご覧ください。For more details, see Manage experiment iterations in Azure Machine Learning Studio.

  • モデルを予測 Web サービスとしてデプロイする - モデルが満足できるものになったら、Web サービスとしてデプロイし、新しいデータを使用した自動車価格の予測に使用できます。Deploy the model as a predictive web service - When you're satisfied with your model, you can deploy it as a web service to be used to predict automobile prices by using new data. 詳細については、「Azure Machine Learning Web サービスをデプロイする」を参照してください。For more details, see Deploy an Azure Machine Learning web service.

もっと詳しい説明が必要でしょうか。Want to learn more? モデルの作成、トレーニング、スコア付け、デプロイのプロセスを解説した詳しいチュートリアルについては、Azure Machine Learning を使用した予測ソリューションの開発に関するページを参照してください。For a more extensive and detailed walkthrough of the process of creating, training, scoring, and deploying a model, see Develop a predictive solution by using Azure Machine Learning.