Azure Machine Learning Studio の機械学習アルゴリズム チート シートMachine learning algorithm cheat sheet for Azure Machine Learning Studio

Azure Machine Learning アルゴリズム チート シートを使用すると、予測分析モデルに最適なアルゴリズムを選択できます。The Azure Machine Learning Algorithm Cheat Sheet helps you choose the right algorithm for a predictive analytics model.

Azure Machine Learning Studio には、regressionclassificationclusteringanomaly detection ファミリの多様なアルゴリズムのライブラリがあります。Azure Machine Learning Studio has a large library of algorithms from the regression, classification, clustering, and anomaly detection families. 各アルゴリズムは、異なる種類の機械学習の問題に対処するために設計されています。Each is designed to address a different type of machine learning problem.

ダウンロード: 機械学習アルゴリズム チート シートDownload: Machine learning algorithm cheat sheet

チート シートをダウンロードする: 機械学習アルゴリズム チート シート (11 x 17 in.)Download the cheat sheet here: Machine Learning Algorithm Cheat Sheet (11x17 in.)

機械学習アルゴリズム チート シート: 機械学習アルゴリズムの選択方法について説明します。

Machine Learning Studio アルゴリズム チート シートをダウンロードし、タブロイド サイズで印刷すると、手元に保管しやすくなり、アルゴリズムを選択するときに役立ちます。Download and print the Machine Learning Studio Algorithm Cheat Sheet in tabloid size to keep it handy and get help choosing an algorithm.


このチート シートを使用して適切なアルゴリズムを選ぶ方法や、各種機械学習アルゴリズムの詳細と使用方法については、「Microsoft Azure Machine Learning のアルゴリズムの選択方法」をご覧ください。For help in using this cheat sheet for choosing the right algorithm, plus a deeper discussion of the different types of machine learning algorithms and how they're used, see How to choose algorithms for Microsoft Azure Machine Learning.

Machine Learning Studio アルゴリズム チート シートの注意事項と用語の定義Notes and terminology definitions for the Machine Learning Studio algorithm cheat sheet

  • このアルゴリズム チート シートに示した提案は経験則です。The suggestions offered in this algorithm cheat sheet are approximate rules-of-thumb. 変化する場合や著しく異なる場合があります。Some can be bent, and some can be flagrantly violated. これは、開始点を提案するものです。This is intended to suggest a starting point. データに使用した複数のアルゴリズム間で競合が発生しても心配しないでください。Don’t be afraid to run a head-to-head competition between several algorithms on your data. それぞれのアルゴリズムの原則を理解し、データが生成されたシステムを理解することに代わるものはありません。There is simply no substitute for understanding the principles of each algorithm and understanding the system that generated your data.

  • すべての機械学習アルゴリズムには、独自のスタイルや "帰納的バイアス" があります。Every machine learning algorithm has its own style or inductive bias. 特定の問題に対しては、複数のアルゴリズムが適切な場合や、1 つのアルゴリズムが他のアルゴリズムよりも適している場合があります。For a specific problem, several algorithms may be appropriate and one algorithm may be a better fit than others. しかし、事前にどれが最適かを知ることができるとは限りません。But it's not always possible to know beforehand which is the best fit. このような場合は、複数のアルゴリズムがチート シートに一緒に記載されています。In cases like these, several algorithms are listed together in the cheat sheet. 1 つのアルゴリズムを試してみて、結果に満足できない場合は、他のアルゴリズムを試してみるのが適切な方策でしょう。An appropriate strategy would be to try one algorithm, and if the results are not yet satisfactory, try the others. Azure AI Gallery からは、同じデータに対して複数のアルゴリズムを試し、その結果を比較した実験の例として次を利用できます: 多クラス分類子の比較: 文字認識Here’s an example from the Azure AI Gallery of an experiment that tries several algorithms against the same data and compares the results: Compare Multi-class Classifiers: Letter recognition.

  • 機械学習には、主に 3 つのカテゴリ (教師あり学習教師なし学習強化学習) があります。There are three main categories of machine learning: supervised learning, unsupervised learning, and reinforcement learning.

    • 教師あり学習では、各データ ポイントに、カテゴリや関心のある値がラベル付けまたは関連付けられています。In supervised learning, each data point is labeled or associated with a category or value of interest. カテゴリのラベルには、たとえば '猫' または '犬' のいずれかの画像を割り当てています。An example of a categorical label is assigning an image as either a ‘cat’ or a ‘dog’. 値のラベルの例は、中古車に関連付けられている販売価格です。An example of a value label is the sale price associated with a used car. 教師あり学習の目的は、このような多くのラベルの付いた例を学習し、将来のデータ ポイントを予測して、The goal of supervised learning is to study many labeled examples like these, and then to be able to make predictions about future data points. たとえば、新しい写真の動物を正しく識別したり、他の中古車に正しい販売価格を割り当てることができるようになることです。For example, identifying new photos with the correct animal or assigning accurate sale prices to other used cars. これは、人気のある便利な機械学習の種類です。This is a popular and useful type of machine learning. Azure Machine Learning のモジュールは、K 平均法クラスタリングを除いて、すべて教師あり学習アルゴリズムです。All of the modules in Azure Machine Learning are supervised learning algorithms except for K-Means Clustering.

    • 教師なし学習では、データ ポイントにラベルが関連付けられていません。In unsupervised learning, data points have no labels associated with them. 代わりに、教師なし学習アルゴリズムの目的は、いくつかの方法でデータを整理したり、その構造を記述することです。Instead, the goal of an unsupervised learning algorithm is to organize the data in some way or to describe its structure. これは、K 平均法と同様にクラスターにグループ化したり、複雑なデータを簡単に表示できるようにさまざまな表示方法を検索することを意味します。This can mean grouping it into clusters, as K-means does, or finding different ways of looking at complex data so that it appears simpler.

    • 強化学習では、アルゴリズムが各データ ポイントへの応答を基にしてアクションを選択します。In reinforcement learning, the algorithm gets to choose an action in response to each data point. これはロボット工学の一般的な手法です。ある時点での一連のセンサーの読み取りがデータ ポイントになり、アルゴリズムがロボットの次の動作を選択します。It is a common approach in robotics, where the set of sensor readings at one point in time is a data point, and the algorithm must choose the robot’s next action. モノのインターネット アプリケーションにも自然に適合します。It's also a natural fit for Internet of Things applications. 学習アルゴリズムでは、短時間で報酬信号を受信し、その決定がいかに優れていたかを示します。The learning algorithm also receives a reward signal a short time later, indicating how good the decision was. アルゴリズムはこれに基に、最大の報酬を実現するために、戦略を変更します。Based on this, the algorithm modifies its strategy in order to achieve the highest reward. 現時点で、Azure ML には強化学習アルゴリズム モジュールはありません。Currently there are no reinforcement learning algorithm modules in Azure ML.

  • ベイズ法は、統計的に独立したデータ ポイントについて仮定を立てます。Bayesian methods make the assumption of statistically independent data points. これは、1 つのデータ ポイントでモデル化されていない変動性は、他と相関関係がないことを意味するため、予測できません。This means that the unmodeled variability in one data point is uncorrelated with others, that is, it can’t be predicted. たとえば、記録されているデータが、次の地下鉄が到着するまでの分単位の時間である場合は、1 日の間に行われた 2 つの測定値は統計的に独立しています。For example, if the data being recorded is the number of minutes until the next subway train arrives, two measurements taken a day apart are statistically independent. ただし、1 分間に行われた 2 つの測定値は統計的に独立していません。一方の値は他の値の高い予測です。However, two measurements taken a minute apart are not statistically independent - the value of one is highly predictive of the value of the other.

  • ブースト デシジョン ツリー回帰は、特徴間の特徴の重複や相互作用を活用します。Boosted decision tree regression takes advantage of feature overlap or interaction among features. つまり、特定のデータ ポイントの 1 つの特徴の値は、ある程度別の値の予測であるということです。That means that, in any given data point, the value of one feature is somewhat predictive of the value of another. たとえば、毎日の最高 / 最低気温データで、その日の最低気温がわかれば、最高気温を合理的に推測できます。For example, in daily high/low temperature data, knowing the low temperature for the day allows you to make a reasonable guess at the high. 2 つの特徴に含まれる情報は、少し冗長です。The information contained in the two features is somewhat redundant.

  • データを 3 つ以上のカテゴリに分類するには、はじめから多クラス分類モデルを使用するか、2 クラス分類モデルを組み合わせてアンサンブルを作成します。Classifying data into more than two categories can be done by either using an inherently multi-class classifier, or by combining a set of two-class classifiers into an ensemble. アンサンブルの手法では、クラスごとに 2 クラス分類モデルを用意し、各モデルがデータを 2 つのカテゴリ ("このクラス" と "これ以外のクラス") に分類します。In the ensemble approach, there is a separate two-class classifier for each class - each one separates the data into two categories: “this class” and “not this class.” これらの分類モデルは、データ ポイントの適切な割り当てに投票します。Then these classifiers vote on the correct assignment of the data point. これは、一対全多クラスのベースになっている運用原理です。This is the operational principle behind One-vs-All Multiclass.

  • ロジスティック回帰やベイズ ポイント マシンなどのいくつかのメソッドでは、線形クラス境界Several methods, including logistic regression and the Bayes point machine, assume linear class boundaries. つまり、クラス間の境界が直線に近い (または、より一般的には超平面である) ことを前提としています。That is, they assume that the boundaries between classes are approximately straight lines (or hyperplanes in the more general case). 多くの場合、これは、分離を試みるまでわからないデータの特性ですが、通常は事前に視覚化することで学習できるものです。Often this is a characteristic of the data that you don’t know until after you’ve tried to separate it, but it’s something that typically can be learned by visualizing beforehand. クラス境界が非常に不規則に見える場合は、デシジョン ツリー、デシジョン ジャングル、サポート ベクター マシン、ニューラル ネットワークを使用します。If the class boundaries look very irregular, stick with decision trees, decision jungles, support vector machines, or neural networks.

  • ニューラル ネットワークは、各カテゴリにダミー変数を作成して、カテゴリが適用される場合はこれを 1 に設定し、適用されない場合は 0 に設定することで、カテゴリ変数と一緒に使用できます。Neural networks can be used with categorical variables by creating a dummy variable for each category, setting it to 1 in cases where the category applies, 0 where it doesn’t.

次の手順Next steps