Microsoft Azure Machine Learning Studio の機械学習アルゴリズム チート シート

Microsoft Azure Machine Learning チート シート を使用すると、予測分析モデルに最適なアルゴリズムを選択できます。

Azure Machine Learning Studio には、regressionclassificationclusteringanomaly detection ファミリの多様なアルゴリズムのライブラリがあります。 各アルゴリズムは、異なる種類の機械学習の問題に対処するために設計されています。

ダウンロード: 機械学習アルゴリズム チート シート

チート シートをダウンロードする: Machine Learning アルゴリズム チート シート (11 x 17 インチ)

Machine Learning Algorithm Cheat Sheet : Machine Learning アルゴリズムの選択方法

Machine Learning アルゴリズム チート シートをダウンロードし、タブロイド サイズで印刷すると、手元に保管しやすくなり、アルゴリズムを選択するときに役立ちます。

メモ

このチート シートを使用する詳細なガイドについては、「 Microsoft Azure Machine Learning のアルゴリズムを選択する方法 」をご覧ください。

アルゴリズムに関するその他のヘルプ

メモ

Azure Machine Learning の無料評価版

クレジット カードも Azure サブスクリプションも必要ありません。 今すぐ使ってみる >.

機械学習アルゴリズム チート シートの注意事項と用語の定義

  • このアルゴリズム チート シートに示した提案は経験則です。 変化する場合や著しく異なる場合があります。 これは、開始点を提案するものです。 データに使用した複数のアルゴリズム間で競合が発生しても心配しないでください。 それぞれのアルゴリズムの原則を理解し、データが生成されたシステムを理解することに代わるものはありません。

  • すべての機械学習アルゴリズムには、独自のスタイルや "帰納的バイアス" があります。 特定の問題に対しては、複数のアルゴリズムが適切な場合や、1 つのアルゴリズムが他のアルゴリズムよりも適している場合があります。 しかし、事前にどれが最適かを知ることができるとは限りません。 このような場合は、複数のアルゴリズムがチート シートに一緒に記載されています。 1 つのアルゴリズムを試してみて、結果に満足できない場合は、他のアルゴリズムを試してみるのが適切な方策でしょう。 同一データに対して複数のアルゴリズムを試し、その結果を比較した、「Cortana Intelligence Gallery (Cortana Intelligence ギャラリー)」の「Compare Multi-class Classifiers: Letter recognition (多クラス分類モデルの比較: 文字認識)」というサンプルを参照してください。

  • 機械学習には、主に 3 つのカテゴリ (教師あり学習教師なし学習強化学習) があります。

    • 教師あり学習では、各データ ポイントに、カテゴリや関心のある値がラベル付けまたは関連付けられています。 カテゴリのラベルには、たとえば '猫' または '犬' のいずれかの画像を割り当てています。 値のラベルの例は、中古車に関連付けられている販売価格です。 教師あり学習の目的は、このような多くのラベルの付いた例を学習し、将来のデータ ポイントを予測して、 たとえば、新しい写真の動物を正しく識別したり、他の中古車に正しい販売価格を割り当てることができるようになることです。 これは、人気のある便利な機械学習の種類です。 Azure Machine Learning のモジュールは、K 平均法クラスタリングを除いて、すべて教師あり学習アルゴリズムです。

    • 教師なし学習では、データ ポイントにラベルが関連付けられていません。 代わりに、教師なし学習アルゴリズムの目的は、いくつかの方法でデータを整理したり、その構造を記述することです。 これは、K 平均法と同様にクラスターにグループ化したり、複雑なデータを簡単に表示できるようにさまざまな表示方法を検索することを意味します。

    • 強化学習では、アルゴリズムが各データ ポイントへの応答を基にしてアクションを選択します。 これはロボット工学の一般的な手法です。ある時点での一連のセンサーの読み取りがデータ ポイントになり、アルゴリズムがロボットの次の動作を選択します。 モノのインターネット アプリケーションにも自然に適合します。 学習アルゴリズムでは、短時間で報酬信号を受信し、その決定がいかに優れていたかを示します。 アルゴリズムはこれに基に、最大の報酬を実現するために、戦略を変更します。 現時点で、Azure ML には強化学習アルゴリズム モジュールはありません。

  • ベイズ法は、統計的に独立したデータ ポイントについて仮定を立てます。 これは、1 つのデータ ポイントでモデル化されていない変動性は、他と相関関係がないことを意味するため、予測できません。 たとえば、記録されているデータが、次の地下鉄が到着するまでの分単位の時間である場合は、1 日の間に行われた 2 つの測定値は統計的に独立しています。 ただし、1 分間に行われた 2 つの測定値は統計的に独立していません。一方の値は他の値の高い予測です。

  • ブースト デシジョン ツリー回帰は、特徴間の特徴の重複や相互作用を活用します。 つまり、特定のデータ ポイントの 1 つの特徴の値は、ある程度別の値の予測であるということです。 たとえば、毎日の最高 / 最低気温データで、その日の最低気温がわかれば、最高気温を合理的に推測できます。 2 つの特徴に含まれる情報は、少し冗長です。

  • データを 3 つ以上のカテゴリに分類するには、はじめから多クラス分類モデルを使用するか、2 クラス分類モデルを組み合わせてアンサンブルを作成します。 アンサンブルの手法では、クラスごとに 2 クラス分類モデルを用意し、各モデルがデータを 2 つのカテゴリ ("このクラス" と "これ以外のクラス") に分類します。 これらの分類モデルは、データ ポイントの適切な割り当てに投票します。 これは、一対全多クラスのベースになっている運用原理です。

  • ロジスティック回帰やベイズ ポイント マシンなどのいくつかのメソッドでは、線形クラス境界、 つまり、クラス間の境界が直線に近い (または、より一般的には超平面である) ことを前提としています。 多くの場合、これは、分離を試みるまでわからないデータの特性ですが、通常は事前に視覚化することで学習できるものです。 クラス境界が非常に不規則に見える場合は、デシジョン ツリー、デシジョン ジャングル、サポート ベクター マシン、ニューラル ネットワークを使用します。

  • ニューラル ネットワークは、各カテゴリにダミー変数を作成して、カテゴリが適用される場合はこれを 1 に設定し、適用されない場合は 0 に設定することで、カテゴリ変数と一緒に使用できます。