モデル トレーニングの例
このセクションには、多くの一般的なオープンソース ライブラリを使用して、Azure Databricks で機械学習モデルをトレーニングする方法を示す例があります。
さらに、AutoML を使用すれば、モデル トレーニング用のデータセットを自動的に準備し、scikit-learn や XGBoost などのオープンソース ライブラリを使用して一連のトライアルを実行し、トライアルの実行ごとにソース コードを含む Python ノートブックを作成して、コードを確認、再現、変更できます。
Unity Catalog のデータを使用する機械学習モデルをトレーニングし、予測を Unity Catalog に書き戻す方法を示すノートブックの例については、「Unity Catalog で機械学習モデルをトレーニングして登録する」を参照してください。
機械学習の例
Package | ノートブック | 機能 |
---|---|---|
scikit-learn | 機械学習のチュートリアル | 分類モデル、MLflow、Hyperopt および MLflow を使用したハイパーパラメーターの自動チューニング |
scikit-learn | エンド ツー エンドの例 | 分類モデル、MLflow、 Hyperopt および MLflow を使用したハイパーパラメーターの自動チューニング、モデル レジストリ、モデルの提供 |
MLlib | MLlib の例 | 二項分類、デシジョン ツリー、GBT 回帰、構造化ストリーミング、カスタム トランスフォーマー |
xgboost | XGBoost の例 | Python、PySpark、Scala、単一ノードワークロード、分散トレーニング |
ハイパーパラメーター チューニングの例
Azure Databricks でのハイパーパラメーターのチューニングに関する一般的な情報については、「ハイパーパラメーターの調整」を参照してください。
Package | ノートブック | 機能 |
---|---|---|
Hyperopt | 分散 hyperopt | 分散 hyperopt、scikit-learn、MLflow |
Hyperopt | モデルの比較 | 分散 hyperopt を使用して、ハイパーパラメーター空間でさまざまなモデルの種類を同時に検索します |
Hyperopt | 分散トレーニングのアルゴリズムと hyperopt | Hyperopt、MLlib |
Hyperopt | Hyperopt のベスト プラクティス | さまざまなサイズのデータセットでのベスト プラクティス |