ワークスペース オブジェクトの概要
この記事では、Azure Databricks ワークスペース オブジェクトの概要について説明します。 ワークスペース ブラウザーでペルソナにわたってワークスペース オブジェクトを作成、表示、整理できます。
クラスター
Azure Databricks Data Science & Engineering および Databricks Machine Learning クラスターにより、運用 ETL パイプラインの実行、ストリーミング分析、アドホック分析、機械学習などのさまざまなユース ケースに対して統一したプラットフォームが提供されます。 クラスターは、Azure Databricks "コンピューティング リソース" の一種です。 その他のコンピューティング リソースの種類には、Azure Databricks SQL ウェアハウスがあります。
クラスターの管理と使用の詳細については、「コンピューティング」を参照してください。
ノートブック
ノートブックは、ファイルとテーブル、視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントに対する Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、順番に実行されます。
ノートブックは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムは ジョブです。
ノートブックの管理と使用の詳細については、「Databricks ノートブックの概要」を参照してください。
ジョブ
ジョブは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムはノートブックです。
ジョブの管理と使用の詳細については、「Azure Databricks ジョブを作成して実行する」を参照してください。
ライブラリ
ライブラリを使用すると、サードパーティ製またはローカルで構築されたコードを、クラスターで実行されているノートブックやジョブで使用できるようになります。
ライブラリの管理と使用の詳細については、「ライブラリ」を参照してください。
データ
Azure Databricks ワークスペースにマウントされた分散ファイル システムにデータをインポートし、Azure Databricks のノートブックとクラスターで操作できます。 さまざまな Apache Spark データ ソースを使用して、データにアクセスすることもできます。
データの読み込みの詳細については、「Databricks レイクハウスにデータを取り込む」を参照してください。
ファイル
重要
この機能はパブリック プレビュー段階にあります。
Databricks Runtime 11.2 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルの種類には指定がありません。 たとえば、次のような場合です。
- カスタム モジュールで使用される
.py
ファイル。 .md
ファイル (例:README.md
)。.csv
またはその他の小さなデータ ファイル。.txt
ファイル。- ログ ファイル。
ファイルの使用方法の詳細については、「Azure Databricks 上でファイルを使用する」を参照してください。 Databricks ノートブックを使用して開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください
Repos
リポジトリとは、リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理される Azure Databricks フォルダーです。 Azure Databricks リポジトリを使用することで、Azure Databricks でノートブックを開発し、コラボレーションとバージョン コントロールのためのリモート Git リポジトリを使用することができます。
リポジトリの使用の詳細については、「Git と Databricks Repos の統合」を参照してください。
モデル
モデル とは、MLflow モデル レジストリに登録されているモデルを指します。 モデル レジストリは、MLflow モデルのライフサイクル全体を管理できる一元化されたモデル ストアです。 時系列のモデル系列、モデルのバージョン管理、ステージ切り替え、モデルとモデルのバージョンの注釈と説明が提供されます。
モデルの管理と使用の詳細については、「Unity Catalog 内でモデル ライフサイクルを管理する」を参照してください。
実験
MLflow 実験は、MLflow 機械学習モデル トレーニングを実行するための組織とアクセス制御の主要な単位であり、すべての MLflow 実行は実験に属します。 各実験により、実行を視覚化、検索、比較できるだけでなく、他のツールで分析するために実行成果物またはメタデータをダウンロードできます。
実験の管理と使用の詳細については、「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。
クエリ
クエリは、ユーザーがデータと対話できるようにする SQL ステートメントです。 詳細については、「保存されたクエリへのアクセスと管理」を参照してください。
ダッシュボード
ダッシュボードは、クエリの視覚化と解説を提示するものです。 詳細については、「Databricks SQL ダッシュボード」を参照してください。
警告
アラートは、クエリによって返されたフィールドがしきい値に達したことを示す通知です。 詳細については、「Databricks SQL アラートとは」を参照してください。
ワークスペース オブジェクトへの参照
これまで、ユーザーは一部の Databricks API (%sh
) の /Workspace
パス プレフィックスを含める必要がありましたが、他 (%run
、REST API 入力) に対しては行いませんでした。
ユーザーは、/Workspace
プレフィックス付きのワークスペース パスをどこでも使用できます。 /Workspace
プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き動作します。 すべてのワークスペース パスに /Workspace
プレフィックスを付けて、ボリュームと DBFS パスを区別することをお勧めします。
一貫性のある /Workspace
パス プレフィックスの動作の前提条件は次のとおりです。ワークスペースのルート レベルに /Workspace
フォルダーを指定することはできません。 ルート レベルに /Workspace
フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace
フォルダーを削除するか、その名前を変更し、Azure Databricks アカウント チームにお問い合わせください。