ワークスペース オブジェクトの概要

この記事では、Azure Databricks ワークスペース オブジェクトの概要について説明します。 ワークスペース ブラウザーでペルソナにわたってワークスペース オブジェクトを作成、表示、整理できます。

クラスター

Azure Databricks Data Science & Engineering および Databricks Machine Learning クラスターにより、運用 ETL パイプラインの実行、ストリーミング分析、アドホック分析、機械学習などのさまざまなユース ケースに対して統一したプラットフォームが提供されます。 クラスターは、Azure Databricks "コンピューティング リソース" の一種です。 その他のコンピューティング リソースの種類には、Azure Databricks SQL ウェアハウスがあります。

クラスターの管理と使用の詳細については、「コンピューティング」を参照してください。

ノートブック

ノートブックは、ファイルとテーブル視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントに対する Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、順番に実行されます。

ノートブックは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムは ジョブです。

ノートブックの管理と使用の詳細については、「Databricks ノートブックの概要」を参照してください。

ジョブ

ジョブは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムはノートブックです。

ジョブの管理と使用の詳細については、「Azure Databricks ジョブを作成して実行する」を参照してください。

ライブラリ

ライブラリを使用すると、サードパーティ製またはローカルで構築されたコードを、クラスターで実行されているノートブックやジョブで使用できるようになります。

ライブラリの管理と使用の詳細については、「ライブラリ」を参照してください。

データ

Azure Databricks ワークスペースにマウントされた分散ファイル システムにデータをインポートし、Azure Databricks のノートブックとクラスターで操作できます。 さまざまな Apache Spark データ ソースを使用して、データにアクセスすることもできます。

データの読み込みの詳細については、「Databricks レイクハウスにデータを取り込む」を参照してください。

ファイル

重要

この機能はパブリック プレビュー段階にあります。

Databricks Runtime 11.2 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルの種類には指定がありません。 たとえば、次のような場合です。

  • カスタム モジュールで使用される .py ファイル。
  • .md ファイル (例: README.md)。
  • .csv またはその他の小さなデータ ファイル。
  • .txt ファイル。
  • ログ ファイル。

ファイルの使用方法の詳細については、「Azure Databricks 上でファイルを使用する」を参照してください。 Databricks ノートブックを使用して開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください

Repos

リポジトリとは、リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理される Azure Databricks フォルダーです。 Azure Databricks リポジトリを使用することで、Azure Databricks でノートブックを開発し、コラボレーションとバージョン コントロールのためのリモート Git リポジトリを使用することができます。

リポジトリの使用の詳細については、「Git と Databricks Repos の統合」を参照してください。

モデル

モデル とは、MLflow モデル レジストリに登録されているモデルを指します。 モデル レジストリは、MLflow モデルのライフサイクル全体を管理できる一元化されたモデル ストアです。 時系列のモデル系列、モデルのバージョン管理、ステージ切り替え、モデルとモデルのバージョンの注釈と説明が提供されます。

モデルの管理と使用の詳細については、「Unity Catalog 内でモデル ライフサイクルを管理する」を参照してください。

実験

MLflow 実験は、MLflow 機械学習モデル トレーニングを実行するための組織とアクセス制御の主要な単位であり、すべての MLflow 実行は実験に属します。 各実験により、実行を視覚化、検索、比較できるだけでなく、他のツールで分析するために実行成果物またはメタデータをダウンロードできます。

実験の管理と使用の詳細については、「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。

クエリ

クエリは、ユーザーがデータと対話できるようにする SQL ステートメントです。 詳細については、「保存されたクエリへのアクセスと管理」を参照してください。

ダッシュボード

ダッシュボードは、クエリの視覚化と解説を提示するものです。 詳細については、「Databricks SQL ダッシュボード」を参照してください。

警告

アラートは、クエリによって返されたフィールドがしきい値に達したことを示す通知です。 詳細については、「Databricks SQL アラートとは」を参照してください。

ワークスペース オブジェクトへの参照

これまで、ユーザーは一部の Databricks API (%sh) の /Workspace パス プレフィックスを含める必要がありましたが、他 (%run、REST API 入力) に対しては行いませんでした。

ユーザーは、/Workspace プレフィックス付きのワークスペース パスをどこでも使用できます。 /Workspace プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き動作します。 すべてのワークスペース パスに /Workspace プレフィックスを付けて、ボリュームと DBFS パスを区別することをお勧めします。

一貫性のある /Workspace パス プレフィックスの動作の前提条件は次のとおりです。ワークスペースのルート レベルに /Workspace フォルダーを指定することはできません。 ルート レベルに /Workspace フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace フォルダーを削除するか、その名前を変更し、Azure Databricks アカウント チームにお問い合わせください。