ワークスペースオブジェクトの概要

[アーティクル]
03/07/2024

この記事では、Azure Databricks ワークスペースオブジェクトの概要について説明します。ワークスペースブラウザーでペルソナにわたってワークスペースオブジェクトを作成、表示、整理できます。

クラスター

Azure Databricks Data Science & Engineering および Databricks Machine Learning クラスターにより、運用 ETL パイプラインの実行、ストリーミング分析、アドホック分析、機械学習などのさまざまなユースケースに対して統一したプラットフォームが提供されます。クラスターは、Azure Databricks "コンピューティングリソース" の一種です。その他のコンピューティングリソースの種類には、Azure Databricks SQL ウェアハウスがあります。

クラスターの管理と使用の詳細については、「コンピューティング」を参照してください。

ノートブック

ノートブックは、ファイルとテーブル、視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントに対する Web ベースのインターフェイスです。コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、順番に実行されます。

ノートブックは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。もう 1 つのメカニズムはジョブです。

ノートブックの管理と使用の詳細については、「Databricks ノートブックの概要」を参照してください。

ジョブ

ジョブは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。もう 1 つのメカニズムはノートブックです。

ジョブの管理と使用の詳細については、「Azure Databricks ジョブを作成して実行する」を参照してください。

ライブラリ

ライブラリを使用すると、サードパーティ製またはローカルで構築されたコードを、クラスターで実行されているノートブックやジョブで使用できるようになります。

ライブラリの管理と使用の詳細については、「ライブラリ」を参照してください。

データ

Azure Databricks ワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Azure Databricks のノートブックとクラスターで操作できます。さまざまな Apache Spark データソースを使用して、データにアクセスすることもできます。

データの読み込みの詳細については、「Databricks レイクハウスにデータを取り込む」を参照してください。

ファイル

重要

この機能はパブリックプレビュー段階にあります。

Databricks Runtime 11.2 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。ファイルの種類には指定がありません。たとえば、次のような場合です。

カスタムモジュールで使用される .py ファイル。
.md ファイル (例: README.md)。
.csv またはその他の小さなデータファイル。
.txt ファイル。
ログファイル。

ファイルの使用方法の詳細については、「Azure Databricks 上でファイルを使用する」を参照してください。 Databricks ノートブックを使用して開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください

Repos

リポジトリとは、リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理される Azure Databricks フォルダーです。 Azure Databricks リポジトリを使用することで、Azure Databricks でノートブックを開発し、コラボレーションとバージョンコントロールのためのリモート Git リポジトリを使用することができます。

リポジトリの使用の詳細については、「Git と Databricks Repos の統合」を参照してください。

モデル

モデル とは、MLflow モデルレジストリに登録されているモデルを指します。モデルレジストリは、MLflow モデルのライフサイクル全体を管理できる一元化されたモデルストアです。時系列のモデル系列、モデルのバージョン管理、ステージ切り替え、モデルとモデルのバージョンの注釈と説明が提供されます。

モデルの管理と使用の詳細については、「Unity Catalog 内でモデルライフサイクルを管理する」を参照してください。

実験

MLflow 実験は、MLflow 機械学習モデルトレーニングを実行するための組織とアクセス制御の主要な単位であり、すべての MLflow 実行は実験に属します。各実験により、実行を視覚化、検索、比較できるだけでなく、他のツールで分析するために実行成果物またはメタデータをダウンロードできます。

実験の管理と使用の詳細については、「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。

クエリ

クエリは、ユーザーがデータと対話できるようにする SQL ステートメントです。詳細については、「保存されたクエリへのアクセスと管理」を参照してください。

ダッシュボード

ダッシュボードは、クエリの視覚化と解説を提示するものです。詳細については、「Databricks SQL ダッシュボード」を参照してください。

警告

アラートは、クエリによって返されたフィールドがしきい値に達したことを示す通知です。詳細については、「Databricks SQL アラートとは」を参照してください。

ワークスペースオブジェクトへの参照

これまで、ユーザーは一部の Databricks API (%sh) の /Workspace パスプレフィックスを含める必要がありましたが、他 (%run、REST API 入力) に対しては行いませんでした。

ユーザーは、/Workspace プレフィックス付きのワークスペースパスをどこでも使用できます。 /Workspace プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き動作します。すべてのワークスペースパスに /Workspace プレフィックスを付けて、ボリュームと DBFS パスを区別することをお勧めします。

一貫性のある /Workspace パスプレフィックスの動作の前提条件は次のとおりです。ワークスペースのルートレベルに /Workspace フォルダーを指定することはできません。ルートレベルに /Workspace フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace フォルダーを削除するか、その名前を変更し、Azure Databricks アカウントチームにお問い合わせください。

ワークスペース オブジェクトの概要