Databricks レイクハウスのデータオブジェクト

[アーティクル]
03/01/2024

Databricks レイクハウスは、データベース、テーブル、ビューなどの使い慣れた関係を使用して、クラウドオブジェクトストレージに Delta Lake と共に格納データを整理します。このモデルは、エンタープライズデータウェアハウスの多くの利点と、データレイクのスケーラビリティと柔軟性を組み合わせています。このモデルのしくみと、オブジェクトデータとメタデータの関係について詳しく説明します。これにより、組織は Databricks レイクハウスを設計および実装する際にベストプラクティスを適用できます。

Databricks レイクハウスに存在するデータオブジェクトは?

Databricks レイクハウスのアーキテクチャでは、クラウドオブジェクトストレージ内の Delta Lake プロトコルと格納データを、メタストアに登録されたメタデータと組み合わせます。 Databricks レイクハウスには、次の 5 つの主要なオブジェクトがあります:

カタログ: データベースのグループ。
データベースまたはスキーマ: カタログ内のオブジェクトのグループ。データベースには、テーブル、ビュー、関数が含まれています。
テーブル: オブジェクトストレージにデータファイルとして保存されている行と列のコレクション。
ビュー: 通常、1 つ以上のテーブルまたはデータソースに対して保存されたクエリ。
関数: スカラー値または行のセットを返す保存されたロジック。

Unity Catalog object model diagram

Unity カタログを使用してオブジェクトをセキュリティで保護する方法については、セキュリティ保護できるオブジェクトモデルを参照してください。

メタストアとは

メタストアには、レイクハウス内のデータオブジェクトを定義するすべてのメタデータが含まれています。 Azure Databricks には、次のメタストアオプションが用意されています。

Unity Catalog メタストア: Unity Catalog は、一元化されたアクセス制御、監査、系列、およびデータ検出の機能を提供します。 Unity Catalog メタストアは Azure Databricks アカウントレベルで作成し、1 つのメタストアを複数のワークスペースで使用できます。

各 Unity Catalog メタストアは、Azure アカウント内の Azure Data Lake Storage Gen2 コンテナー内のルートの保存場所を使用して構成されます。この保存場所は、マネージドテーブルのデータの保存に既定で使用されます。

既定では、Unity Catalog のデータはセキュリティ保護されています。初期状態では、ユーザーはメタストア内のデータにアクセスできません。アクセス権は、メタストア管理者またはオブジェクトの所有者が付与できます。 Unity カタログのセキュリティ保護可能なオブジェクトは階層構造であり、権限は下位に継承されます。 Unity Catalog には、データアクセスポリシーを管理するための単一の場所が用意されています。ユーザーは、メタストアがアタッチされている任意のワークスペースから Unity Catalog のデータにアクセスできます。詳細については、「Unity Catalog の特権の管理」を参照してください。
組み込みの Hive メタストア (レガシ): 各 Azure Databricks ワークスペースには、組み込みの Hive メタストアがマネージドサービスとして含まれています。メタストアのインスタンスは、各クラスターにデプロイされ、各顧客ワークスペースの中央リポジトリからメタデータに安全にアクセスします。

Hive メタストアは、Unity Catalog よりも一元化度合いが低いデータガバナンスモデルを提供します。既定では、クラスターは、そのクラスターに対してテーブルアクセス制御が有効になっていない限り、ワークスペースの組み込みの Hive メタストアによって管理されているすべてのデータへのアクセスをすべてのユーザーに対して許可します。詳細については、「Hive メタストアテーブルのアクセス制御 (レガシ)」を参照してください。

テーブルアクセス制御はアカウントレベルでは保存されないため、ワークスペースごとに個別に構成する必要があります。 Unity Catalog によって提供される一元化され合理化されたデータガバナンスモデルを利用するために、Databricks では、ワークスペースの Hive メタストアによって管理されるテーブルを Unity Catalog メタストアにアップグレードすることをお勧めします。
外部 Hive メタストア (レガシ): Azure Databricks で独自のメタストアを使用することもできます。 Azure Databricks クラスターは、既存の外部 Apache Hive メタストアに接続できます。テーブルアクセス制御を使用して、外部メタストアのアクセス許可を管理できます。テーブルアクセス制御は外部メタストアには保存されないため、ワークスペースごとに個別に構成する必要があります。 Databricks では、ガバナンスモデルがシンプルでアカウント中心である Unity Catalog を代わりに使用することをお勧めします。

使用するメタストアに関係なく、Azure Databricks は、すべてのテーブルデータをクラウドアカウントのオブジェクトストレージに保存します。

カタログとは

カタログは、Databricks レイクハウスのリレーショナルモデルにおける最も高い抽象化 (または最高粒度) です。すべてのデータベースがカタログに関連付けられます。カタログはメタストア内のオブジェクトとして存在します。

Azure Databricks では、Unity カタログの導入前に 2 層名前空間を使用しました。カタログは、Unity カタログ名前空間モデルの第 3 層です。

catalog_name.database_name.table_name

組み込みの Hive メタストアでは、1 つのカタログ (hive_metastore) のみがサポートされます。

データベースとは

データベースは、テーブルやビュー ("リレーション" とも呼ばれます) や関数などのデータオブジェクトのコレクションです。 Azure Databricks では、"スキーマ" と "データベース" という用語が同じ意味で使用されます (一方、多くのリレーショナルシステムにおいて、データベースはスキーマのコレクションです)。

データベースは常にクラウドオブジェクトストレージ上の場所に関連付けられます。必要に応じて、次の点に留意しながらデータベースの登録時に LOCATION を指定できます。

データベースに関連付けられている LOCATION は常に、管理されている場所と見なされます。
データベースを作成しても、ターゲットの場所にファイルは作成されません。
データベースの LOCATION によって、そのデータベースに登録されているすべてのテーブルのデータの既定の場所が決まります。
データベースを正常に削除すると、管理されている場所に格納されているすべてのデータとファイルが再帰的に削除されます。

データベースによって管理される場所とデータファイルとの間のこの相互作用は非常に重要です。誤ってデータを削除しないようにするため、

複数のデータベース定義間でデータベースの場所を共有しないでください。
データが既に含まれている場所にデータベースを登録しないでください。
データベースとは別にデータライフサイクルを管理するには、データベースの場所の下にある入れ子になっていない場所にデータを保存します。

テーブルとは

Azure Databricks テーブルは、構造化データのコレクションです。 Delta テーブルは、クラウドオブジェクトストレージ上のファイルのディレクトリとしてデータを格納し、カタログとスキーマ内のメタストアにテーブルメタデータを登録します。 Delta Lake は Azure Databricks で作成されたテーブルの既定のストレージプロバイダーであるため、既定では Databricks で作成されるすべてのテーブルが Delta テーブルです。 Delta テーブルはクラウドオブジェクトストレージにデータを格納し、メタストアを介してデータへの参照を提供するため、組織のすべてのユーザーは優先 API を使用してデータにアクセスできます。Databricks では、このデータには SQL、Python、PySpark、Scala、R が含まれます。

Databricks には Delta テーブル以外のテーブルを作成できます。これらのテーブルは Delta Lake によってサポートされておらず、DELTA テーブルの ACID トランザクションと最適化されたパフォーマンスは提供されません。このカテゴリに分類されるテーブルには、外部システムのデータに対して登録されたテーブルと、データレイク内の他のファイル形式に対して登録されたテーブルが含まれます。データソースへの接続に関するページを参照してください。

Databricks には、マネージドテーブルとアンマネージドテーブル (または外部テーブル) の 2 種類のテーブルがあります。

注意

Delta ライブテーブルのライブテーブルとストリーミングライブテーブルの違いは、テーブルの観点からは適用されません。

マネージドテーブルとは

Azure Databricks は、マネージドテーブルのメタデータとデータの両方を管理します。テーブルを削除すると、基になるデータも削除されます。データアナリストや、主に SQL で作業する他のユーザーは、この動作を好む場合があります。マネージドテーブルは、テーブルの作成時の既定値です。マネージドテーブルのデータは、そのデータが登録されているデータベースの LOCATION に存在します。データの場所とデータベースの間のこのマネージドリレーションシップのため、管理テーブルを新しいデータベースに移動するには、すべてのデータを新しい場所に書き換える必要があります。

マネージドテーブルは、次のようなさまざまな方法で作成できます。

CREATE TABLE table_name AS SELECT * FROM another_table

CREATE TABLE table_name (field_name1 INT, field_name2 STRING)

df.write.saveAsTable("table_name")

アンマネージドテーブルとは

Azure Databricks は、アンマネージド (外部) テーブルのメタデータのみを管理します。テーブルを削除しても、基になるデータには影響がありません。アンマネージドテーブルは、テーブルの作成時に常に LOCATION を指定します。データファイルの既存のディレクトリをテーブルとして登録することも、テーブルが最初に定義されるときにパスを指定することもできます。データとメタデータは個別に管理されるため、データを移動することなく、テーブルの名前を変更したり、新しいデータベースに登録したりできます。データエンジニアは多くの場合、アンマネージドテーブルと、運用データに対して提供される柔軟性を優先します。

アンマネージドテーブルは、次のようなさまざまな方法で作成できます。

CREATE TABLE table_name
USING DELTA
LOCATION '/path/to/existing/data'

CREATE TABLE table_name
(field_name1 INT, field_name2 STRING)
LOCATION '/path/to/empty/directory'

df.write.option("path", "/path/to/empty/directory").saveAsTable("table_name")

ビューとは

ビューには通常、メタストア内の 1 つ以上のデータソースまたはテーブルに対するクエリのテキストが格納されます。 Databricks では、ビューはデータベース内のオブジェクトとして永続化された Spark DataFrame と同等です。 DataFrame とは異なり、Databricks 製品の任意の部分のビューに対してクエリを実行できます。これを行うアクセス許可があるとします。ビューを作成しても、データが処理されたり書き込まれたりすることはありません。関連付けられたデータベース内のメタストアに登録されるのは、クエリテキストのみです。

一時ビューとは

一時ビューのスコープと永続化には制限があり、スキーマまたはカタログには登録されません。一時ビューの有効期間は、お使いの環境によって異なります。

ノートブックとジョブでは、一時ビューのスコープはノートブックまたはスクリプトレベルになります。これらは、宣言されているノートブックの外部では参照できず、ノートブックがクラスターからデタッチされると存在しなくなります。
Databricks SQL では、一時ビューのスコープはクエリレベルになります。同じクエリ内の複数のステートメントで一時ビューを使用できますが、同じダッシュボード内であっても、他のクエリで参照することはできません。
グローバル一時ビューのスコープはクラスターレベルになり、コンピューティングリソースを共有するノートブックまたはジョブ間で共有できます。 Databricks では、グローバル一時ビューではなく、適切なテーブル ACL でビューを使用することをお勧めします。

関数とは

関数を使用すると、ユーザー定義のロジックをデータベースに関連付けることができます。関数は、スカラー値または行のセットを返すことができます。関数は、データを集計するために使用されます。 Azure Databricks を使用すると、実行コンテキストに応じてさまざまな言語で関数を保存でき、SQL は広くサポートされています。関数を使用すると、Databricks 製品のさまざまなコンテキストでカスタムロジックへのマネージドアクセスを提供できます。

Delta Live Tables でのリレーショナルオブジェクトのしくみ

Delta Live Tables では、宣言構文を使用して DDL、DML、インフラストラクチャのデプロイを定義および管理します。 Delta Live Tables では、ロジックのプランニングと実行の際に "仮想スキーマ" の概念が使用されます。 Delta Live Tables テーブルは、Databricks 環境内の他のデータベースとやり取りできます。Delta Live Tables では、パイプライン構成設定でターゲットデータベースを指定することで、他の場所でクエリを実行するためのテーブルを公開および保持できます。

Delta Live Tables で作成されたすべてのテーブルは Delta テーブルです。 Delta Live Tables で Unity Catalog を使用する場合、すべてのテーブルは Unity Catalog マネージドテーブルです。 Unity Catalog がアクティブではない場合、テーブルはマネージドテーブルまたはアンマネージドテーブルとして宣言できます。

Delta Live Tables ではビューを宣言できますが、これらのビューはパイプラインをスコープとした一時ビューと考える必要があります。 Delta Live Tables の一時テーブルは一意の概念です。これらのテーブルはデータをストレージに保持しますが、ターゲットデータベースにはデータを公開しません。

たとえば APPLY CHANGES INTO などの一部の操作では、テーブルとビューの両方がデータベースに登録されます。テーブル名はアンダースコア (_) で始まり、ビューにはテーブル名が APPLY CHANGES INTO 操作のターゲットとして宣言されます。ビューは、対応する非表示テーブルを照会して結果を具体化します。

Databricks レイクハウスのデータ オブジェクト

Databricks レイクハウスに存在するデータ オブジェクトは?