レイクデータベースの概念を理解する

3 分

従来のリレーショナルデータベースでは、データベーススキーマはテーブル、ビュー、その他のオブジェクトで構成されています。リレーショナルデータベースのテーブルには、データを格納するエンティティが定義されています。たとえば、小売データベースには、製品、顧客、注文のテーブルが含まれます。各エンティティは、テーブルの列として定義される一連の属性から構成され、各列には名前とデータ型があります。テーブルのデータはデータベースに格納され、テーブルの定義と密接に結合されます。テーブルの定義によって、データ型、NULL 値の許容、キーの一意性、関連するキー間の参照整合性を強制します。すべてのクエリとデータ操作は、データベースシステムを介して実行する必要があります。

データレイクに固定のスキーマはありません。データは、構造化、半構造化、または非構造化のファイルに格納されます。アプリケーションとデータのアナリストは、リレーショナルデータベースシステムの制約を受けることなく、好みのツールを使ってデータレイク内のファイルを直接操作できます。

"レイクデータベース" には、データレイク内の 1 つ以上のファイルに対してリレーショナルメタデータレイヤーがあります。列名、データ型だけでなく、主キーと外部キーの列間のリレーションシップなど、テーブルの定義を含むレイクデータベースを作成できます。テーブルはデータレイク内のファイルを参照するので、データの操作や SQL を使ったクエリにリレーショナルセマンティクスを適用できます。ただし、データファイルのストレージはデータベーススキーマから切り離されているため、一般的にリレーショナルデータベースシステムが提供するよりも高い柔軟性があります。

Diagram of a relational schema of linked tables overlaying files in a file store.

レイクデータベースのスキーマ

Azure Synapse Analytics でレイクデータベースを作成し、データを格納する必要のあるエンティティを表すテーブルを定義することができます。実績のあるデータモデリング原則を適用してテーブル間のリレーションシップを作成し、テーブル、列、その他のデータベースオブジェクトに適切な名前付け規則を使用できます。

Azure Synapse Analytics にはグラフィカルデータベース設計インターフェイスが含まれており、データベース設計については、従来のデータベースに適用するものと同じベストプラクティスの多くを使って、複雑なデータベーススキーマをモデル化することができます。

レイクデータベースストレージ

レイクデータベース内のテーブルのデータは、Parquet または CSV ファイル形式でデータレイクに格納されます。このファイルはデータベーステーブルとは独立して管理できるので、さまざまなデータ処理ツールとテクノロジを使ったデータインジェストと操作の管理が容易になります。

レイクデータベースのコンピューティング

定義したテーブルを介してデータのクエリと操作を行うには、Azure Synapse サーバーレス SQL プールを使って SQL クエリを実行するか、Azure Synapse Apache Spark プールを使い、Spark SQL API を使ってテーブルを操作することができます。

続行

レイク データベースの概念を理解する

レイク データベースのスキーマ

レイク データベース ストレージ

レイク データベースのコンピューティング

フィードバック

レイクデータベースのスキーマ

レイクデータベースストレージ

レイクデータベースのコンピューティング