Azure Synapse Analytics の共有メタデータAzure Synapse Analytics shared metadata

Azure Synapse Analytics では、さまざまなワークスペース計算エンジンが、Spark プール (プレビュー) と SQL オンデマンド エンジン (プレビュー) の間でデータベースとテーブルを共有できます。Azure Synapse Analytics allows the different workspace computational engines to share databases and tables between its Spark pools (preview) and SQL on-demand engine (preview).

重要

Azure Synapse Analytics (ワークスペース) は現在プレビュー段階です。Azure Synapse Analytics (workspaces) is currently in preview. このプレビュー バージョンはサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。This preview version is provided without a service level agreement, and it's not recommended for production workloads. 特定の機能はサポート対象ではなく、機能が制限されることがあります。Certain features might not be supported or might have constrained capabilities. 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。For more information, see Supplemental Terms of Use for Microsoft Azure Previews.

この共有では、いわゆる最新のデータ ウェアハウス パターンがサポートされており、ワークスペースの SQL エンジンは、Spark で作成されたデータベースとテーブルにアクセスすることができます。The sharing supports the so-called modern data warehouse pattern and gives the workspace SQL engines access to databases and tables created with Spark. また、SQL エンジンは、他のエンジンと共有されていない独自のオブジェクトを作成することもできます。It also allows the SQL engines to create their own objects that aren't being shared with the other engines.

最新のデータ ウェアハウスをサポートするSupport the modern data warehouse

共有メタデータ モデルでは、次の方法で最新のデータウェアハウス パターンがサポートされます。The shared metadata model supports the modern data warehouse pattern in the following way:

  1. データ レイクのデータは、準備されたデータを、場合によっては複数のデータベースに含まれる (パーティション分割されている可能性のある)、Parquet でサポートされたテーブルに格納することにより、Spark を使用して効率的に準備され、構造化されます。Data from the data lake is prepared and structured efficiently with Spark by storing the prepared data in (possibly partitioned) Parquet-backed tables contained in possibly several databases.

  2. Spark によって作成されたデータベースとすべてのテーブルは、どの Azure Synapse ワークスペースの Spark プール インスタンスでも可視となり、どの Spark ジョブからも使用できます。The Spark created databases and all their tables become visible in any of the Azure Synapse workspace Spark pool instances and can be used from any of the Spark jobs. ワークスペース内のすべての Spark プールは、基になる同じカタログ メタ ストアを共有しているため、この機能はアクセス許可の対象になります。This capability is subject to the permissions since all Spark pools in a workspace share the same underlying catalog meta store.

  3. Spark によって作成されたデータベースと Parquet でサポートされるテーブルは、ワークスペースの SQL オンデマンド エンジンに表示されるようになります。The Spark created databases and their Parquet-backed tables become visible in the workspace SQL on-demand engine. データベースは、SQL オンデマンド メタデータに自動的に作成されます。また、Spark ジョブによって作成された外部テーブルとマネージド テーブルの両方に、対応するデータベースの dbo スキーマの SQL オンデマンド メタデータで外部テーブルとしてアクセスできるようになります。Databases are created automatically in the SQL on-demand metadata, and both the external and managed tables created by a Spark job are made accessible as external tables in the SQL on-demand metadata in the dbo schema of the corresponding database.

オブジェクトの同期は非同期に行われます。Object synchronization occurs asynchronously. オブジェクトが SQL コンテキストに表示されるまでには、数秒のわずかな遅延が発生します。Objects will have a slight delay of a few seconds until they appear in the SQL context. 一度表示されると、それに対してクエリを実行できますが、それに対するアクセス権を持つ SQL エンジンによって更新または変更されることはありません。Once they appear, they can be queried, but not updated nor changed by the SQL engines that have access to them.

共有されるメタデータ オブジェクトWhich metadata objects are shared

Spark を使用すると、データベース、外部テーブル、マネージド テーブル、およびビューを作成できます。Spark allows you to create databases, external tables, managed tables, and views. Spark ビューでは、定義する Spark SQL ステートメントを処理するために Spark エンジンが必要であり、SQL エンジンでは処理できないため、Parquet ストレージ形式を使用するデータベースおよび含まれている外部テーブルとマネージド テーブルのみが、ワークスペースの SQL エンジンと共有されます。Since Spark views require a Spark engine to process the defining Spark SQL statement, and cannot be processed by a SQL engine, only databases and their contained external and managed tables that use the Parquet storage format are shared with the workspace SQL engine. Spark ビューは、Spark プール インスタンス間でのみ共有されます。Spark views are only shared among the Spark pool instances.

セキュリティ モデルの概要Security model at a glance

Spark データベースとテーブルは、SQL エンジンの同期された表現と共に、基になるストレージ レベルで保護されます。The Spark databases and tables, along with their synchronized representations in the SQL engine, are secured at the underlying storage level. クエリ送信者が使用権限を持つ任意のエンジンによってテーブルに対してクエリが実行されると、クエリ送信者のセキュリティ プリンシパルが、基になるファイルに渡されます。When the table is queried by any of the engines that the query submitter has the right to use, the query submitter's security principal is being passed through to the underlying files. アクセス許可は、ファイル システム レベルで確認されます。Permissions are checked at the file system level.

詳細については、「Azure Synapse Analytics の共有データベース」を参照してください。For more information, see Azure Synapse Analytics shared database.

メンテナンスを変更するChange maintenance

メタデータ オブジェクトが Spark で削除または変更されると、その変更が取得され、SQL オンデマンド エンジンに反映されます。If a metadata object is deleted or changed with Spark, the changes are picked up and propagated to the SQL on-demand engine. 同期は非同期であり、変更は少し遅れて SQL エンジンに反映されます。Synchronization is asynchronous and changes are reflected in the SQL engine after a short delay.

次のステップNext steps