スケールアウトされたクラウドデータベース全体をレポートする (プレビュー)

[アーティクル]
04/26/2023

Query across shards

シャード化されたデータベースは、スケールアウトされたデータ層の全体に行を分散させます。スキーマは、すべての参加データベース上で同じで、行方向のパーティション分割とも呼ばれます。エラスティッククエリを使用すると、シャード化されたデータベース内のすべてのデータベースにまたがるレポートを作成できます。

クイックスタートについては、スケールアウトされたクラウドデータベース全体のレポートに関するページを参照してください。

シャード化されていないデータベースについては、「 Query across cloud databases with different schemas (スキーマが異なるクラウドデータベース間のクエリ)」をご覧ください。

前提条件

エラスティックデータベースクライアントライブラリを使用して、シャードマップを作成します。「シャードマップの管理」を参照してください。または、「エラスティックデータベースツールの概要」のサンプルアプリを使用します。
あるいは、「既存のデータベースをスケールアウトされたデータベースに移行する」を参照してください。
ユーザーは、ALTER ANY EXTERNAL DATA SOURCE アクセス許可を所有している必要があります。このアクセス許可は、ALTER DATABASE アクセス許可に含まれています。
ALTER ANY EXTERNAL DATA SOURCE アクセス許可は、基になるデータソースを参照するために必要です。

概要

これらのステートメントを使うと、エラスティッククエリデータベース内のシャーディングされたデータのメタデータ表現を作成できます。

1.1 データベーススコープのマスターキーと資格情報の作成

この資格情報は、リモートデータベースに接続するために、エラスティッククエリによって使用されます。

CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'password';
CREATE DATABASE SCOPED CREDENTIAL [<credential_name>]  WITH IDENTITY = '<username>',  
SECRET = '<password>';

注意

"<username>" にサフィックス "@servername" が含まれていないことを確認してください。

1.2 外部データソースの作成

構文:

<External_Data_Source> ::=
    CREATE EXTERNAL DATA SOURCE <data_source_name> WITH
        (TYPE = SHARD_MAP_MANAGER,
                   LOCATION = '<fully_qualified_server_name>',
        DATABASE_NAME = '<shardmap_database_name>',
        CREDENTIAL = <credential_name>,
        SHARD_MAP_NAME = '<shardmapname>'
               ) [;]

例

CREATE EXTERNAL DATA SOURCE MyExtSrc
WITH
(
    TYPE=SHARD_MAP_MANAGER,
    LOCATION='myserver.database.windows.net',
    DATABASE_NAME='ShardMapDatabase',
    CREDENTIAL= SMMUser,
    SHARD_MAP_NAME='ShardMap'
);

現在の外部データソースの一覧を取得します。

select * from sys.external_data_sources;

外部データソースは、シャードマップを参照します。エラスティッククエリは、外部データソースと基になるシャードマップを使用して、データ層にあるデータベースを列挙します。シャードマップを読み取る場合と、エラスティッククエリの処理中にシャード上のデータにアクセスする場合は、同じ資格情報が使用されます。

1.3 外部テーブルの作成

構文:

CREATE EXTERNAL TABLE [ database_name . [ schema_name ] . | schema_name. ] table_name  
    ( { <column_definition> } [ ,...n ])
    { WITH ( <sharded_external_table_options> ) }
) [;]  

<sharded_external_table_options> ::=
  DATA_SOURCE = <External_Data_Source>,
  [ SCHEMA_NAME = N'nonescaped_schema_name',]
  [ OBJECT_NAME = N'nonescaped_object_name',]
  DISTRIBUTION = SHARDED(<sharding_column_name>) | REPLICATED |ROUND_ROBIN

例

CREATE EXTERNAL TABLE [dbo].[order_line](
     [ol_o_id] int NOT NULL,
     [ol_d_id] tinyint NOT NULL,
     [ol_w_id] int NOT NULL,
     [ol_number] tinyint NOT NULL,
     [ol_i_id] int NOT NULL,
     [ol_delivery_d] datetime NOT NULL,
     [ol_amount] smallmoney NOT NULL,
     [ol_supply_w_id] int NOT NULL,
     [ol_quantity] smallint NOT NULL,
      [ol_dist_info] char(24) NOT NULL
)

WITH
(
    DATA_SOURCE = MyExtSrc,
     SCHEMA_NAME = 'orders',
     OBJECT_NAME = 'order_details',
    DISTRIBUTION=SHARDED(ol_w_id)
);

外部テーブルの一覧を現在のデータベースから取得します。

SELECT * from sys.external_tables;

外部テーブルを削除するには

DROP EXTERNAL TABLE [ database_name . [ schema_name ] . | schema_name. ] table_name[;]

解説

DATA_SOURCE 句では、外部テーブルに使用される外部データソース (シャードマップ) を定義します。

SCHEMA_NAME 句と OBJECT_NAME 句では、外部テーブルの定義を別のスキーマ内のテーブルにマップします。これらを省略した場合、リモートオブジェクトのスキーマは dbo と見なされ、その名前は定義されている外部テーブルの名前と同一であると見なされます。これは、リモートテーブルの名前が、外部テーブルを作成するデータベースで既に取得されている場合に便利です。たとえば、スケールアウトされたデータ層のカタログビューまたは DMV の集計ビューを取得する外部テーブルを定義する場合が挙げられます。カタログビューと DMV は既にローカルに存在するため、外部テーブルの定義にその名前を使うことはできません。代わりに、別の名前を使用して、カタログビューまたは DMV の名前を SCHEMA_NAME 句または OBJECT_NAME 句で使用します。 (次の例を参照してください)。

DISTRIBUTION 句は、このテーブルに使用するデータ分散を指定します。クエリプロセッサは、DISTRIBUTION 句で提供される情報を使用して、最も効率的なクエリプランを作成します。

SHARDED は、データがデータベース間で行方向にパーティション分割されることを意味します。データ分散のパーティション分割キーは、<sharding_column_name> パラメーターです。
REPLICATED は、テーブルの同一のコピーが各データベースに存在することを意味します。データベース間でレプリカが同じであることを自分で確認する必要があります。
ROUND_ROBIN は、テーブルがアプリケーションに依存する分散方法を使用して、行方向にパーティション分割されることを意味します。

データ層参照: 外部テーブル DDL は、外部データソースを参照します。外部データソースは、データ層のすべてのデータベースを見つけるために必要な情報を外部テーブルに提供するシャードマップを指定します。

セキュリティに関する考慮事項

外部テーブルへのアクセス権を持つユーザーは、外部データソース定義に指定された資格情報の下で、基になるリモートテーブルへのアクセス権を自動的に取得します。外部データソースの資格情報による不要な特権の昇格を防ぎます。外部テーブルに対して、通常のテーブルであるかのように GRANT または REVOKE を使用します。

外部データソースと外部テーブルを定義すると、外部テーブルに対して完全に T-SQL を使用できるようになります。

例: 行方向にパーティション分割されたデータベースのクエリ

次のクエリでは、倉庫、注文、および注文明細行の間で 3 方向結合を実行し、いくつかの集計と選択的フィルターを使用します。ここでは、(1) 行方向のパーティション分割 (シャーディング) のほか、(2) 倉庫、注文、および注文明細行が倉庫の ID 列でシャード化されること、エラスティッククエリがシャード上の結合を併置できること、クエリの負荷の高い部分をシャード上で並列に処理できることを想定しています。

    select  
         w_id as warehouse,
         o_c_id as customer,
         count(*) as cnt_orderline,
         max(ol_quantity) as max_quantity,
         avg(ol_amount) as avg_amount,
         min(ol_delivery_d) as min_deliv_date
    from warehouse
    join orders
    on w_id = o_w_id
    join order_line
    on o_id = ol_o_id and o_w_id = ol_w_id
    where w_id > 100 and w_id < 200
    group by w_id, o_c_id

T-SQL リモート実行のストアドプロシージャ: sp_execute_remote

エラスティッククエリには、シャードへの直接アクセスを提供するストアドプロシージャも導入されています。このストアドプロシージャは sp_execute_remote と呼ばれ、リモートデータベースでリモートストアドプロシージャまたは T-SQL コードを実行するときに使用できます。使用できるパラメーターは次のとおりです。

データソース名 (nvarchar): RDBMS 型の外部データソースの名前。
クエリ (nvarchar): 各シャードで実行する T-SQL クエリ。
パラメーター宣言 (nvarchar) (省略可能): (sp_executesql などの) クエリパラメーターで使用される、パラメーターのデータ型定義を含む文字列。
パラメーター値のリスト (省略可能): (sp_executesql などの) パラメーター値のコンマ区切りリスト。

sp_execute_remote では、起動パラメーターで指定された外部データソースを使用して、指定された T-SQL ステートメントをリモートデータベースで実行します。 shardmap マネージャーデータベースとリモートデータベースへの接続には、外部データソースの資格情報を使用します。

例:

    EXEC sp_execute_remote
        N'MyExtSrc',
        N'select count(w_id) as foo from warehouse'

ツールの接続性

通常の SQL Server 接続文字列を使用して、アプリケーション、BI、およびデータ統合ツールを、外部テーブル定義を持つデータベースに接続できます。使用しているツールのデータソースとして SQL Server がサポートされていることを確認してください。次に、ツールに接続される他の SQL Server データベースと同様にエラスティッククエリデータベースを参照して、外部テーブルをローカルテーブルであるかのようにツールまたはアプリケーションから使用します。

ベストプラクティス

エラスティッククエリエンドポイントデータベースに、SQL Database ファイアウォール経由でのシャードマップデータベースとすべてのシャードへのアクセスが確実に許可されているようにします。
外部テーブルで定義されたデータ分散を検証または適用しません。実際のデータ分散がテーブル定義に指定されたデータ分散と異なる場合、クエリが予期しない結果を生成する場合があります。
シャーディングキーによる述語で特定のシャードを処理から安全に除外できる場合、エラスティッククエリでは、現在のところ、シャードの除去を実行しません。
エラスティッククエリは、計算の大部分をシャード上で実行できるクエリに最適です。通常、最適なクエリパフォーマンスが得られるのは、シャード上で評価可能な選択的なフィルター述語を使用した場合、またはすべてのシャード上でパーティション分割方法により実行可能な、パーティション分割キーによる結合を使用した場合となります。その他のクエリパターンでは、シャードからヘッドノードに大量のデータを読み込むことが必要になる場合があり、パフォーマンスが低下する可能性があります。

次のステップ

エラスティッククエリの概要については、「Azure SQL Database エラスティックデータベースクエリの概要 (プレビュー)」をご覧ください。
列方向のパーティション分割のチュートリアルについては、「クロスデータベースクエリの概要 (列方向のパーティション分割) (プレビュー)」をご覧ください。
列方向にパーティション分割されたデータの構文とサンプルクエリについては、「例: 列方向にパーティション分割されたデータベースのクエリ」をご覧ください。
行方向のパーティション分割 (シャード化) のチュートリアルについては、「スケールアウトされたクラウドデータベース全体のレポート (プレビュー)」をご覧ください。
行方向のパーティション分割方式でシャードとして機能する単一のリモート Azure SQL Database またはデータベースのセットに対して Transact-SQL ステートメントを実行するストアドプロシージャについては、「sp_execute _remote」を参照してください。

スケールアウトされたクラウドデータベース全体をレポートする (プレビュー)

前提条件

概要

1.1 データベーススコープのマスターキーと資格情報の作成

1.2 外部データソースの作成

例

1.3 外部テーブルの作成

解説

セキュリティに関する考慮事項

例: 行方向にパーティション分割されたデータベースのクエリ

T-SQL リモート実行のストアドプロシージャ: sp_execute_remote

ツールの接続性

ベストプラクティス

次のステップ

フィードバック

フィードバック

その他のリソース

スケールアウトされたクラウド データベース全体をレポートする (プレビュー)

前提条件

概要

1.1 データベース スコープのマスター キーと資格情報の作成

1.2 外部データ ソースの作成

例

1.3 外部テーブルの作成

解説

セキュリティに関する考慮事項

例: 行方向にパーティション分割されたデータベースのクエリ

T-SQL リモート実行のストアド プロシージャ: sp_execute_remote

ツールの接続性

ベスト プラクティス

次のステップ

フィードバック

フィードバック

その他のリソース

スケールアウトされたクラウドデータベース全体をレポートする (プレビュー)

1.1 データベーススコープのマスターキーと資格情報の作成

1.2 外部データソースの作成

T-SQL リモート実行のストアドプロシージャ: sp_execute_remote

ベストプラクティス