Microsoft Purview で Google BigQuery プロジェクトに接続して管理する (プレビュー)

この記事では、Google BigQuery プロジェクトを登録する方法と、Microsoft Purview で、Google BigQuery を使用して認証および操作する方法について説明します。 Microsoft Purview の詳細については、紹介記事をご覧ください。

重要

現在、この機能はプレビュー段階にあります。 ベータ版、プレビュー版、または一般提供としてまだリリースされていない Azure の機能に適用されるその他の法律条項については、「Microsoft Azure プレビューの追加使用条件」に記載されています。

サポートされる機能

メタデータの抽出 フル スキャン 増分スキャン スコープ スキャン 分類 アクセス ポリシー 系列 データ共有
はい はい いいえ はい いいえ いいえ はい いいえ

Google BigQuery ソースをスキャンする場合、Microsoft Purview では以下のことがサポートされます。

  • 次のような技術メタデータの抽出。

    • プロジェクト
    • データセット
    • 列を含むテーブル
    • 列を含むビュー
  • テーブルとビュー間の資産リレーションシップの静的な系列のフェッチ。

スキャンを設定するときに、Google BigQuery プロジェクト全体をスキャンするか、指定した名前または名前パターンに一致するデータセットのサブセットにスキャンを適用するかを選択できます。

Note

現在のところ Microsoft Purview では、米国の複数リージョンの場所にある Google BigQuery データセットのスキャンのみをサポートしています。 指定されたデータセットが us-east1 や ヨーロッパ などの別の場所にある場合は、スキャンの完了を確認しますが、資産は Microsoft Purview に表示されません。

前提条件

  • アクティブなサブスクリプションが含まれる Azure アカウント。 無料でアカウントを作成できます

  • アクティブな Microsoft Purview アカウント

  • Microsoft Purview ガバナンス ポータルでソースを登録して管理するには、データ ソース管理者およびデータ閲覧者のアクセス許可が必要です。 アクセス許可の詳細については「Microsoft Purview でのアクセスの制御」を参照してください。

  • 最新のセルフホステッド統合ランタイムを設定します。 詳細については、セルフホステッド統合ランタイムの作成および構成ガイドに関する記事を参照してください。

    • セルフホステッド統合ランタイムがインストールされているマシンに JDK 11 がインストールされていることを確認します。 JDK を新規にインストールしたら、有効にするためにマシンを再起動します。

    • セルフホステッド統合ランタイム マシンに Visual Studio 2012 Update 4 の Visual C++ 再頒布可能パッケージがインストールされていることを確認します。 この更新プログラムがインストールされていない場合は、ここからダウンロードできます

    • セルフホステッド統合ランタイムが実行されているマシン上に、BigQuery の JDBC ドライバーをダウンロードして解凍します。 スキャンの設定に使用するフォルダー パスをメモしておきます。

      注意

      このドライバーには、セルフホステッド統合ランタイムからアクセスできる必要があります。 セルフホステッド統合ランタイムでは、既定でログオン サービス アカウント"NT SERVICE\DIAHostService" が使用されます。 これにドライバー フォルダーに対する "読み取りと実行" および "フォルダー内容の一覧表示" アクセス許可があることを確認してください。

登録

このセクションでは、Microsoft Purview ガバナンス ポータルを使用して Microsoft Purview に Google BigQuery プロジェクトを登録する方法について説明します。

登録する手順

  1. Microsoft Purview アカウントに移動します。

  2. 左側のナビゲーションで [Data Map] を選択します。

  3. [登録] を選択します。

  4. [Register sources](ソースの登録) で [Google BigQuery] を選択します。 [続行] を選択します。

    BigQuery ソースを登録する

[Register sources (Google BigQuery)](ソースの登録 (Google BigQuery)) で、次の手順を実行します。

  1. データ ソースがカタログに一覧表示されるときの名前を入力します。

  2. ProjectID を入力します。これは完全修飾プロジェクト ID にする必要があります。 たとえば、mydomain.com:myProject などです。

  3. コレクションを選択するか、新しいものを作成します (省略可能)

  4. [登録] を選択します。

    BigQuery ソースを構成する

スキャン

下の手順に従って、Google BigQuery プロジェクトをスキャンし、自動的に資産を識別します。 スキャン全般の詳細については、スキャンとインジェストの概要に関するページを参照してください。

スキャンを作成して実行する

  1. 管理センターで、[統合ランタイム] を選択します。 セルフホステッド統合ランタイムが設定されていることを確認してください。 設定されていない場合は、こちらに記載されている手順を使用します。

  2. [ソース] に移動します。

  3. 登録されている BigQuery プロジェクトを選択します。

  4. [+ 新しいスキャン] を選択します。

  5. 次の詳細を指定します。

    1. [名前] : スキャンの名前

    2. [Connect via integration runtime](統合ランタイム経由で接続) : 構成済みのセルフホステッド統合ランタイムを選択します

    3. 資格情報: BigQuery の資格情報を構成するときは、次のことを確認してください。

      • 認証方法として [基本認証] を選択します
      • [ユーザー名] フィールドに、サービス アカウントのメール ID を指定します。 たとえば、xyz\@developer.gserviceaccount.com のように指定します。
      • 次の手順に従って、秘密キーを生成し、JSON キー ファイル全体をコピーし、Key Vault シークレットの値として格納します。

      Google のクラウド プラットフォームから新しい秘密キーを作成するには、次のようにします。

      1. ナビゲーション メニューで、[IAM & Admin](IAM と管理者) -> [サービス アカウント] の順に選択 -> プロジェクトの選択 ->
      2. キーを作成するサービス アカウントのメール アドレスを選択します。
      3. [キー] タブを選択します。
      4. [キーの追加] ドロップダウン メニューを選択し、[新しいキーの作成] を選択します。
      5. JSON 形式を選択します。

      Note

      スキャン プロセスが実行されている間、秘密キーの内容は VM 上の一時ファイルに保存されます。 この一時ファイルは、スキャンが正常に完了すると削除されます。 スキャンに失敗した場合は、成功するまで再試行が繰り返されます。 SHIR が実行されている VM 上で、アクセスが適切に制限されていることを確認してください。

      資格情報の詳細については、こちらのリンクを参照してください。

    4. [Driver location] (ドライバーの場所): セルフホステッド統合ランタイムが実行されているマシン内の JDBC ドライバーの場所へのパスを指定します (例: D:\Drivers\GoogleBigQuery)。 これは、有効な JAR フォルダーの場所へのパスです。 セルフホステッド統合ランタイムからドライバーにアクセスできることを確認します。詳細については、「前提条件」セクションを参照してください。

    5. データセット: インポートする BigQuery データセットの一覧を指定します。 たとえば、dataset1; dataset2 などです。 一覧が空の場合は、使用可能なすべてのデータセットがインポートされます。 SQL LIKE 式の構文を使用したデータセット名のパターンとして、% の使用も許容されます。

      例: A%; %B; %C%; D

      • A で始まる、または
      • B で終わる、または
      • C を含む、または
      • D と等しい

      NOT および特殊文字の使用は許容されません。

    6. [使用可能な最大メモリ]: スキャン プロセスで使用される、お使いの VM で使用可能な最大メモリ (GB 単位)。 これは、スキャンされる Google BigQuery プロジェクトのサイズによって変わります。

      BigQuery ソースをスキャンする

  6. [テスト接続] を選択します。

  7. [続行] を選択します。

  8. スキャン トリガーを選択します。 スケジュールを設定することも、1 回限りのスキャンを実行することもできます。

  9. 自分のスキャンを確認し、 [保存および実行] を選択します。

スキャンとスキャンの実行を表示する

既存のスキャンを確認するには、次の操作を行います。

  1. Microsoft Purview ガバナンス ポータルにアクセスします。 左側のペインで [Data Map] タブを選択します。

  2. 目的のデータ ソースを選択します。 そのデータ ソースの既存のスキャンの一覧が [Recent scans](最近のスキャン) の下に表示されます。または、 [スキャン] タブですべてのスキャンを確認できます。

  3. 表示する結果を含むスキャンを選択します。

  4. このページには、前回のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。 また、そのスキャンがスケジュールされたスキャンと手動スキャンのどちらかであるか、分類が適用された資産の数、検出された資産の合計数、スキャンの開始時刻と終了時刻、スキャンの実行時間の合計も表示されます。

スキャンを管理する - 編集、削除、またはキャンセル

スキャンを管理または削除するには、次の操作を行います。

  1. Microsoft Purview ガバナンス ポータルにアクセスします。 左側のペインで [Data Map] タブを選択します。

  2. 目的のデータ ソースを選択します。 そのデータ ソースの既存のスキャンの一覧が [Recent scans](最近のスキャン) の下に表示されます。または、 [スキャン] タブですべてのスキャンを確認できます。

  3. 管理するスキャンを選択します。 スキャンを編集するには、 [Edit scan](スキャンの編集) を選択します。

  4. 進行中のスキャンをキャンセルするには、 [スキャンの実行のキャンセル] を選択します。

  5. スキャンを削除するには、 [スキャンの削除] を選択します。

注意

  • スキャンを削除しても、以前のスキャンから作成されたカタログ アセットは削除されません。
  • Microsoft Purview の [スキーマ] タブの説明を編集した後に、使用しているソーステーブルが変更され、ソーステーブルを再スキャンした場合は、資産はスキーマの変更によって更新されなくなります。

系列

Google BigQuery ソースをスキャンした後、データ カタログの参照またはデータ カタログの検索で、アセットの詳細を表示できます。

[アセット] -> [データ系列] タブに移動すると、該当する場合はアセットの関係を確認できます。 サポートされている Google BigQuery データ系列のシナリオについては、サポートされる機能に関するセクションを参照してください。 一般的なデータ系列の詳細については、データ系列およびデータ系列ユーザー ガイドを参照してください。

Google BigQuery のデータ系列ビュー

次の手順

ソースの登録が完了したので、以下のガイドに従って、Microsoft Purview とデータについてさらに学習します。