Microsoft Purview で Google BigQuery プロジェクトに接続して管理する

[アーティクル]
08/23/2023

この記事では、Google BigQuery プロジェクトを登録する方法と、Microsoft Purview で Google BigQuery を認証して操作する方法について説明します。 Microsoft Purview の詳細については、入門記事を参照してください。

サポートされている機能

メタデータ抽出	フルスキャン	増分スキャン	スコープスキャン	分類	ラベル付け	アクセスポリシー	系統	データ共有	ライブビュー
○	はい	いいえ	はい	いいえ	不要	不要	はい	いいえ	不要

Google BigQuery ソースをスキャンする場合、Microsoft Purview では次の処理がサポートされます。

以下を含む技術的なメタデータの抽出:
- Projects
- データセット
- 列を含むテーブル
- 列を含むビュー
テーブルとビュー間の資産リレーションシップに対する静的系列のフェッチ。

スキャンを設定するときは、Google BigQuery プロジェクト全体をスキャンするか、指定された名前または名前パターンに一致するデータセットのサブセットにスキャンのスコープを設定するかを選択できます。

既知の制限

現在、Microsoft Purview では、米国の複数リージョンの場所での Google BigQuery データセットのスキャンのみがサポートされています。指定したデータセットが us-east1 や EU などの他の場所にある場合は、スキャンが完了したが、Microsoft Purview に資産は表示されません。
オブジェクトがデータソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。無料でアカウントを作成します。
アクティブな Microsoft Purview アカウント。
ソースを登録し、Microsoft Purview ガバナンスポータルで管理するには、データソース管理者とデータ閲覧者のアクセス許可が必要です。アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。
最新のセルフホステッド統合ランタイムを設定します。詳細については、セルフホステッド統合ランタイムの作成と構成に関するガイドを参照してください。
- セルフホステッド統合ランタイムがインストールされているマシンに JDK 11 がインストールされていることを確認します。 JDK を新しくインストールして有効にした後、マシンを再起動します。
- Visual C++ 再頒布可能パッケージ (バージョン Visual Studio 2012 Update 4 以降) がセルフホステッド統合ランタイムコンピューターにインストールされていることを確認します。この更新プログラムがインストールされていない場合は、こちらからダウンロードできます。
- セルフホステッド統合ランタイムが実行されているマシンで BigQuery JDBC ドライバーをダウンロードして解凍します。スキャンの設定に使用するフォルダーパスをメモします。
  
  注:
  
  ドライバーには、セルフホステッド統合ランタイムからアクセスできる必要があります。既定では、セルフホステッド統合ランタイムはローカルサービスアカウント "NT SERVICE\DIAHostService" を使用します。ドライバーフォルダーに対する "読み取りと実行" および "フォルダーの内容の一覧表示" アクセス許可があることを確認します。

登録

このセクションでは、 Microsoft Purview ガバナンスポータルを使用して、Microsoft Purview で Google BigQuery プロジェクトを登録する方法について説明します。

登録手順

次の方法で Microsoft Purview ガバナンスポータルを開きます。
- Microsoft Purview アカウントに https://web.purview.azure.com 直接移動して選択します。
- Azure portalを開き、Microsoft Purview アカウントを検索して選択します。 [Microsoft Purview ガバナンスポータル] ボタンを選択します。
左側のナビゲーションで [ データマップ ] を選択します。
[ 登録] を選択します。
[ソースの登録] で、[ Google BigQuery ] を選択します。 [ 続行] を選択します。

[ソースの登録 (Google BigQuery)] 画面で、次の操作を行います。

カタログ内にデータソースが一覧表示される名前を入力します。
ProjectID を入力します。これは完全修飾プロジェクト ID である必要があります。たとえば、mydomain.com:myProject
コレクションを選択するか、新しいコレクションを作成します (省略可能)
[登録] を選択します。

スキャン

Google BigQuery プロジェクトをスキャンして資産を自動的に識別するには、次の手順に従います。スキャン全般の詳細については、スキャンとインジェストの概要に関するページを参照してください。

スキャンの作成と実行

管理センターで、[統合ランタイム] を選択します。セルフホステッド統合ランタイムが設定されていることを確認します。設定されていない場合は、ここで説明する手順を使用します。
[ ソース] に移動します。
登録済みの BigQuery プロジェクトを 選択します。
[ + 新しいスキャン] を選択します。
以下の詳細を指定します。
1. 名前: スキャンの名前
2. 統合ランタイム経由で接続する: 構成済みのセルフホステッド統合ランタイムを選択します
3. 資格情報: BigQuery 資格情報の構成中に、次のことを確認します。
  - 認証方法として [ 基本認証 ] を選択します
  - [ユーザー名] フィールドにサービスアカウントの電子メール ID を指定します。たとえば、xyz\@developer.gserviceaccount.com のように指定します。
  - 次の手順に従って秘密キーを生成し、JSON キーファイル全体をコピーし、Key Vault シークレットの値として格納します。
  Google のクラウドプラットフォームから新しい秘密キーを作成するには:
  1. ナビゲーションメニューで、IAM & 管理 - サービスアカウント ->> プロジェクトの選択 - を選択します。>
  2. キーを作成するサービスアカウントのメールアドレスを選択します。
  3. [ キー ] タブを選択します。
  4. [ キーの追加 ] ドロップダウンメニューを選択し、[新しいキーの作成] を選択します。
  5. [JSON 形式] を選択します。
  注:
  
  スキャンプロセスの実行中に、秘密キーの内容が VM 上の一時ファイルに保存されます。スキャンが正常に完了すると、この一時ファイルが削除されます。スキャンエラーが発生した場合、システムは成功するまで再試行を続けます。 SHIR が実行されている VM でアクセスが適切に制限されていることを確認してください。
  
  資格情報の詳細については、こちらのリンクを参照してください。
4. ドライバーの場所: セルフホスト統合ランタイムが実行されているコンピューター内の JDBC ドライバーの場所へのパスを指定します (例: D:\Drivers\GoogleBigQuery)。これは、有効な JAR フォルダーの場所へのパスです。セルフホステッド統合ランタイムがドライバーにアクセスできることを確認します。前提条件に関するセクションの詳細を参照してください。
5. データセット: インポートする BigQuery データセットの一覧を指定します。たとえば、dataset1 です。dataset2。リストが空の場合、使用可能なすべてのデータセットがインポートされます。 SQL LIKE 式構文を使用して許容されるデータセット名パターンには、%. を使用するものが含まれます。
  
  例: A%;%B;%C%;D
  - A またはから始める
  - B またはで終わる
  - C またはを含む
  - equal D
  NOT 文字と特殊文字の使用は許可されません。
6. 使用可能な最大メモリ: プロセスのスキャンによって使用される VM で使用可能な最大メモリ (GB 単位)。これは、スキャンする Google BigQuery プロジェクトのサイズによって異なります。
[ 接続のテスト] を選択します。
[続行] を選択します。
スキャントリガーを選択します。スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。

スキャンとスキャンの実行を表示する

既存のスキャンを表示するには:

Microsoft Purview ガバナンスポータルに移動します。左側のウィンドウで、[ データマップ] を選択します。
データソースを選択します。 [最近のスキャン] で、そのデータソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
表示する結果を含むスキャンを選択します。このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
実行 ID を選択して、スキャン実行の詳細をチェックします。

スキャンを管理する

スキャンを編集、取り消し、または削除するには:

Microsoft Purview ガバナンスポータルに移動します。左側のウィンドウで、[ データマップ] を選択します。
データソースを選択します。 [最近のスキャン] で、そのデータソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
管理するスキャンを選択します。次のことを実行できます。
- [スキャンの編集] を選択して スキャンを編集します。
- [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します。
- [スキャンの削除] を選択して スキャンを削除します。

注:

スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
ソーステーブルが変更され、Microsoft Purview の [スキーマ] タブで説明を編集した後にソーステーブルを再スキャンした場合、資産は スキーマ の変更で更新されなくなります。

系統

Google BigQuery ソースをスキャンした後、データカタログまたは検索データカタログを参照して、資産の詳細を表示できます。

[資産 -> 系列] タブに移動すると、該当する場合に資産関係を確認できます。サポートされている Google BigQuery 系列のシナリオについては、サポートされている機能に関するセクションを参照してください。系列全般の詳細については、「データ系列と系列ユーザーガイド」を参照してください。

Google BigQuery 系列ビュー

次の手順

ソースを登録したので、次のガイドに従って、Microsoft Purview とデータの詳細を確認してください。