次の方法で共有


クラウド規模の分析に関する Microsoft Purview デプロイのベスト プラクティス

データ管理ランディング ゾーンで、クラウド規模の分析プラットフォームのガバナンスが行われます。 ほとんどのデータ管理機能を提供するために Microsoft Purview を利用します。

注意

このセクションのこのガイダンスでは、クラウド規模の分析に固有の構成について説明します。 これは、Microsoft Purview を使用してデータ ガバナンスを強化するための Azure ベスト プラクティスのコレクションです。 このガイダンスは、公式の Microsoft Purview ドキュメントを補うものです。

概要

Microsoft Purview は、オンプレミス、マルチクラウド、SaaS (サービスとしてのソフトウェア) にあるデータの管理と制御を支援する統合データ ガバナンス サービスです。 自動化されたデータ検出、機密データ分類、エンド ツー エンドのデータ系列によって、データ環境全体の最新のマップを作成できます。 データ キュレーターがデータ資産を管理しセキュリティで保護できます。 データ コンシューマーは、有益で信頼できるデータを見つけることができます。

ヒント

Microsoft Purview で現在サポートされていないデータ管理ランディング ゾーンのその他の機能を Azure と統合するには、任意のサードパーティ製ツールを使用することをお勧めします。

1 つの Microsoft Purview アカウントがデータ管理ランディング ゾーン内にデプロイされ、一元化されたデータ カタログとして機能します。 Microsoft Purview は、このデータ管理ランディング ゾーンから、データ管理、データ ランディング ゾーン、セルフホステッド統合ランタイムにまたがって VNet ピアリングを使用し、プライベート ネットワーク接続を介して各データ ランディング ゾーンと通信できます。 オンプレミス データ ストアおよびその他のパブリック クラウド内のデータセットの検出は、より多くのセルフホステッド統合ランタイムをデプロイすることによって実現されます。

アカウントのセットアップ

最初の手順は、Microsoft Purview アカウントのデプロイです。 データ管理ランディング ゾーンのデプロイ中に、1 つの Microsoft Purview アカウントがデータ管理サブスクリプション内に自動的にデプロイされます。 目標は、すべてのデータ ランディング ゾーンにわたって、データ マップ全体を 1 つの Microsoft Purview アカウントに一元化することです。 環境の種類ごとに、データ管理ランディング ゾーン サブスクリプション内で共有される単一の Microsoft Purview アカウントを検討することをお勧めします。

Microsoft Purview アカウントに加えて、管理対象リソース グループもデプロイされます。 マネージド "ストレージ アカウント" と管理対象の "Event Hubs 名前空間" は、このリソース グループ内にデプロイされ、スキャンを介してデータ資産のメタデータを取り込むために使用されます。 これらのリソースは Microsoft Purview カタログによって使用されるので、削除することはできません。 Azure ロールベースのアクセス制御 RBAC の "拒否の割り当て" は、デプロイ時にリソース グループ レベルの "すべてのプリンシパル" に自動的に追加されます。

前提条件

デプロイの前に、データ管理ランディング ゾーンのサブスクリプション内で次の要件を確認します。

  • ポリシー適用除外を行う: 管理者またはアプリケーションによる Azure Storage アカウント、Azure Event Hubs 名前空間、Microsoft Purview アカウント、Azure プライベート DNS ゾーン、または Azure プライベート エンドポイントの作成を妨げる既存の Azure Policy 割り当てがある場合は、Azure Policy 適用除外を行う必要があります。 適用除外が必要であるため、必要なリソースを Microsoft Purview デプロイと共にデータ管理ランディング ゾーンにデプロイできます。
  • リソース プロバイダーの登録: データ管理ランディング ゾーン サブスクリプションに次の Azure リソース プロバイダーを登録してください。
    • Microsoft.EventHub
    • Microsoft.Purview
    • Microsoft.Storage

重要

Microsoft Purview を使用してデータ管理ランディング ゾーンを正常にデプロイするには、前提条件を満たす必要があります。 リソース プロバイダーを登録する方法の詳細については、「Azure サービスのリソース プロバイダー」を参照してください。

ネットワークと名前解決

クラウド規模の分析では、Azure プライベート エンドポイントを使用して、Azure Private Link を備えたカタログへの安全なアクセスが保証されます。 プライベート エンドポイントでは、使用している Microsoft Purview アカウント用の VNet アドレス空間からの IP アドレスが使用されます。 VNet 上のクライアントと Microsoft Purview アカウントの間のネットワーク トラフィックは、VNet と Microsoft バックボーン ネットワーク上の Private Link を経由して転送されます。 VNet と Private Link によって、パブリック インターネットからの露出が排除されます。 エンドツーエンド スキャンのシナリオでネットワーク分離を有効にするには、デプロイするプライベート エンドポイントを増やします。 プライベート エンドポイントを使用すると、Azure のデータ ソースとオンプレミス ソースを、Azure Private Link を介して接続できます。

Azure プライベート エンドポイントのデプロイ

Microsoft Purview アカウントは、いくつかのプライベート エンドポイントを持つデータ管理ランディング ゾーンの Azure 仮想ネットワーク (VNet) 内にデプロイされます。

  • アカウント: プライベート エンドポイントを使用すると、プライベート ネットワーク内から発信された、Microsoft Purview へのクライアント呼び出しのみを許可することができます。 これは、ポータルのプライベート エンドポイントの前提条件として必要です。

  • ポータル: プライベート エンドポイントは、Microsoft Purview ガバナンス ポータルへのプライベート接続を提供することを目的としています。 Microsoft Purview ガバナンス ポータルは、Web ブラウザーから Microsoft Purview にアクセスして管理できる管理ユーザー インターフェイスです。

  • プライベート接続を介して Azure 仮想ネットワーク内の Azure IaaS および PaaS データ ソースとオンプレミスのデータ ソースをスキャンする、インジェスト プライベート エンドポイント。 この方法を使用すれば、データ ソースから Microsoft Purview Data Map に流れる自分のメタデータについてのネットワーク分離が確実に行えます。

Diagram of Microsoft Purview Networking.

重要

Microsoft Purview のデータ ソースを正常にスキャンするには、Microsoft Purview インジェスト プライベート エンドポイントがデプロイされている場所と同じ仮想ネットワーク内にセルフホステッド統合ランタイムをデプロイする必要があります。これはデータ管理ランディング ゾーンまたは任意のデータ ランディング ゾーン内に配置できます。

データ管理ランディング ゾーン ネットワークの詳細については、クラウド規模の分析ネットワークに関する記事を参照してください。

Microsoft Purview プライベート エンドポイントの詳細については、「Microsoft Purview アカウントにプライベート エンドポイントを使用する」を参照してください。

アカウントとポータルのプライベート エンドポイント

Microsoft Purview を使用してデータ資産を管理し、Microsoft Purview ガバナンス ポータルに接続するには、プライベート接続を使用する必要があります。 パブリック アクセスは、データ管理ランディング ゾーン内にデプロイされる Microsoft Purview アカウントに制限され、セキュリティが強化されます。 "アカウント" と "ポータル" のプライベート エンドポイントは、Microsoft Purview アカウントへのプライベート接続と Microsoft Purview ガバナンス ポータルへのアクセスを提供するためにデプロイされます。

Microsoft Purview ガバナンス ポータルにアクセスする

プライベート接続を介して Microsoft Purview ポータルの使用を維持するには、Microsoft Purview 設定でパブリック ネットワーク アクセスを拒否することをお勧めします。 Microsoft Purview ガバナンス ポータルに接続するには、ネットワークにデプロイされたジャンプ マシンまたはジャンプ ボックスが必要です。 ハイブリッド ネットワークのマシンを使用することも、またはデータ管理ランディング ゾーン内の仮想マシンとしてマシンを使用することもできます。 ジャンプ マシンは、一般に Microsoft のリモート デスクトップ サービスや Secure Shell (SSH) ソフトウェアを使用する堅牢化されたリモート アクセス サーバーです。 すべての管理操作が専用ホストから実行されるという点で、ジャンプ マシンは、管理者が重要なシステムにアクセスする際の足掛かりとしての役割を果たします。

これらのオプションのいずれかを使用し、Microsoft Purview ガバナンス ポータルを介して Microsoft Purview を使用してデータを管理します。

  • オプション 1: 企業ネットワークに接続されているジャンプ マシンを使用します。 この接続モデルを使用するには、Microsoft Purview ポータル プライベート エンドポイントが作成された VNet と企業ネットワーク間の接続が必要です。

    クラウド導入フレームワーク ネットワークの詳細については、「ネットワーク トポロジと接続の概要」を参照してください。

  • オプション 2: 組織でハイブリッド接続を使用できない場合は、データ管理ランディング ゾーン内に仮想マシンをデプロイします。 Azure Bastion をデプロイし、安全な接続を使用して Microsoft Purview に接続します。

インジェスト用のプライベート エンドポイント

Microsoft Purview では、プライベート エンドポイントまたはパブリック エンドポイントを使用して、Azure またはオンプレミス環境のデータ ソースをスキャンすることができます。 データ ランディング ゾーンのネットワークは、データ管理ランディング ゾーン VNet および接続サブスクリプション VNet と自動的にピアリングされます。 そのため、データ ランディング ゾーン内のデータ ソースは、プライベート接続を使用してスキャンできます。

ランディング ゾーン内の他のデータ ソースのプライベート エンドポイントを有効にして、プライベート接続を使用してデータ ソースをスキャンすることをお勧めします。

名前解決

プライベート エンドポイントの DNS 解決は、中央の Azure プライベート DNS ゾーンを介して処理する必要があります。 次のプライベート DNS ゾーンは、データ管理ランディング ゾーンの Microsoft Purview デプロイに自動的にデプロイされます。

  • privatelink.purview.azure.com
  • privatelink.purviewstudio.azure.com
  • privatelink.blob.core.windows.net
  • privatelink.queue.core.windows.net
  • privatelink.servicebus.windows.net

Diagram of high Level name resolution architecture.

ハイブリッド クラウドを使用しており、クロスプレミスの名前解決が必要な場合は、適切な要求を Azure のカスタム DNS サーバーに転送するようにオンプレミスの DNS サーバーを正しく構成することが重要です。

ヒント

データ管理ランディング ゾーンとデータ ランディング ゾーンの間で名前解決を許可するには、データ管理ランディング ゾーン内の {prefix}-global-dnsリソース グループ内にあるのと同じプライベート DNS ゾーンを使用します。

クラウド規模の分析ネットワークおよび名前解決の詳細については、クラウド規模の分析ネットワークに関する記事を参照してください。

Microsoft Purview のデータ ソースの認証を管理する

Microsoft Purview では、データ ソースの登録とスキャンのために "コントロール プレーン" と "データ プレーン" へのアクセスが必要です。

データ ソースの登録

Microsoft Purview アカウントをデプロイすると、システム割り当てマネージド ID が自動的に作成されます。 これは Microsoft Entra テナントで作成され、このリソースに割り当てられます。 Microsoft Purview にデータ ソースを登録するときに、サブスクリプションまたはリソース グループ内の Azure リソースを読み取って一覧表示するには、スコープに対する Azure RBAC "閲覧者" ロールが Microsoft Purview マネージド ID に必要です。

これらのデータ ソースのいずれかを Microsoft Purview に登録する前に、各データ ランディング ゾーン サブスクリプションで、"閲覧者" ロールを Microsoft Purview マネージド ID に割り当てることを検討してください。

  • Azure Blob Storage
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL データベース
  • Azure SQL Managed Instance
  • Azure Synapse Analytics

データ ソースをスキャンする

新しいスキャンを実行する前に、次の要件を満たしていることを確認してください。

セルフホステッド統合ランタイムをデプロイして登録する

データ ランディング ゾーンごとにセルフホステッド統合ランタイム (IR) VM をデプロイして登録します。 セルフホステッド IR は、データ ソース (Azure SQL Database や VM ベースのデータ ソースなど) をスキャンするために必要です。 これらのデータ ソースは、オンプレミスまたは各データ ランディング ゾーンにあります。 セルフホステッド IR は、クラウド データ ストアとプライベート ネットワーク内のデータ ストアの間でコピー アクティビティを実行できます。 また、オンプレミス ネットワークまたは Azure Virtual Network 内のコンピューティング リソースに対して変換アクティビティをディスパッチすることができます。 セルフホステッド IR は、オンプレミス コンピューター、またはプライベート ネットワーク内の仮想マシンにインストールする必要があります。

ヒント

専用のマシンを使用して IR をホストすることをお勧めします。 このマシンは、データ ストアをホストするサーバーとは別にする必要があります。 また、各データ ランディング ゾーンまたはオンプレミス環境に少なくとも 2 つのセルフホステッド IR VM を計画することを強くお勧めします。

オンプレミスのデータソースをスキャンするために、セルフホステッド IR をオンプレミス ネットワーク内にデプロイできますが、Azure に配置されているデータ ソースをスキャンするには、セルフホステッド IR を Microsoft Purview インジェスト プライベート エンドポイントと同じ VNet にデプロイする必要があります。 データソースが配置されているリージョンごとに新しいインジェスト プライベート エンドポイントと新しいセルフホステッド IR をデプロイすることをお勧めします。

増加する同時実行ワークロードをホストすることもできます。 または、現在のワークロード レベルでパフォーマンスを向上させることもできます。 次のいずれかのアプローチを使用して、処理の規模を拡張できます。

  • ノードのプロセッサおよびメモリの使用率が低いときにスケールアップします
  • ノードまたは仮想マシン スケール セットをさらに追加してセルフホステッド IR をスケールアウトします

データ プレーンへのアクセスを割り当ててデータ ソースをスキャンする

データ プレーンの Microsoft Purview およびデータ ソースへのアクセスを提供するには、認証を設定するための複数のオプションがあります。

  • オプション 1: マネージド ID
  • オプション 2: Azure Key Vault にシークレットとして格納されるアカウント キーまたはパスワード
  • オプション 3: Azure Key Vault にシークレットとして格納されるサービス プリンシパル

重要

Microsoft Purview で Azure Private Link を介してデータ ソースをスキャンするには、セルフホステッド統合ランタイムをデプロイし、データ ソースの認証オプションで、アカウント キー/ SQL 認証またはサービス プリンシパルを使用する必要があります。

ヒント

データ ソースによって Azure Private Link が使用できない場合は、データ ソースをスキャンするために Microsoft Purview マネージド ID の使用をお勧めします。 この場合、Microsoft Purview アカウントのファイアウォール設定でパブリック アクセスを許可する必要があります。

Azure Key Vault にシークレットを格納する

複数の Azure Key Vault リソースが、データ管理ランディング ゾーンとデータ ランディング ゾーンサブスクリプション内にデプロイされます。 この Azure Key Vault リソースには、データ管理ランディング ゾーンとデータ ソースのメタデータ データ ソースに関連するシークレットが格納されます。 データ ソースの例は、Azure Data Factory によって使用される Azure SQL Database です。 あるいは、データ ランディング ゾーンの Databricks ワークスペースによって使用される Azure Database for MySQL です。

データ ランディング ゾーンの Azure キー コンテナーを Microsoft Purview アカウントに接続する

Microsoft Purview では、Azure キー コンテナーに格納されているシークレットと資格情報を使用できます。 これらを使用できるのは、Azure Key Vault 接続が Microsoft Purview アカウントに作成され、シークレットが登録されている場合のみです。 新しいデータ ランディング ゾーンを追加した後、Microsoft Purview アカウント内に 新しい Azure Key Vault 接続を作成する必要があります。 この接続は、Microsoft Purview アカウントと Azure Key Vault リソースを 1 対 1 で関連付けします。 これにより、Azure Key Vault に格納されているシークレットに基づいて Microsoft Purview アカウント内で資格情報を作成できるようになります。

詳細については、「Microsoft Purview アカウントに Azure Key Vault の接続を作成する」を参照してください。

ヒント

未使用の Azure キー コンテナーがあれば削除して、Key Vault 接続を最小限に抑えます。

Microsoft Purview 内で資格情報を作成する

シナリオによっては、キー コンテナーの "シークレット" を使用して "資格情報" を設定する必要があります。

  • Microsoft Purview マネージド ID を認証方法として使用できないデータ ソースをスキャンする場合。
  • セルフホステッド統合ランタイムを使用してデータ ソースをスキャンする場合。アカウント キー、SQL 認証 (パスワード)、サービス プリンシパルなど、サポートされている認証の種類を資格情報に格納する必要があります。
  • プライベート エンドポイントを使用してデータ ソースをスキャンしてデータ インジェストを行う場合。
  • 仮想マシン内またはオンプレミス環境内にあるデータ ソースをスキャンする場合。

Microsoft Purview で資格情報を作成するには、前もって Microsoft Purview アカウントに Azure Key Vault シークレットへのアクセスが必要です。 Azure Key Vault アクセス ポリシーまたはロールベースのアクセス制御 (RBAC) を使用して、Microsoft Purview 管理対象サービス ID (MSI) に必要なアクセスを付与します。 Microsoft Purview MSI に Azure Key Vault へのアクセスを付与し、Microsoft Purview 内に資格情報を作成する方法の詳細については、「Microsoft Purview でのソース認証用の資格情報」を参照してください。

Microsoft Purview のロールとアクセス制御

Microsoft Purview には、"データ リーダー"、"データ キュレーター"、"コレクション管理者"、"データ ソース管理者"、データ プレーンを管理するための "ポリシー作成者" など、組み込みのロールがいくつかあり、組み合わせるとさらに多くの権限を与えることができます。 たとえば、"データ リーダー" ロールは、データ資産の読み取り専用アクセスを必要とする、データ責任者、データ スチュワード、および最高セキュリティ責任者を対象とします。 データ資産には、分類、検索オプションを介したデータ系列、および Microsoft Purview で使用できるレポートが含まれる場合があります。

データ管理ランディング ゾーンのデプロイが完了したら、最小限の特権モデルを使用して、Microsoft Purview でメタデータを表示または管理するためのアクセスを提供します。

重要

Microsoft Purview のデータ プレーンのロールは、Microsoft Purview ガバナンス ポータル内で、または API を直接使用して管理する必要があります。

Microsoft Purview ロールの詳細については、Microsoft Purview のデータ プレーンでのアクセス制御に関する記事を参照してください。

次の一覧で、クラウド規模の分析のデプロイに関係するペルソナを確認してください。 デプロイの成功に貢献できるように、関連する Microsoft Purview ロールを割り当てます。

ペルソナ ロール 推奨される Microsoft Purview ロール
製品所有者 製品所有者は、Azure を使用してソリューションを変換し、ビジネスに機敏性をもたらし、ビジネス プロセスを最適化します。 データ リーダー
ソリューション アーキテクト エンタープライズ ビジネス ネットワークの境界にまたがって作動するソリューションを定義します。 Azure サービスの診断、分析、設計、デプロイ、統合に対処する方法について学びます。
  • データ ソース管理者
  • データ キュレーター
  • 開発者および DevOps エンジニア Azure DevOps または GitHub を使用して、継続的インテグレーションと継続的デリバリー プロセスの設計、ビルド、デプロイ、テスト、保守を行います。 適用できません
    セキュリティ エンジニア ベスト プラクティスを使用し、チームがセキュリティで保護されたインフラストラクチャを Azure 上で設計して実装できるようにします。
  • コレクション管理者
  • データ リーダー
  • 技術マネージャーおよびビジネス マネージャー Azure サービスの全体的な理解を深めます。 クラウド コストを制御し、運用とチームの機敏性を最適化します。 適用できません
    意思決定者およびビジネス ユーザー Azure を使用して、アクション可能な分析情報にアクセスします。それらが最も関連性の高い形式で提供されることを望みます。 既存のソリューションに埋め込まれた AI を使用して、ビジネス プロセスを最適化します。 データ リーダー
    データ マネージャー データ資産へのアクセスのプロビジョニングと管理を担当します。 データ リーダーまたはデータ キュレーター
    データ アナリストおよびパフォーマンス アナリスト Azure を使用し、既存のデータ資産または "アドホック" データから新しい分析情報を検出して共有します。 1 クリックの AI 変換を作成し、事前構築済みのモデルを使用し、機械学習モデルを簡単に生成します。
  • データ ソース管理者
  • データ リーダー
  • データ エンジニア Azure を使用して、データおよび分析製品を構築、統合、管理します。 AI 対応のアプリケーションとソリューション (該当する場合) を作成します。
  • データ ソース管理者
  • データ キュレーター
  • 市民データ サイエンティスト コーディングが不要な、高性能ビジュアル ツール、ドラッグ アンド ドロップ ツール、およびコード不要ツールを使用して、機械学習モデルを作成します
  • データ ソース管理者
  • データ キュレーター
  • データ サイエンティスト 推奨のツールと機械学習フレームワークを使用して、スケーラブルなデータ サイエンス ソリューションを構築します。 エンドツーエンドの機械学習ライフサイクルを加速します。
  • データ ソース管理者
  • データ キュレーター
  • 機械学習エンジニア モデル デプロイとモデル管理を容易に行えるように、適切なプロセスとインフラストラクチャを有効にします。
  • データ ソース管理者
  • データ キュレーター
  • データ ロールの詳細については、ロールとチームに関する記事を参照してください。

    次のステップ

    クラウド規模の分析のためのデータ製品としての Azure Machine Learning