Azure Data Catalog でデータ ソースに注釈を付ける方法

重要

Azure Data Catalog は、2024 年 5 月 15 日に廃止されます。

新しい Azure Data Catalog アカウントは作成できなくなります。

データ カタログ機能については、新しい Microsoft Purview サービスを使用してください。データ資産全体に対する一元化されたデータ ガバナンスが得られます。

Azure Data Catalog を既に使用している場合は、2024 年 5 月 15 日までに Microsoft Purview に移行するための移行計画を組織で作成する必要があります。

はじめに

Microsoft Azure Data Catalog は、フル マネージドのクラウド サービスであり、エンタープライズ データ ソースの登録のシステムと検出のシステムとして機能します。 つまり、Data Catalog を使用すると、ユーザーはデータ ソースを検出、理解、使用でき、組織は既存のデータからより多くの価値を引き出すことができます。 データ ソースが Data Catalog に登録されると、そのメタデータはサービスによってコピーされてインデックスが付けられます。ただし、これで終わりではありません。 Data Catalog を使用することで、データ ソースから抽出されたメタデータを補完するために独自の説明用メタデータ (説明やタグ) を提供し、より多くの人に対してデータ ソースをわかりやすくすることができます。

注釈とクラウドソーシング

誰もがそれぞれ意見を持っています。 このことは良いことです。 Data Catalog では、さまざまなユーザーがエンタープライズ データ ソースに対してさまざまなパースペクティブを持ち、これらのパースペクティブのそれぞれが貴重であることを認識しています。 以下のシナリオについて考えてみます。

  • システム管理者は、データ ソースをホストするサーバーまたはサービスのサービス レベル アグリーメントを把握しています。
  • データベース管理者は、データベースごとのバックアップのスケジュールおよび許容された ETL 処理ウィンドウを把握しています。
  • システム所有者は、ユーザーがデータ ソースにアクセスを要求するために必要なプロセスを把握しています。
  • データ スチュワードは、データ ソース内の資産と属性がエンタープライズ データ モデルにどのようにマップされるかを認識しています。
  • アナリストは、自身がサポートするビジネス プロセスのコンテキストでデータがどのように使用されるかを把握しています。

これらのパースペクティブのそれぞれが貴重であるため、Data Catalog では、メタデータに対してクラウドソーシング手法を使用します。この手法では、それぞれをキャプチャおよび使用して、登録済みのデータ ソースの全体像を提供することができます。 各ユーザーは、他のユーザーによって指定された注釈を表示しながら、自身の注釈を Data Catalog ポータルで追加し、編集することができます。

さまざまな種類の注釈

Data Catalog では、次の種類の注釈がサポートされています。

注釈 メモ
フレンドリ名 データ資産レベルでフレンドリ名を指定すれば、データ資産をより理解しやすくすることができます。 フレンドリ名は、基になるオブジェクトの名前が暗号化または省略されているときに最も有用です。それ以外の場合、ユーザーにとって意味がありません。
説明 データ資産レベルおよび属性/列レベルに説明を入力することができます。 説明は、データ資産またはその用途に関するユーザーのパースペクティブを記述した自由形式の短いテキスト注釈です。
タグ (ユーザー タグ) データ資産レベルおよび属性/列レベルには、タグを設定できます。 ユーザー タグは、ユーザー定義のラベルであり、データ資産または属性を分類するのに使用できます。
タグ (用語集タグ) データ資産レベルおよび属性/列レベルには、タグを設定できます。 用語集タグは、一元的に定義された用語集の用語であり、一般的な業務分類法を使用して、データ資産や属性を分類するために使用することができます。 詳細については、「 管理タグ付け用のビジネス用語集を設定する方法
専門家 データ資産レベルでは、エキスパートを指定できます。 エキスパートは、データに対するエキスパートの分析観点で、ユーザーまたはグループを識別します。また、登録済みのデータ ソースを探索するユーザー、および既存の注釈によって回答されていない質問を持つユーザーを対象とした接続ポイントとしての役割を果たします。
アクセスの要求 データ資産レベルでは、アクセス要求情報を指定できます。 これは、自分がアクセス権限をまだ取得していないデータ ソースの探索を行うユーザーのための情報です。 ユーザーは、アクセス権を付与するユーザーまたはグループの電子メール アドレスを入力することも、ユーザーがアクセス権の取得を必要とするプロセスまたはツールの URL を入力することも、プロセス自体をテキストとして入力することもできます。
ドキュメント データ資産レベルでは、ドキュメントを指定できます。 資産のドキュメントは、リンクやイメージを含めることができるリッチ テキスト情報です。これにより、説明やタグで伝えられていない任意の情報を提供できます。

複数のアセットに注釈を付ける

ユーザーは、Data Catalog ポータルで複数のデータ資産を選択し、1 つの操作で、選択したすべての資産に注釈を付けることができます。 注釈は選択されたすべての資産に適用されるので、関連するデータ資産に対して一貫性のある説明、タグ セット、エキスパートを選択し指定する作業が簡単になります。

Note

タグとエキスパートは、Data Catalog データ ソース登録ツールを使用してデータ資産を登録する場合にも指定できます。

複数のテーブルとビューを選択すると、選択したすべてのデータ資産に共通して存在する列のみが Data Catalog ポータルに表示されます。 これにより、ユーザーは、選択したすべての資産の同じ名前を持つすべての列に説明とタグを指定することができます。

注釈と探索

登録時にデータ ソースから抽出されたメタデータが Data Catalog 検索インデックスに追加されると同時に、ユーザー指定のメタデータにもインデックスが付けられます。 すなわち、注釈により、ユーザーは探索するデータを理解しやすくなるだけでなく、自身にとって意味のある用語で検索することで注釈付きのデータ資産を探索しやすくなります。

まとめ

Data Catalog にデータ ソースを登録すると、構造メタデータと記述メタデータがデータ ソースから Catalog サービスにコピーされ、データの探索が可能になります。 データ ソースが登録されたら、ユーザーは Data Catalog ポータルでの探索や解釈が容易になるように、注釈を指定することができます。