Azure Data Catalog でビッグデータのカタログを作成する方法

[アーティクル]
12/15/2023

重要

新しい Azure Data Catalog アカウントは作成できなくなります。

データカタログ機能については、新しい Microsoft Purview サービスを使用してください。データ資産全体に対する一元化されたデータガバナンスが得られます。

既に Azure Data Catalog を使用している場合は、2025 年 8 月までに組織が Microsoft Purview に移行するための移行計画を作成する必要があります。

はじめに

Microsoft Azure Data Catalog は、フルマネージドのクラウドサービスであり、エンタープライズデータソースの登録のシステムと検出のシステムとして機能します。これはユーザーがデータソースを検出、理解、使用するために役立つサービスであり、組織が既存のデータソース (ビッグデータなど) から、より多くの価値を引き出すために利用することもできます。

Azure Data Catalog では、Azure Storage の BLOB とディレクトリに加え、Hadoop HDFS のファイルとディレクトリの登録がサポートされています。これらのデータソースの半構造化という性質によって高い柔軟性が得られます。ただし、Azure Data Catalog へのデータソースの登録による効果を最大限に引き出すためには、データソースを構造化する方法をユーザーが検討する必要があります。

論理データセットとしてのディレクトリ

ビッグデータソースを構造化するための一般的なパターンでは、ディレクトリを論理データセットとして扱います。最上位レベルのディレクトリはデータセットの定義に使用されるのに対し、サブフォルダーはパーティションを定義し、それに含まれるファイルはデータそのものを格納しています。

このパターンの例は次のようになります。

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

この例では、vehicle_maintenance_events と location_tracking_events が論理データセットを表しています。これらの各フォルダーには、年および月単位でサブフォルダーに分類されたデータファイルが含まれています。各フォルダーに含まれるファイルの数は、数百から数千に及ぶ可能性があります。

このパターンでは、個々のファイルを Azure Data Catalog に登録しても、おそらく効果はありません。代わりに、データを操作するユーザーにとって意味のあるデータセットを表すディレクトリを登録してください。

参照データファイル

補足的なパターンでは、参照データセットを個々のファイルとして格納します。これらのデータセットは、ビッグデータの "小さい" 側と考えることができ、多くの場合、分析データモデルのディメンションに似ています。参照データファイルにはレコードが含まれていますが、レコードは、ビッグデータストアのどこかに格納されているデータファイルの大部分についてのコンテキストを提供するために使用されます。

このパターンの例は次のようになります。

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

アナリストやデータサイエンティストがより大規模なディレクトリ構造に含まれるデータを操作する場合、これらの参照ファイル内のデータは、より大きなデータセット内で名前または ID のみで参照されるエンティティについてより詳細な情報を提供するために使用できます。

このパターンでは、個々の参照データファイルを Azure Data Catalog に登録することが理にかなっています。各ファイルはデータセットを表し、個別に注釈を付けたり探索したりできます。

代替パターン

前のセクションで説明したパターンは、ビッグデータストアを整理できる 2 つの方法ですが、各実装は異なります。データソースがどのように構造化されているかに関係なく、ビッグデータソースを Azure Data Catalog に登録する際は、組織内の他のユーザーにとって価値のあるデータセットを表すファイルまたはディレクトリを登録することに重点を置いてください。すべてのファイルとディレクトリを登録すると、カタログは煩雑になり、ユーザーが必要なデータを見つけにくくなります。

まとめ

データソースを Azure Data Catalog に登録すると、そのデータソースの探索や理解が簡単になります。ビッグデータファイルと、論理データセットを表すディレクトリを登録して注釈を付けることで、ユーザーが必要なビッグデータを見つけて使用することを支援できます。

Azure Data Catalog でビッグ データのカタログを作成する方法

はじめに

論理データ セットとしてのディレクトリ

参照データ ファイル

代替パターン

まとめ

その他のリソース

Azure Data Catalog でビッグデータのカタログを作成する方法

論理データセットとしてのディレクトリ

参照データファイル