サポートされているデータ ソースとファイルの種類

この記事では、Microsoft Purview データ マップで現在サポートされているデータ ソース、ファイルの種類、スキャンの概念について説明します。

使用可能なデータ ソースのMicrosoft Purview データ マップ

次の表は、Microsoft Purview で利用可能な技術メタデータを持つすべてのソースを示しています。 詳細については、データ ソースを選択してください。 この表には、各データ ソースでサポートされるその他の機能も一覧表示されており、詳細については、この機能を選択できます。

カテゴリ サポートされているデータ ストア 分類 ライブ ビュー 系統 ラベル付け アクセス ポリシー データ共有
Azure 複数のソース はい 制限付き 不要 ソース依存 はい いいえ
Azure Blob ストレージ はい 限ら れた* はい はい (プレビュー) はい
Azure Cosmos DB (NoSQL 用 API) はい いいえ いいえ* はい いいえ 不要
Azure Data Explorer はい いいえ いいえ* はい いいえ 不要
Azure Data Factory 不要 不要 はい いいえ 不要 不要
Azure Data Lake Storage Gen1 はい いいえ 限ら れた* はい いいえ 不要
Azure Data Lake Storage Gen2 はい 限ら れた* はい はい (プレビュー)
Azure Data Share 不要 不要 はい いいえ 不要 不要
Azure Database for MySQL はい いいえ いいえ* はい いいえ 不要
Azure Database for PostgreSQL はい いいえ いいえ* はい いいえ 不要
Azure Databricks 不要 不要 はい いいえ 不要 不要
Azure Databricks Unity カタログ 不要 不要 不要 不要 不要 不要
Azure Dedicated SQL プール (旧称 SQL DW) はい いいえ いいえ* 不要 不要 不要
Azure Files はい いいえ 限ら れた* はい いいえ 不要
Azure Machine Learning 不要 不要 はい いいえ 不要 不要
Azure SQL データベース はい はい (プレビュー) はい いいえ
Azure SQL Managed Instance はい いいえ いいえ* はい はい (プレビュー) 不要
Azure Synapse Analytics (ワークスペース) はい いいえ はい - Synapse パイプライン はい いいえ 不要
Database Amazon RDS はい いいえ 不要 不要 不要 不要
Amazon Redshift 不要 不要 不要 不要 不要 不要
カサンドラ 不要 不要 はい いいえ 不要 不要
Db2 不要 不要 はい いいえ 不要 不要
Google BigQuery 不要 不要 はい いいえ 不要 不要
Hive メタストア データベース 不要 不要 はい* 不要 不要 不要
Mongodb 不要 不要 不要 不要 不要 不要
Mysql 不要 不要 はい いいえ 不要 不要
Oracle はい いいえ はい* 不要 不要 不要
Postgresql 不要 不要 はい いいえ 不要 不要
SAP Business Warehouse 不要 不要 不要 不要 不要 不要
SAP HANA 不要 不要 不要 不要 不要 不要
スノーフレーク はい いいえ はい いいえ 不要 不要
SQL Server はい いいえ いいえ* はい いいえ 不要
Azure-Arc でのSQL Server はい いいえ いいえ* 不要 はい いいえ
Teradata はい いいえ はい* 不要 不要 不要
File Amazon S3 はい いいえ 限ら れた* はい いいえ 不要
Hdfs はい いいえ 不要 不要 不要 不要
サービスとアプリ 気流 不要 不要 はい いいえ 不要 不要
アーウィン 不要 不要 はい いいえ 不要 不要
見物 人 不要 不要 はい いいえ 不要 いいえ
Power BI いいえ 不要 はい いいえ 不要 不要
Salesforce 不要 不要 不要 不要 不要 不要
SAP ECC 不要 不要 はい* 不要 不要 不要
SAP S/4HANA 不要 不要 はい* 不要 不要 不要

* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

注:

現在、Microsoft Purview データ マップは、またはその#名前のアセット/\をスキャンできません。 スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。

重要

セルフホステッド統合ランタイムの使用を計画している場合、一部のデータ ソースをスキャンするには、セルフホステッド統合ランタイム コンピューターで追加のセットアップが必要です。 たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。 ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 要件は、「 前提条件」 セクションに一覧表示されます。

領域をスキャンする

次に、Microsoft Purview データ マップ スキャナーを実行するすべての Azure データ ソース (データ センター) リージョンの一覧を示します。 Azure データ ソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。

Microsoft Purview データ マップ スキャナーリージョン

  • オーストラリア東部
  • オーストラリア南東部
  • ブラジル南部
  • カナダ中部
  • カナダ東部
  • インド中部
  • 中国北部 3
  • 東アジア
  • 米国東部
  • 米国東部 2
  • フランス中部
  • ドイツ中西部
  • 東日本
  • 韓国中部
  • 米国中央北部
  • 北ヨーロッパ
  • カタール中部
  • 南アフリカ北部
  • 米国中央南部
  • 東南アジア
  • スイス北部
  • アラブ首長国連邦北部
  • 英国南部
  • USGov バージニア
  • 米国中央西部
  • 西ヨーロッパ
  • 米国西部
  • 米国西部 2
  • 米国西部 3

スキャンでサポートされるファイルの種類

スキャン、スキーマ抽出、および該当する場合の分類では、次のファイルの種類がサポートされています。

  • 拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産と列レベルの分類が含まれます。AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
  • 拡張子でサポートされるドキュメント ファイル形式には、スキャンと資産レベルの分類が含まれます:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPSX、PPT、PPTM、PPTM、PPTX、XLC、XLSB、XLSM、XLSX、XLT
  • Microsoft Purview データ マップでは、カスタム ファイル拡張子とカスタム パーサーもサポートされています。

注:

既知の制限事項:

  • Microsoft Purview データ マップ スキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
  • AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
  • スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
  • GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。 現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
  • 区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
    • データ型の検出はサポートされていません。 データ型は、すべての列の "文字列" として一覧表示されます。
    • コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
    • 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。 たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
    • フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。 フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。 ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
  • Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。 インストール ガイドについては、 ページの下部にある Java ランタイム環境に 関するセクションを確認してください。

スキーマの抽出

現在、資産スキーマ タブでサポートされている列の最大数は、Azure ソース、Power BI、SQL Server の場合は 800 です。

入れ子になったデータ

現在、入れ子になったデータは JSON コンテンツでのみサポートされています。

システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。

入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。 入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。

分類用のサンプリング データ

Microsoft Purview データ マップ用語では、

  • L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
  • L2 スキャン: 構造化ファイルの種類とデータベース テーブルのスキーマを抽出します
  • L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います

すべての構造化ファイル形式の場合、Microsoft Purview データ マップ スキャナーは次のようにファイルをサンプリングします。

  • 構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
  • ドキュメント ファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
    • ドキュメント ファイルが 20 MB を超える場合、ディープ スキャンの対象になりません (分類の対象)。 その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
  • 表形式データ ソース (SQL) の場合、上位 128 行をサンプリングします。
  • Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。

リソース セット のファイル サンプリング

フォルダーまたはパーティション ファイルのグループは、システム リソース セット ポリシーまたは顧客定義のリソース セット ポリシーと一致する場合、Microsoft Purview データ マップでリソース セットとして検出されます。 リソース セットが検出された場合、スキャナーは含まれる各フォルダーをサンプリングします。 リソース セットの詳細については 、こちらを参照してください

ファイルの種類別のリソース セットのファイル サンプリング:

  • 区切られたファイル (CSV、PSV、SSV、TSV) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
  • Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
  • その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内でサンプリングされます
  • SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
  • ドキュメント ファイルの種類 - 各ファイルが L3 スキャンされます。 リソース セット パターンは、これらのファイルの種類には適用されません。

次の手順