Azure Purview でサポートされているデータ ソースとファイルの種類Supported data sources and file types in Azure Purview

この記事では、Purview でサポートされているデータ ソース、ファイルの種類、およびスキャンの概念について説明します。This article discusses supported data sources, file types and scanning concepts in Purview.

サポートされるデータ ソースSupported data sources

Azure Purview では、次のソースがサポートされています。Azure Purview supports the following sources:

ストアの種類Store type サポートされる認証の種類Supported auth type UX または PowerShell を使用したスキャンの設定Set up scans via UX/PowerShell
オンプレミスの SQL ServerOn-premises SQL Server SQL 認証SQL Auth UXUX
Azure Synapse Analytics (旧称 SQL DW)Azure Synapse Analytics (formerly SQL DW) SQL 認証、サービス プリンシパル、MSISQL Auth, Service Principal, MSI UXUX
Azure SQL Database (DB)Azure SQL Database (DB) SQL 認証、サービス プリンシパル、MSISQL Auth, Service Principal, MSI UXUX
Azure SQL Database Managed InstanceAzure SQL Database Managed Instance SQL 認証、サービス プリンシパル、MSISQL Auth, Service Principal, MSI UXUX
Azure Blob StorageAzure Blob Storage アカウント キー、サービス プリンシパル、MSIAccount Key, Service Principal, MSI UXUX
Azure Data ExplorerAzure Data Explorer サービス プリンシパルService Principal UXUX
Azure Data Lake Storage Gen1 (ADLS Gen1)Azure Data Lake Storage Gen1 (ADLS Gen1) サービス プリンシパル、MSIService Principal, MSI UXUX
Azure Data Lake Storage Gen2 (ADLS Gen2)Azure Data Lake Storage Gen2 (ADLS Gen2) アカウント キー、サービス プリンシパル、MSIAccount Key, Service Principal, MSI UXUX
Azure Cosmos DBAzure Cosmos DB アカウント キーAccount Key UXUX

注意

Azure Data Lake Storage Gen2 の一般提供が開始されました。Azure Data Lake Storage Gen2 is now generally available. 今すぐ使用を開始することをお勧めします。We recommend that you start using it today. 詳細については、製品に関するページを参照してください。For more information, see the product page.

スキャンがサポートされているファイルの種類File types supported for scanning

次のファイルの種類は、スキャンと、該当する場合はスキーマの抽出と分類がサポートされています。The following file types are supported for scanning, for schema extraction and classification where applicable:

  • 拡張子でサポートされる構造化ファイル形式: AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XMLStructured file formats supported by extension: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML
  • 拡張子でサポートされるドキュメント ファイル形式: DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPS、PPSX、PPT、PPTM、PPTX、XLC、XLS、XLSB、XLSM、XLSX、XLTDocument file formats supported by extension: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
  • Purview では、カスタム ファイル拡張子とカスタム パーサーもサポートされています。Purview also supports custom file extensions and custom parsers.

ファイル内のサンプリングSampling within a file

Purview の用語では、In Purview terminology,

  • L1 スキャン: ファイル名、サイズ、完全修飾名などの基本的な情報とメタ データが抽出されますL1 scan: Extracts basic information and meta data like file name, size and fully qualified name
  • L2 スキャン: 構造化されたファイルの種類およびデータベース テーブルのスキーマが抽出されますL2 scan: Extracts schema for structured file types and database tables
  • L3 スキャン: 可能な場合スキーマが抽出され、サンプリングされたファイルにシステムおよびカスタムの分類ルールが適用されますL3 scan: Extracts schema where applicable and subjects the sampled file to system and custom classification rules

すべての構造化されたファイル形式について、Purview スキャナーによって次のようにファイルがサンプリングされます。For all structured file formats, Purview scanner samples files in the following way:

  • 構造化されたファイルの種類の場合、各列の 128 行または 1 MB のいずれか小さい方がサンプリングされます。For structured file types, it samples 128 rows in each column or 1 MB, whichever is lower.
  • ドキュメント ファイル形式の場合、各ファイルにつき 20 MB がサンプリングされます。For document file formats, it samples 20 MB of each file.
    • ドキュメント ファイルが 20 MB を超える場合は、詳細スキャンの対象にはなりません (分類の対象になります)。If a document file is larger than 20 MB, then it is not subject to a deep scan (subject to classification). この場合、Purview によって、ファイル名や完全修飾名などの基本的なメタ データのみがキャプチャされます。In that case, Purview captures only basic meta data like file name and fully qualified name.

リソース セット ファイルのサンプリングResource set file sampling

フォルダーまたはパーティション ファイルのグループは、システムのリソース セット ポリシーまたは顧客定義のリソース セット ポリシーと一致する場合、"リソース セット" として Purview で検出されます。A folder or group of partition files is detected as a resource set in Purview, if it matches with a system resource set policy or a customer defined resource set policy. リソース セットが検出されると、それに含まれている各フォルダーが Purview によってサンプリングされます。If a resource set is detected, then Purview will sample each folder that it contains. リソース セットの詳細については、こちらを参照してください。Learn more about resource sets here.

ファイルの種類別のリソース セットのファイル サンプリングは次のとおりです。File sampling for resource sets by file types:

  • 区切られたファイル (CSV、PSV、SSV、TSV) - 'リソース セット' と見なされるフォルダーまたはパーティション ファイルのグループ内で、100 個中 1 個のファイルがサンプリングされます (L3 スキャン)。Delimited files (CSV, PSV, SSV, TSV) - 1 in 100 files are sampled (L3 scan) within a folder or group of partition files that are considered a 'Resource set'
  • Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソース セット" と見なされるフォルダーまたはパーティション ファイルのグループ内で、18446744073709551615 (long の最大値) 個中 1 個のファイルがサンプリングされます (L3 スキャン)。Data Lake file types (Parquet, Avro, Orc) - 1 in 18446744073709551615 (long max) files are sampled (L3 scan) within a folder or group of partition files that are considered a resource set
  • その他の構造化されたファイルの種類 (JSON、XML、TXT) - 'リソース セット' と見なされるフォルダーまたはパーティション ファイルのグループ内で、100 個中 1 個のファイルがサンプリングされます (L3 スキャン)。Other structured file types (JSON, XML, TXT) - 1 in 100 files are sampled (L3 scan) within a folder or group of partition files that are considered a 'Resource set'
  • SQL オブジェクトと CosmosDB エンティティ - 各ファイルが L3 スキャンされます。SQL objects and CosmosDB entities - Each file is L3 scanned.
  • ドキュメント ファイルの種類 - 各ファイルが L3 スキャンされます。Document file types - Each file is L3 scanned. リソース セットのパターンは、これらのファイルの種類には適用されません。Resource set patterns don't apply to these file types.

分類Classification

105 個すべてのシステム分類ルールが、構造化されたファイル形式に適用されます。All 105 system classification rules apply to structured file formats. MCE 分類ルールのみがドキュメント ファイルの種類に適用されます (データ スキャン ネイティブの正規表現パターンではなく、ブルーム フィルターベースの検出)。Only the MCE classification rules apply to document file types (Not the data scan native regex patterns, bloom filter-based detection). サポートされている分類の詳細については、「Azure Purview でサポートされている分類」を参照してください。For more information on supported classifications, see Supported classifications in Azure Purview.

次のステップNext steps