Azure 認知搜尋中使用的內容中繼資料屬性

數個索引子支援的資料來源,包括Azure Blob 儲存體、Azure Data Lake Storage Gen2和SharePoint,包含各種內容類型的獨立檔案或内嵌物件。 其中許多內容類型都有中繼資料屬性,對索引很有用。 就像您可以為標準 Blob 屬性建立搜尋欄位,例如 metadata_storage_name ,您可以在搜尋索引中為檔案格式特定的中繼資料屬性建立欄位。

支援的文件格式

認知搜尋支援下列檔案格式的 Blob 索引編制和SharePoint檔索引:

依檔案格式的屬性

下表摘要說明針對每個檔案格式完成的處理,並描述 Blob 索引子和SharePoint索引子所擷取的中繼資料屬性。

文件格式/內容類型 擷取的中繼資料 處理詳細資料
CSV (文字/csv) metadata_content_type
metadata_content_encoding
擷取文字
注意:如果您需要從 CSV Blob 擷取多個檔欄位,請參閱 編制 CSV Blob 的索引 以取得詳細資料
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
擷取文字,包括附件
EPUB (應用程式/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
從封存中的所有文件擷取文字
GZ (應用程式/gzip) metadata_content_type 從封存中的所有文件擷取文字
HTML (text/html 或 application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
移除 HTML 標記並且擷取文字
JSON (application/json) metadata_content_type
metadata_content_encoding
擷取文字
注意:如果您需要從 JSON Blob 擷取多個文件欄位,請參閱編製索引 JSON Blob 的詳細資訊
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
移除 XML 標記並且擷取文字
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
擷取文字,包括從附件擷取的文字。 metadata_message_to_emailmetadata_message_cc_emailmetadata_message_bcc_email 是字串集合,其餘欄位是字串。
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
擷取文字,包括內嵌文件
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
PDF (應用程式/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
擷取文字,包括內嵌文件 (不含影像)
純文字 (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
擷取文字
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
擷取文字,包括內嵌文件
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
擷取文字,包括內嵌文件
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
擷取文字,包括內嵌文件
RTF (應用程式/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
移除 XML 標記並且擷取文字
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
移除 XML 標記並且擷取文字
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
移除 XML 標記並且擷取文字
ZIP (application/zip) metadata_content_type 從封存中的所有文件擷取文字

另請參閱