Поделиться через


Свойства метаданных содержимого, используемые в поиске ИИ Azure

Несколько поддерживаемых индексатором источников данных, включая Хранилище BLOB-объектов Azure, Azure Data Lake Storage 2-го поколения и SharePoint, содержат автономные файлы или внедренные объекты различных типов контента. Многие из этих типов контента имеют свойства метаданных, которые могут быть полезны для индексирования. Так же, как можно создать поля поиска для стандартных свойств metadata_storage_nameBLOB-объектов, можно создать поля в индексе поиска для свойств метаданных, относящихся к формату документа.

Поддерживаемые форматы документов

Поиск ИИ Azure поддерживает индексирование БОЛЬШИХ двоичных объектов и индексирование документов SharePoint для следующих форматов документов:

Свойства форматов документов

В следующей таблице приведены сведения об обработке для каждого формата документа и описываются свойства метаданных, извлеченные индексатором BLOB-объектов и индексатором SharePoint Online.

Формат документа или тип содержимого Извлекаемые метаданные Сведения об обработке
CSV (text/csv) metadata_content_type
metadata_content_encoding
Извлечение текста
Примечание. Инструкции по извлечению нескольких полей документа из большого двоичного объекта CSV см. в статье Индексация больших двоичных объектов CSV с помощью режима синтаксического анализа delimitedText и индексаторов BLOB-объектов в Когнитивном поиске Azure.
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Извлечение текста, включая вложения
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Извлечение текста из всех документов в архиве
GZ (application/gzip) metadata_content_type Извлечение текста из всех документов в архиве
HTML (text/html или application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Удаление разметки HTML и извлечение текста
JSON (application/json) metadata_content_type
metadata_content_encoding
Извлечение текста
Примечание. Инструкции по извлечению нескольких полей документа из большого двоичного объекта JSON см. в статье Индексирование BLOB-объектов JSON с помощью индексатора BLOB-объектов службы поиска Azure.
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Удаление разметки XML и извлечение текста
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Извлечение текста, включая текст из вложений. metadata_message_to_email, metadata_message_cc_email и metadata_message_bcc_email — это коллекции строк, а остальные поля являются строками.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Извлечение текста, включая внедренные документы
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Извлечение текста, включая внедренные документы (кроме изображений)
Обычный текст (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Извлечение текста
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
RTF (приложение или RTF) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Удаление разметки XML и извлечение текста
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Удаление разметки XML и извлечение текста
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Удаление разметки XML и извлечение текста
ZIP (application/zip) metadata_content_type Извлечение текста из всех документов в архиве

См. также