Właściwości metadanych zawartości używane w usłudze Azure AI Search

Kilka źródeł danych obsługiwanych przez indeksator, w tym usługi Azure Blob Storage, Azure Data Lake Storage Gen2 i SharePoint, zawierają pliki autonomiczne lub obiekty osadzone różnych typów zawartości. Wiele z tych typów zawartości ma właściwości metadanych, które mogą być przydatne do indeksowania. Podobnie jak w przypadku tworzenia pól wyszukiwania dla standardowych właściwości obiektów blob, takich jak metadata_storage_name, można tworzyć pola w indeksie wyszukiwania dla właściwości metadanych specyficznych dla formatu dokumentu.

Obsługiwane formaty dokumentów

Usługa Azure AI Search obsługuje indeksowanie obiektów blob i indeksowanie dokumentów programu SharePoint dla następujących formatów dokumentów:

  • CSV (zobacz Indeksowanie obiektów blob CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (zobacz Indeksowanie obiektów blob JSON)
  • KML (XML dla reprezentacji geograficznych)
  • Formaty pakietu Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (wiadomości e-mail programu Outlook), XML (zarówno 2003, jak i 2006 WORD XML)
  • Otwieranie formatów dokumentów: ODT, ODS, ODP
  • PDF
  • Pliki zwykłego tekstu (zobacz też Indeksowanie zwykłego tekstu)
  • RTF
  • Plik XML
  • ZIP

Właściwości według formatu dokumentu

W poniższej tabeli przedstawiono podsumowanie przetwarzania dla każdego formatu dokumentu i opisano właściwości metadanych wyodrębnione przez indeksator obiektów blob i indeksator usługi SharePoint Online.

Format dokumentu/typ zawartości Wyodrębnione metadane Przetwarzanie szczegółów
CSV (tekst/csv) metadata_content_type
metadata_content_encoding
Wyodrębnij tekst
UWAGA: Jeśli chcesz wyodrębnić wiele pól dokumentów z obiektu blob CSV, zobacz Indeksowanie obiektów blob CSV, aby uzyskać szczegółowe informacje
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Wyodrębnianie tekstu, w tym dokumentów osadzonych
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Wyodrębnianie tekstu, w tym dokumentów osadzonych
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Wyodrębnianie tekstu, w tym dokumentów osadzonych
EML (komunikat/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Wyodrębnianie tekstu, w tym załączników
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Wyodrębnianie tekstu ze wszystkich dokumentów w archiwum
GZ (application/gzip) metadata_content_type Wyodrębnianie tekstu ze wszystkich dokumentów w archiwum
HTML (tekst/html lub aplikacja/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Usuwanie znaczników HTML i wyodrębnianie tekstu
JSON (application/json) metadata_content_type
metadata_content_encoding
Wyodrębnij tekst
UWAGA: Jeśli chcesz wyodrębnić wiele pól dokumentów z obiektu blob JSON, zobacz Indeksowanie obiektów blob JSON, aby uzyskać szczegółowe informacje
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Usuwanie znaczników XML i wyodrębnianie tekstu
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Wyodrębnij tekst, w tym tekst wyodrębniony z załączników. metadata_message_to_emailmetadata_message_cc_email, i metadata_message_bcc_email są kolekcjami ciągów, pozostałe pola to ciągi.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Wyodrębnianie tekstu, w tym dokumentów osadzonych
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Wyodrębnianie tekstu, w tym dokumentów osadzonych
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Wyodrębnianie tekstu, w tym dokumentów osadzonych
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Wyodrębnianie tekstu, w tym dokumentów osadzonych (z wyłączeniem obrazów)
Zwykły tekst (tekst/zwykły) metadata_content_type
metadata_content_encoding
metadata_language
Wyodrębnij tekst
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Wyodrębnianie tekstu, w tym dokumentów osadzonych
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Wyodrębnianie tekstu, w tym dokumentów osadzonych
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Wyodrębnianie tekstu, w tym dokumentów osadzonych
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Wyodrębnij tekst
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Usuwanie znaczników XML i wyodrębnianie tekstu
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Usuwanie znaczników XML i wyodrębnianie tekstu
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Wyodrębnianie tekstu, w tym dokumentów osadzonych
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Wyodrębnianie tekstu, w tym dokumentów osadzonych
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Wyodrębnianie tekstu, w tym dokumentów osadzonych
XML (aplikacja/xml) metadata_content_type
metadata_content_encoding
metadata_language
Usuwanie znaczników XML i wyodrębnianie tekstu
ZIP (aplikacja/zip) metadata_content_type Wyodrębnianie tekstu ze wszystkich dokumentów w archiwum

Zobacz też