Share via


IndexingParametersConfiguration interface

Ein Wörterbuch mit indexerspezifischen Konfigurationseigenschaften. Jeder Name ist der Name einer bestimmten Eigenschaft. Jeder Wert muss einen primitiven Typ aufweisen.

Eigenschaften

allowSkillsetToReadFileData

Wenn true, wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus Ihrer Blobdatenquelle heruntergeladen wurden. Dadurch können Sie die ursprünglichen Dateidaten an einen benutzerdefinierten Skill zur Verarbeitung in der Anreicherungspipeline oder an den Skill Dokumentextraktion übergeben.

dataToExtract

Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Imageinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .png in Azure-Blobs.

delimitedTextDelimiter

Für CSV-Blobs gibt das einzeilige Endtrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|").

delimitedTextHeaders

Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenheadern an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index nützlich ist.

documentRoot

Für JSON-Arrays können Sie bei einem strukturierten oder teilweise strukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zum Array angeben.

excludedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ignoriert werden sollen. Sie könnten beispielsweise ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.

executionEnvironment

Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.

failOnUnprocessableDocument

Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn die Indizierung eines Dokuments fehlschlägt.

failOnUnsupportedContentType

Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp gefunden wird und Sie nicht alle Inhaltstypen (Dateierweiterungen) im Voraus kennen.

firstLineContainsHeaders

Gibt für CSV-Blobs an, dass die erste Zeile (nicht leer) jedes Blobs Header enthält.

imageAction

Bestimmt, wie eingebettete Images und Imagedateien in Azure Blob Storage verarbeitet werden. Das Festlegen der "imageAction"-Konfiguration auf einen anderen Wert als "none" erfordert, dass diesem Indexer auch ein Skillset angefügt wird.

indexedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise können Sie die Indizierung auf spezifische Anwendungsdateien wie „.docx, .pptx, .msg“ beschränken, um diese Dateitypen explizit einzubeziehen.

indexStorageMetadataOnlyForOversizedDocuments

Legen Sie für Azure-Blobs diese Eigenschaft auf true fest, um weiterhin Speichermetadaten für Blobinhalte zu indizieren, die zu groß für die Verarbeitung sind. Zu große Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für die Blobgröße finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

parsingMode

Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.

pdfTextRotationAlgorithm

Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien in Azure Blob Storage.

queryTimeout

Erhöht das Timeout über den Standardwert von 5 Minuten für Azure SQL Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.

Details zur Eigenschaft

allowSkillsetToReadFileData

Wenn true, wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus Ihrer Blobdatenquelle heruntergeladen wurden. Dadurch können Sie die ursprünglichen Dateidaten an einen benutzerdefinierten Skill zur Verarbeitung in der Anreicherungspipeline oder an den Skill Dokumentextraktion übergeben.

allowSkillsetToReadFileData?: boolean

Eigenschaftswert

boolean

dataToExtract

Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Imageinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .png in Azure-Blobs.

dataToExtract?: BlobIndexerDataToExtract

Eigenschaftswert

delimitedTextDelimiter

Für CSV-Blobs gibt das einzeilige Endtrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|").

delimitedTextDelimiter?: string

Eigenschaftswert

string

delimitedTextHeaders

Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenheadern an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index nützlich ist.

delimitedTextHeaders?: string

Eigenschaftswert

string

documentRoot

Für JSON-Arrays können Sie bei einem strukturierten oder teilweise strukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zum Array angeben.

documentRoot?: string

Eigenschaftswert

string

excludedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ignoriert werden sollen. Sie könnten beispielsweise ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.

excludedFileNameExtensions?: string

Eigenschaftswert

string

executionEnvironment

Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.

executionEnvironment?: IndexerExecutionEnvironment

Eigenschaftswert

failOnUnprocessableDocument

Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn die Indizierung eines Dokuments fehlschlägt.

failOnUnprocessableDocument?: boolean

Eigenschaftswert

boolean

failOnUnsupportedContentType

Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp gefunden wird und Sie nicht alle Inhaltstypen (Dateierweiterungen) im Voraus kennen.

failOnUnsupportedContentType?: boolean

Eigenschaftswert

boolean

firstLineContainsHeaders

Gibt für CSV-Blobs an, dass die erste Zeile (nicht leer) jedes Blobs Header enthält.

firstLineContainsHeaders?: boolean

Eigenschaftswert

boolean

imageAction

Bestimmt, wie eingebettete Images und Imagedateien in Azure Blob Storage verarbeitet werden. Das Festlegen der "imageAction"-Konfiguration auf einen anderen Wert als "none" erfordert, dass diesem Indexer auch ein Skillset angefügt wird.

imageAction?: BlobIndexerImageAction

Eigenschaftswert

indexedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise können Sie die Indizierung auf spezifische Anwendungsdateien wie „.docx, .pptx, .msg“ beschränken, um diese Dateitypen explizit einzubeziehen.

indexedFileNameExtensions?: string

Eigenschaftswert

string

indexStorageMetadataOnlyForOversizedDocuments

Legen Sie für Azure-Blobs diese Eigenschaft auf true fest, um weiterhin Speichermetadaten für Blobinhalte zu indizieren, die zu groß für die Verarbeitung sind. Zu große Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für die Blobgröße finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Eigenschaftswert

boolean

parsingMode

Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.

parsingMode?: BlobIndexerParsingMode

Eigenschaftswert

pdfTextRotationAlgorithm

Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien in Azure Blob Storage.

pdfTextRotationAlgorithm?: BlobIndexerPDFTextRotationAlgorithm

Eigenschaftswert

queryTimeout

Erhöht das Timeout über den Standardwert von 5 Minuten für Azure SQL Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.

queryTimeout?: string

Eigenschaftswert

string