Aptitud cognitiva de extracción de documentosDocument Extraction cognitive skill

Importante

Esta aptitud está actualmente en versión preliminar pública.This skill is currently in public preview. La funcionalidad de versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no es aconsejable usarla para cargas de trabajo de producción.Preview functionality is provided without a service level agreement, and is not recommended for production workloads. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.For more information, see Supplemental Terms of Use for Microsoft Azure Previews. En la API REST, versión 2019-05-06-Preview, se ofrecen características de versión preliminar.The REST API version 2019-05-06-Preview provides preview features. Actualmente no hay compatibilidad con el portal ni con el SDK de .NET.There is currently no portal or .NET SDK support.

La aptitud de extracción de documentos extrae el contenido de un archivo dentro de la canalización de enriquecimiento.The Document Extraction skill extracts content from a file within the enrichment pipeline. Esto le permite aprovechar el paso de extracción de documentos que normalmente se produce antes de la ejecución del conjunto de aptitudes con archivos que se pueden haber generado otras aptitudes.This allows you to take advantage of the document extraction step that normally happens before the skillset execution with files that may be generated by other skills.

Nota

A medida que expanda el ámbito aumentando la frecuencia de procesamiento, agregando más documentos o agregando más algoritmos de IA, tendrá que asociar un recurso facturable de Cognitive Services.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Los cargos se acumulan cuando se llama a las API de Cognitive Services y para la extracción de imágenes como parte de la fase de descifrado de documentos en la indexación.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in indexing. No hay ningún cargo por la extracción de texto de documentos.There are no charges for text extraction from documents.

La ejecución de aptitudes integradas se cobra según los precios de pago por uso de Cognitive Services existentes.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. Los precios de la extracción de imágenes se describen en la página de precios.Image extraction pricing is described on the pricing page.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkillMicrosoft.Skills.Util.DocumentExtractionSkill

Parámetros de la aptitudSkill parameters

Los parámetros distinguen mayúsculas de minúsculas.Parameters are case-sensitive.

EntradasInputs Valores permitidosAllowed Values DESCRIPCIÓNDescription
parsingMode default
text
json
Se establece en default para la extracción de documentos desde archivos que no son de texto puro o JSON.Set to default for document extraction from files that are not pure text or json. Se establece en text para mejorar el rendimiento en los archivos de texto sin formato.Set to text to improve performance on plain text files. Se establece en json para extraer contenido estructurado de los archivos JSON.Set to json to extract structured content from json files. Si parsingMode no se define explícitamente, se establecerá en default.If parsingMode is not defined explicitly, it will be set to default.
dataToExtract contentAndMetadata
allMetadata
Se establece en contentAndMetadata para extraer todos los metadatos y el contenido textual de cada archivo.Set to contentAndMetadata to extract all metadata and textual content from each file. Se establece en allMetadata para extraer solo los metadatos específicos del tipo de contenido (por ejemplo, los metadatos únicos de los archivos .png).Set to allMetadata to extract only the content-type specific metadata (for example, metadata unique to just .png files). Si dataToExtract no se define explícitamente, se establecerá en contentAndMetadata.If dataToExtract is not defined explicitly, it will be set to contentAndMetadata.
configuration Véase a continuación.See below. Diccionario de parámetros opcionales que ajustan el modo en que se realiza la extracción de documentos.A dictionary of optional parameters that adjust how the document extraction is performed. Consulta la tabla siguiente para obtener descripciones de las propiedades de configuración admitidas.See the below table for descriptions of supported configuration properties.
Parámetro de configuraciónConfiguration Parameter Valores permitidosAllowed Values DESCRIPCIÓNDescription
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Se establece en none para ignorar las imágenes insertadas o los archivos de imagen del conjunto de datos.Set to none to ignore embedded images or image files in the data set. Este es el valor predeterminado.This is the default.
Para el análisis de imágenes mediante aptitudes cognitivas, se establece en generateNormalizedImages para que la aptitud cree una matriz de imágenes normalizadas como parte del descifrado de documentos.For image analysis using cognitive skills, set to generateNormalizedImages to have the skill create an array of normalized images as part of document cracking. Esta acción requiere que parsingMode se establezca en default y dataToExtract se establezca en contentAndMetadata.This action requires that parsingMode is set to default and dataToExtract is set to contentAndMetadata. Una imagen normalizada hace referencia a un procesamiento adicional que crea una imagen de salida uniforme, dimensionada y rotada para facilitar una representación consistente cuando se incluyen imágenes en resultados de búsqueda visuales (por ejemplo, fotografías del mismo tamaño en un control de gráficos, tal como se ve en la demostración JFK).A normalized image refers to additional processing resulting in uniform image output, sized and rotated to promote consistent rendering when you include images in visual search results (for example, same-size photographs in a graph control as seen in the JFK demo). Esta información se genera para cada imagen cuando se usa esta opción.This information is generated for each image when you use this option.
Si se establece en generateNormalizedImagePerPage, los archivos PDF se tratarán de manera diferente. En lugar de extraer las imágenes insertadas, cada página se representará como una imagen y se normalizará en consecuencia.If you set to generateNormalizedImagePerPage, PDF files will be treated differently in that instead of extracting embedded images, each page will be rendered as an image and normalized accordingly. Los tipos de archivo que no son PDF se tratarán igual que si se hubiera establecido generateNormalizedImages.Non-PDF file types will be treated the same as if generateNormalizedImages was set.
normalizedImageMaxWidth Cualquier entero comprendido entre 50 y 10 000Any integer between 50-10000 El ancho máximo (en píxeles) para las imágenes normalizadas generadas.The maximum width (in pixels) for normalized images generated. El valor predeterminado es 2000.The default is 2000.
normalizedImageMaxHeight Cualquier entero comprendido entre 50 y 10 000Any integer between 50-10000 La altura máxima (en píxeles) para las imágenes normalizadas generadas.The maximum height (in pixels) for normalized images generated. El valor predeterminado es 2000.The default is 2000.

Nota

El valor predeterminado es de 2000 píxeles para el ancho máximo de las imágenes normalizadas, y la altura se basa en los tamaños máximos admitidos por la habilidad de OCR y la habilidad de análisis de imágenes.The default of 2000 pixels for the normalized images maximum width and height is based on the maximum sizes supported by the OCR skill and the image analysis skill. La aptitud de OCR admite un ancho y un alto máximos de 4200 para los idiomas distintos del inglés y 10 000 para el inglés.The OCR skill supports a maximum width and height of 4200 for non-English languages, and 10000 for English. Si aumenta los límites máximos, el procesamiento podría generar un error en imágenes de mayor tamaño en función de la definición del conjunto de aptitudes y del idioma de los documentos.If you increase the maximum limits, processing could fail on larger images depending on your skillset definition and the language of the documents.

Entradas de la aptitudSkill inputs

Nombre de entradaInput name DESCRIPCIÓNDescription
file_datafile_data Archivo del que se debe extraer el contenido.The file that content should be extracted from.

La entrada "file_data" debe ser un objeto definido de la siguiente manera:The "file_data" input must be an object defined as follows:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Este objeto de referencia de archivo se puede generar mediante una de estas tres acciones:This file reference object can be generated one of 3 ways:

  • Establecer el parámetro allowSkillsetToReadFileData en la definición del indexador en "true".Setting the allowSkillsetToReadFileData parameter on your indexer definition to "true". Así se creará la ruta de acceso /document/file_data que es un objeto que representa los datos del archivo original descargados del origen de datos del blob.This will create a path /document/file_data that is an object representing the original file data downloaded from your blob data source. Este parámetro solo se aplica a los datos de Blob Storage.This parameter only applies to data in Blob storage.

  • Establecer el parámetro imageAction en la definición del indexador en un valor distinto de none.Setting the imageAction parameter on your indexer definition to a value other than none. Así se crea una matriz de imágenes que sigue la convención necesaria para la entrada en esta aptitud si se pasa individualmente (es decir, /document/normalized_images/*).This creates an array of images that follows the required convention for input to this skill if passed individually (i.e. /document/normalized_images/*).

  • En caso de tener una aptitud personalizada se devuelve un objeto JSON definido exactamente como se ha indicado anteriormente.Having a custom skill return a json object defined EXACTLY as above. El parámetro $type debe establecerse en file exactamente y el parámetro data debe contener los datos de la matriz de bytes codificada en base 64 del contenido del archivo.The $type parameter must be set to exactly file and the data parameter must be the base 64 encoded byte array data of the file content.

Salidas de la aptitudSkill outputs

Nombre de salidaOutput name DESCRIPCIÓNDescription
contenidocontent Contenido textual del documento.The textual content of the document.
normalized_imagesnormalized_images Si imageAction se establece en un valor distinto de none, el nuevo campo normalized_images contendrá una matriz de imágenes.When the imageAction is set to a value other then none, the new normalized_images field will contain an array of images. Consulte la documentación de extracción de imágenes para obtener más detalles sobre el formato de salida de cada imagen.See the documentation for image extraction for more details on the output format of each image.

Definición de ejemploSample definition

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "content"
      },
      {
        "name": "normalized_images",
        "targetName": "normalized_images"
      }
    ]
  }

Entrada de ejemploSample input

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Salida de ejemploSample output

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Otras referenciasSee also