Aptitud cognitiva División de textoText split cognitive skill

La aptitud División de texto divide el texto en fragmentos de texto.The Text Split skill breaks text into chunks of text. Puede especificar si desea dividir el texto en oraciones o en páginas de una longitud determinada.You can specify whether you want to break the text into sentences or into pages of a particular length. Esta aptitud es especialmente útil si hay requisitos de longitud de texto máxima en otras aptitudes de bajada.This skill is especially useful if there are maximum text length requirements in other skills downstream.

Nota

Esta aptitud no está enlazada a una API de Cognitive Services y no se le cobrará por usarla.This skill is not bound to a Cognitive Services API and you are not charged for using it. Sin embargo, debe adjuntar un recurso de Cognitive Services para invalidar la opción del recurso Gratis, que tiene un límite de unos pocos enriquecimientos al día.You should still attach a Cognitive Services resource, however, to override the Free resource option that limits you to a small number of daily enrichments per day.

@odata.type

Microsoft.Skills.Text.SplitSkillMicrosoft.Skills.Text.SplitSkill

Parámetros de la aptitudSkill Parameters

Los parámetros distinguen mayúsculas de minúsculas.Parameters are case-sensitive.

Nombre de parámetroParameter name DESCRIPCIÓNDescription
textSplitModetextSplitMode "pages" o "sentences"Either "pages" or "sentences"
maximumPageLengthmaximumPageLength Si textSplitMode se establece en "pages", se refiere a la longitud de página máxima medida por String.Length.If textSplitMode is set to "pages", this refers to the maximum page length as measured by String.Length. El valor mínimo es 100.The minimum value is 100. Si textSplitMode se establece en "pages", el algoritmo intentará dividir el texto en fragmentos con un tamaño máximo definido en "maximumPageLenth".If the textSplitMode is set to "pages", the algorithm will try to split the text into chunks that are at most "maximumPageLength" in size. En este caso, el algoritmo hará todo lo posible para dividir el texto con un límite de oraciones con lo que el tamaño del fragmento puede ser ligeramente menor que "maximumPageLength".In this case, the algorithm will do its best to break the sentence on a sentence boundary, so the size of the chunk may be slightly less than "maximumPageLength".
defaultLanguageCodedefaultLanguageCode (Opcional) Uno de los siguientes códigos de idioma: da, de, en, es, fi, fr, it, ko, pt.(optional) One of the following language codes: da, de, en, es, fi, fr, it, ko, pt. El valor predeterminado es inglés (en).Default is English (en). Aspectos que se deben tener en cuenta:Few things to consider:
  • Si se pasa un formato “código de idioma-código de país”, solo se usa la parte “código de idioma” del formato.If you pass a languagecode-countrycode format, only the languagecode part of the format is used.
  • Si el idioma no está en la lista anterior, la aptitud de división divide el texto en límites de carácter.If the language is not in the previous list, the split skill breaks the text at character boundaries.
  • Proporcionar un código de idioma es útil para evitar cortar una palabra por la mitad para idiomas sin espacios como el chino, japonés y coreano.Providing a language code is useful to avoid cutting a word in half for non-whitespace languages such as Chinese, Japanese, and Korean.
  • Si no conoce el idioma (es decir, debe dividir el texto de la entrada en LanguageDetectionSkill), el valor predeterminado de inglés (en) debe ser suficiente.If you do not know the language (i.e. you need to split the text for input into the LanguageDetectionSkill), the default of English (en) should be sufficient.

Entradas de la aptitudSkill Inputs

Nombre de parámetroParameter name DESCRIPCIÓNDescription
texttext Texto que se dividirá en subcadenas.The text to split into substring.
languageCodelanguageCode (Opcional) Código de idioma para el documento.(Optional) Language code for the document. Si no conoce el idioma (es decir, debe dividir el texto de la entrada en LanguageDetectionSkill), es seguro quitar esta entrada.If you do not know the language (i.e. you need to split the text for input into the LanguageDetectionSkill), it is safe to remove this input.

Salidas de la aptitudSkill Outputs

Nombre de parámetroParameter name DESCRIPCIÓNDescription
textItemstextItems Una matriz de subcadenas que se han extraído.An array of substrings that were extracted.

Definición de ejemploSample definition

{
    "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
    "textSplitMode" : "pages", 
    "maximumPageLength": 1000,
    "defaultLanguageCode": "en",
    "inputs": [
        {
            "name": "text",
            "source": "/document/content"
        },
        {
            "name": "languageCode",
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "textItems",
            "targetName": "mypages"
        }
    ]
}

Entrada de ejemploSample Input

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "text": "This is a the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia…",
                "languageCode": "en"
            }
        },
        {
            "recordId": "2",
            "data": {
                "text": "This is the second document, which will be broken into several pages...",
                "languageCode": "en"
            }
        }
    ]
}

Salida de ejemploSample Output

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "textItems": [
                    "This is the loan…",
                    "On the second page we…"
                ]
            }
        },
        {
            "recordId": "2",
            "data": {
                "textItems": [
                    "This is the second document...",
                    "On the second page of the second doc…"
                ]
            }
        }
    ]
}

Casos de errorError cases

Si no se admite un idioma, se genera una advertencia y el texto se divide en límites de carácter.If a language is not supported, a warning is generated and the text is split at character boundaries.

Otras referenciasSee also