Der Skill „Text teilen“Text split cognitive skill

Der Skill Text teilen unterteilt den Text in Blöcke.The Text Split skill breaks text into chunks of text. Sie können festlegen, ob Sie den Text in Sätze oder in Seiten einer bestimmten Länge aufteilen möchten.You can specify whether you want to break the text into sentences or into pages of a particular length. Dieser Skill ist besonders nützlich, wenn Sie eine maximale Textlänge in nachfolgenden Skills einhalten müssen.This skill is especially useful if there are maximum text length requirements in other skills downstream.

Hinweis

Dieser Skill ist nicht an eine Cognitive Services-API gebunden, und Ihnen entstehen für seine Nutzung keine Kosten.This skill is not bound to a Cognitive Services API and you are not charged for using it. Es wird jedoch empfohlen, dennoch eine Cognitive Services-Ressource anzufügen, um die Ressourcenoption Free außer Kraft zu setzen, durch die Sie auf eine geringe Anzahl von Anreicherungen pro Tag beschränkt werden.You should still attach a Cognitive Services resource, however, to override the Free resource option that limits you to a small number of daily enrichments per day.

@odata.type

Microsoft.Skills.Text.SplitSkillMicrosoft.Skills.Text.SplitSkill

SkillparameterSkill Parameters

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.Parameters are case-sensitive.

ParameternameParameter name BESCHREIBUNGDescription
textSplitModetextSplitMode Entweder „Seiten“ oder „Sätze“Either "pages" or "sentences"
maximumPageLengthmaximumPageLength Wenn „textSplitMode“ auf „Seiten“ gesetzt ist, bezieht sich dies auf die maximale Seitenlänge, gemessen durch String.Length.If textSplitMode is set to "pages", this refers to the maximum page length as measured by String.Length. Der Mindestwert ist 100.The minimum value is 100. Wenn textSplitMode auf „pages“ festgelegt ist, versucht der Algorithmus, den Text in Blöcke aufzuteilen, deren Größe höchstens „maximumPageLenth“ beträgt.If the textSplitMode is set to "pages", the algorithm will try to split the text into chunks that are at most "maximumPageLength" in size. Dabei versucht der Algorithmus, Sätze an Satzgrenzen zu teilen, sodass die Größe der Blöcke etwas kleiner als „maximumPageLength“ sein kann.In this case, the algorithm will do its best to break the sentence on a sentence boundary, so the size of the chunk may be slightly less than "maximumPageLength".
defaultLanguageCodedefaultLanguageCode (Optional) Einer der folgenden Sprachcodes: da, de, en, es, fi, fr, it, ko, pt.(optional) One of the following language codes: da, de, en, es, fi, fr, it, ko, pt. Die Standardsprache ist Englisch (en).Default is English (en). Zu beachtende Aspekte:Few things to consider:
  • Wenn Sie ein Sprachcode-Ländercode-Format übergeben, wird nur der Sprachcodeteil des Formats verwendet.If you pass a languagecode-countrycode format, only the languagecode part of the format is used.
  • Ist die Sprache nicht in der obigen Liste aufgeführt, wird der Text durch der Skill „Text teilen“ an Zeichengrenzen getrennt.If the language is not in the previous list, the split skill breaks the text at character boundaries.
  • Die Angabe eines Sprachcodes ist sinnvoll, um bei Sprachen ohne Leerzeichen wie Chinesisch, Japanisch oder Koreanisch zu vermeiden, dass ein Wort in der Mitte getrennt wird.Providing a language code is useful to avoid cutting a word in half for non-space languages such as Chinese, Japanese, and Korean.

SkilleingabenSkill Inputs

ParameternameParameter name BESCHREIBUNGDescription
texttext Der Text, der in Teilzeichenfolgen aufgeteilt werden soll.The text to split into substring.
languageCodelanguageCode (Optional) Der Sprachcode für das Dokument.(Optional) Language code for the document.

SkillausgabenSkill Outputs

ParameternameParameter name BESCHREIBUNGDescription
textItemstextItems Ein Array von Teilzeichenfolgen, die extrahiert wurden.An array of substrings that were extracted.

BeispieldefinitionSample definition

{
    "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
    "textSplitMode" : "pages", 
    "maximumPageLength": 1000,
    "defaultLanguageCode": "en",
    "inputs": [
        {
            "name": "text",
            "source": "/document/content"
        },
        {
            "name": "languageCode",
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "textItems",
            "targetName": "mypages"
        }
    ]
}

BeispieleingabeSample Input

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "text": "This is a the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia…",
                "languageCode": "en"
            }
        },
        {
            "recordId": "2",
            "data": {
                "text": "This is the second document, which will be broken into several pages...",
                "languageCode": "en"
            }
        }
    ]
}

BeispielausgabeSample Output

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "textItems": [
                    "This is the loan…",
                    "On the second page we…"
                ]
            }
        },
        {
            "recordId": "2",
            "data": {
                "textItems": [
                    "This is the second document...",
                    "On the second page of the second doc…"
                ]
            }
        }
    ]
}

Auftretende FehlerError cases

Wird eine Sprache nicht unterstützt, wird eine Warnung generiert und der Text an den Zeichengrenzen geteilt.If a language is not supported, a warning is generated and the text is split at character boundaries.

Weitere InformationenSee also