Förbearbeta text

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd komponenten Preprocess Text för att rensa och förenkla text. Den stöder dessa vanliga textbearbetningsåtgärder:

  • Borttagning av stoppord
  • Använda reguljära uttryck för att söka efter och ersätta specifika målsträngar
  • Lemmatisering, som konverterar flera relaterade ord till en enda kanonisk form
  • Skiftlägesnormalisering
  • Borttagning av vissa teckenklasser, till exempel siffror, specialtecken och sekvenser med upprepade tecken, till exempel "aaaa"
  • Identifiering och borttagning av e-postmeddelanden och URL:er

Förbearbetningstextkomponenten stöder för närvarande endast engelska.

Konfigurera förbearbetning av text

  1. Lägg till komponenten Preprocess Text i din pipeline i Azure Machine Learning. Du hittar den här komponenten under Textanalys.

  2. Anslut en datauppsättning som har minst en kolumn som innehåller text.

  3. Välj språk i listrutan Språk .

  4. Textkolumn som ska rensas: Välj den kolumn som du vill förbearbeta.

  5. Ta bort stoppord: Välj det här alternativet om du vill använda en fördefinierad stoppordslista i textkolumnen.

    Stoppordslistor är språkberoende och anpassningsbara.

  6. Lemmatisering: Välj det här alternativet om du vill att ord ska representeras i kanonisk form. Det här alternativet är användbart för att minska antalet unika förekomster av annars liknande texttoken.

    Lemmatiseringsprocessen är mycket språkberoende.

  7. Identifiera meningar: Välj det här alternativet om du vill att komponenten ska infoga en meningsgränsmarkering vid analys.

    Den här komponenten använder en serie med tre vertikalstreck ||| för att representera meningsavgränsaren.

  8. Utför valfria sök-och-ersätt-åtgärder med hjälp av reguljära uttryck. Det reguljära uttrycket bearbetas först, före alla andra inbyggda alternativ.

    • Anpassat reguljärt uttryck: Definiera den text som du söker efter.
    • Anpassad ersättningssträng: Definiera ett enda ersättningsvärde.
  9. Normalisera skiftläge till gemener: Välj det här alternativet om du vill konvertera ASCII-versaler till deras gemener.

    Om tecknen inte normaliseras betraktas samma ord i versaler och gemener som två olika ord.

  10. Du kan också ta bort följande typer av tecken eller teckensekvenser från den bearbetade utdatatexten:

    • Ta bort tal: Välj det här alternativet om du vill ta bort alla numeriska tecken för det angivna språket. Identifieringsnummer är domänberoende och språkberoende. Om numeriska tecken är en integrerad del av ett känt ord kanske talet inte tas bort. Läs mer i Tekniska anteckningar.

    • Ta bort specialtecken: Använd det här alternativet om du vill ta bort icke-alfanumeriska specialtecken.

    • Ta bort dubbletttecken: Välj det här alternativet om du vill ta bort extra tecken i sekvenser som upprepas i mer än två gånger. Till exempel skulle en sekvens som "aaaaaa" reduceras till "aa".

    • Ta bort e-postadresser: Välj det här alternativet om du vill ta bort alla sekvenser i formatet <string>@<string>.

    • Ta bort URL:er: Välj det här alternativet om du vill ta bort sekvenser som innehåller följande URL-prefix: http, https, ftp, www

  11. Expandera verbkontraktioner: Det här alternativet gäller endast för språk som använder verbkontraktioner; för närvarande endast engelska.

    Om du till exempel väljer det här alternativet kan du ersätta frasen "skulle inte stanna där" med "skulle inte stanna där".

  12. Normalisera omvända snedstreck till snedstreck: Välj det här alternativet om du vill mappa alla instanser av \\ till /.

  13. Dela token för specialtecken: Välj det här alternativet om du vill dela upp ord på tecken som &, -och så vidare. Det här alternativet kan också minska specialtecken när det upprepas mer än två gånger.

    Strängen MS---WORD skulle till exempel delas upp i tre token, MS, -och WORD.

  14. Skicka pipelinen.

Tekniska anteckningar

Komponenten preprocess-text i Studio (klassisk) och designer använder olika språkmodeller. Designern använder en CNN-tränad modell med flera uppgifter från spaCy. Olika modeller ger olika tokenizer och en del av tal-tagger, vilket leder till olika resultat.

Här följer några exempel:

Konfiguration Utdataresultat
När alla alternativ har valts
Förklaring:
För fall som "3test" i "WC-3 3test 4test" tar designern bort hela ordet "3test", eftersom komponenten i den här kontexten anger den här token "3test" som siffror, och enligt deltal tar komponenten bort den.
Med alla alternativ markerade
Med endast Removing number vald
förklaring:
För fall som "3test", "4-EC" delar inte designertokeniserardosen upp dessa fall och behandlar dem som hela token. Så det tar inte bort talen med dessa ord.
Med endast

Du kan också använda reguljära uttryck för att mata ut anpassade resultat:

Konfiguration Utdataresultat
Med alla alternativ markerade
Anpassade reguljära uttryck: (\s+)*(-|\d+)(\s+)*
Anpassad ersättningssträng: \1 \2 \3
Med alla alternativ markerade och reguljära uttryck
Med endast Removing number valt
Anpassat reguljärt uttryck: (\s+)*(-|\d+)(\s+)*
Anpassad ersättningssträng: \1 \2 \3
Med borttagning av tal valt och reguljärt uttryck

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.