Lär dig textmodereringsbegrepp
Använd Content Moderator textmodereringsmodeller för att analysera textinnehåll.
Du kan blockera, godkänna eller granska innehållet baserat på dina principer och tröskelvärden (se Granskningar, arbetsflöden och jobb för att lära dig hur du ställer in mänskliga granskningar). Använd textmodereringsmodellerna för att utöka mänsklig moderering av miljöer där partner, anställda och konsumenter genererar textinnehåll. Det kan vara chattrum, diskussionstavlor, chattrobotar, e-handelskataloger dokument.
Tjänstsvaret innehåller följande information:
- Svordomar: termbaserad matchning med inbyggd lista över olämpliga termer på olika språk
- Klassificering: maskinassisterad klassificering i tre kategorier
- Personuppgifter
- Automatiskt korrigerad text
- Ursprunglig text
- Språk
Olämpligt språk
Om API:et identifierar olämpliga termer på något av de språk somstöds inkluderas dessa termer i svaret. Svaret innehåller också deras plats ( Index ) i den ursprungliga texten. I ListId följande exempel refererar JSON till termer som finns i anpassade termlistor om det är tillgängligt.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "crap"
}
Anteckning
För språkparametern tilldelar eller eng lämnar du den tom för att se det maskinassisterade klassificeringssvaret (förhandsgranskningsfunktionen). Den här funktionen stöder endast engelska.
För identifiering av olämpliga språk använder du ISO 639-3-koden för de språk som stöds i den här artikeln eller lämnar den tom.
Klassificering
Content Moderator maskinassisterade textklassificeringsfunktion stöder endast engelska och hjälper till att identifiera potentiellt oönskade innehåll. Det flaggade innehållet kan utvärderas som olämpligt beroende på kontext. Den förmedlar sannolikheten för varje kategori och kan rekommendera en mänsklig granskning. Funktionen använder en tränad modell för att identifiera möjliga problem med ett nederänkande eller språkligt språk. Detta inkluderar slang, förkortade ord, stötande och avsiktligt felstavade ord för granskning.
Följande extrahering i JSON-extrahering visar ett exempel på utdata:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Förklaring
Category1syftar på potentiell förekomst av språk som kan betraktas som sexuellt explicit eller vuxet i vissa situationer.Category2syftar på potentiell förekomst av språk som kan betraktas som sexuellt suggestivt eller mogna i vissa situationer.Category3syftar på potentiell förekomst av språk som kan betraktas som stötande i vissa situationer.Scoreär mellan 0 och 1. Ju högre poäng, desto högre förutsäger modellen att kategorin kan vara tillämplig. Den här funktionen förlitar sig på en statistisk modell i stället för manuellt kodade resultat. Vi rekommenderar att du testar med ditt eget innehåll för att avgöra hur varje kategori överensstämmer med dina krav.ReviewRecommendedär antingen sant eller falskt beroende på interna poängtrösklar. Kunderna bör bedöma om de ska använda det här värdet eller välja anpassade tröskelvärden baserat på deras innehållsprinciper.
Personuppgifter
Funktionen personliga data identifierar den potentiella förekomsten av den här informationen:
- E-postadress
- Amerikansk e-postadress
- IP-adress
- Amerikanskt telefonnummer
I följande exempel visas ett exempelsvar:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
Automatisk korrigering
Anta att indatatexten är (qu!ck, "f0x" och "lzay" är avsiktliga):
qu!ck brown f0x hoppar över den iszay-hund.
Om du ber om automatisk korrigering innehåller svaret den korrigerade versionen av texten:
Den snabba browna räven hoppar över den lata hund.
Skapa och hantera anpassade listor med villkor
Även om standardvärdet är att en global lista över termer fungerar bra i de flesta fall, kanske du vill avskärma mot termer som är specifika för dina affärsbehov. Du kanske till exempel vill filtrera bort eventuella konkurrenskraftiga varumärkesnamn från inlägg efter användare.
Anteckning
Det finns en maxgräns på 5 termlistor där varje lista kan innehålla högst 10 000 termer.
I följande exempel visas matchande list-ID:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "crap"
}
I Content Moderator ett API för termlista med åtgärder för att hantera anpassade termlistor. Börja med konsolen för API:et termlistor och använd REST API kodexempel. Läs även snabbstarten om termlistor i .NET om du är bekant Visual Studio och C#.
Nästa steg
Testa API:erna med API-konsolen textmoderering. Se även Granskningar, arbetsflöden och jobb för att lära dig hur du ställer in mänskliga granskningar.