Seučte se koncepty moderování textu

K Content Moderator textového obsahu použijte modely moderování textu.

Obsah můžete zablokovat, schválit nebo zkontrolovat na základě zásad a prahových hodnot (informace o tom, jak nastavit lidské revize, najdete v tématu Revize, pracovní postupy a úlohy). Pomocí modelů moderování textu můžete rozšířit lidské moderování prostředí, kde partneři, zaměstnanci a uživatelé generují textový obsah. Patří sem chatovací místnosti, diskuzní vývěsky, chatovací roboti, katalogy elektronického obchodování a dokumenty.

Odpověď služby zahrnuje následující informace:

  • Vulgární výrazy: porovnávání na základě termínů s integrovaným seznamem vulgárních výrazů v různých jazycích
  • Klasifikace: Klasifikace s asistencí počítače do tří kategorií
  • Osobní údaje
  • Automaticky opravený text
  • Původní text
  • Jazyk

Vulgární výrazy

Pokud rozhraní API zjistí vulgní výrazy v jakémkoli podporovaném jazyce, jsou tyto termíny zahrnuty v odpovědi. Odpověď obsahuje také jejich umístění ( Index ) v původním textu. Výraz ListId v následujícím ukázkovém kódu JSON odkazuje na termíny nalezené v seznamech vlastních výrazů, pokud jsou k dispozici.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "crap"
    }

Poznámka

Pokud chcete zobrazit odpověď klasifikace s asistencí počítače (funkce Preview), přiřaďte ho nebo nechejte eng prázdný. Tato funkce podporuje pouze angličtinu.

Pro detekci vulgárních výrazů použijte kód ISO 639-3 podporovaných jazyků uvedených v tomto článku nebo ho nechejte prázdný.

Classification

Content Moderator strojové klasifikaci textu podporuje pouze angličtinu a pomáhá detekovat potenciálně nežádoucí obsah. Obsah s příznakem může být v závislosti na kontextu vyhodnocen jako nevhodný. Vyjadřuje pravděpodobnost každé kategorie a může doporučit lidskou recenzi. Tato funkce využívá natrénovaný model k identifikaci možného nekalého, deogatory nebo jazyka, který je v jazyce. Patří sem slang, zkrácená slova, urážlivá a záměrně chybně napsaná slova ke recenze.

Následující extrahování v extrahování JSON ukazuje příklad výstupu:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Vysvětlení

  • Category1 označuje potenciální přítomnost jazyka, který lze v určitých situacích považovat za sexuálně explicitní nebo pro dospělé.
  • Category2 označuje potenciální přítomnost jazyka, který lze v určitých situacích považovat za sexuálně supresivní nebo vyspělý.
  • Category3 označuje potenciální přítomnost jazyka, který lze v určitých situacích považovat za urážlivý.
  • Score je mezi 0 a 1. Čím vyšší je skóre, tím vyšší model předpovídá, že kategorie může být použitelná. Tato funkce spoléhá spíše na statistický model než na ručně kódované výsledky. Doporučujeme testovat s vlastním obsahem, abyste zjistili, jak jednotlivé kategorie splňují vaše požadavky.
  • ReviewRecommended hodnota je true nebo false v závislosti na prahových hodnotách interního skóre. Zákazníci by měli posoudit, jestli tuto hodnotu použít, nebo rozhodnout o vlastních prahových hodnotách na základě zásad jejich obsahu.

Osobní údaje

Funkce osobních údajů detekuje potenciální přítomnost těchto informací:

  • E-mailová adresa
  • Poštovní adresa v USA
  • IP adresa
  • Telefonní číslo v USA

Následující příklad ukazuje ukázkovou odpověď:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatická oprava

Předpokládejme, že vstupní text je (qu!ck, f0x a lzay jsou záměrné):

Qu!ck brown f0x přeskočí přes psa lzay.

Pokud požádáte o automatickou opravu, odpověď bude obsahovat opravenou verzi textu:

Rychlá hnědá liška přeskakuje líného psa.

Vytváření a správa vlastních seznamů termínů

I když výchozí globální seznam termínů funguje ve většině případů skvěle, můžete si je prohlédněte s termíny, které jsou specifické pro vaše obchodní potřeby. Můžete například odfiltrovat všechny konkurenční značky z příspěvků uživatelů.

Poznámka

Limit je maximálně 5 seznamů výrazů a v každém seznamu může být maximálně 10 000 výrazů.

Následující příklad ukazuje odpovídající ID seznamu:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "crap"
    }

Rozhraní Content Moderator poskytuje rozhraní API pro seznam termínů s operacemi pro správu vlastních seznamů termínů. Začněte konzolou ROZHRANÍ API pro seznamy výrazů a použijte REST API kódu. Pokud máte zkušenosti s jazykem Visual Studio a C#, podívejte se také na rychlý start k .NET pro seznamy termínů.

Další kroky

Otestujte rozhraní API pomocí konzoly rozhraní API pro moderování textu. Další informace o tom, jak nastavit lidské recenze, najdete v tématu Recenze, pracovní postupy a úlohy.