Concepten voor tekstbeheer

Gebruik Content Moderator van de Content Moderator om tekstinhoud te analyseren.

U kunt de inhoud blokkeren, goedkeuren of beoordelen op basis van uw beleid en drempelwaarden (zie Beoordelingen, werkstromen en taken voor meer informatie over het instellen van menselijke beoordelingen). Gebruik de tekstbeheermodellen om menselijke moderatie te verbeteren van omgevingen waarin partners, werknemers en consumenten tekstinhoud genereren. Het gaat hierbij om chatruimten, discussieborden, chatbots, e-commerce-catalogi en documenten.

Het antwoord van de service bevat de volgende informatie:

  • Grof taalgebruik: op termen gebaseerde matching met ingebouwde lijst met grof taalgebruik in verschillende talen
  • Classificatie: door machine ondersteunde classificatie in drie categorieën
  • Persoonsgegevens
  • Automatisch gecorrigeerde tekst
  • Oorspronkelijke tekst
  • Taal

Aanstootgevend taalgebruik

Als de API grof taalgebruik detecteert in een van de ondersteunde talen,worden deze termen opgenomen in het antwoord. Het antwoord bevat ook hun locatie ( Index ) in de oorspronkelijke tekst. De ListId in de volgende voorbeeld-JSON verwijst naar termen in aangepaste termenlijsten, indien beschikbaar.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "crap"
    }

Notitie

Wijs voor de taalparameter toe of laat deze leeg om het antwoord op door de machine ondersteunde classificatie eng (preview-functie) weer te geven. Deze functie ondersteunt alleen Engels.

Gebruik voor detectie van grof taalgebruik de ISO 639-3-code van de ondersteunde talen die in dit artikel worden vermeld of laat deze leeg.

Classificatie

Content Moderator machine-ondersteunde tekstclassificatiefunctie ondersteunt alleen Engels en helpt bij het detecteren van mogelijk ongewenste inhoud. De gemarkeerde inhoud kan worden beoordeeld als ongepast, afhankelijk van de context. Het geeft de kans van elke categorie aan en kan een menselijke beoordeling aanbevelen. De functie maakt gebruik van een getraind model om mogelijke problemen, programmeertaal of taaltaal te identificeren. Dit omvat voor beoordelingsfouten woorden, afgekorte woorden, aanstootgevende en opzettelijk verkeerd gespelde woorden.

In het volgende extractie in het JSON-extract ziet u een voorbeelduitvoer:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Uitleg

  • Category1 verwijst naar mogelijke aanwezigheid van taalgebruik dat in bepaalde situaties als seksueel expliciet of volwassen kan worden beschouwd.
  • Category2 verwijst naar mogelijke aanwezigheid van taalgebruik dat in bepaalde situaties als seksueel suggestief of volwassen kan worden beschouwd.
  • Category3 verwijst naar mogelijke aanwezigheid van taalgebruik dat in bepaalde situaties als aanstootgevend kan worden beschouwd.
  • Score ligt tussen 0 en 1. Hoe hoger de score, hoe hoger het model is om te voorspellen dat de categorie van toepassing kan zijn. Deze functie is afhankelijk van een statistisch model in plaats van handmatig gecodeerde resultaten. We raden u aan om te testen met uw eigen inhoud om te bepalen hoe elke categorie aan uw vereisten voldoet.
  • ReviewRecommended is waar of onwaar, afhankelijk van de drempelwaarden voor de interne score. Klanten moeten beoordelen of ze deze waarde willen gebruiken of aangepaste drempelwaarden willen bepalen op basis van hun inhoudsbeleid.

Persoonsgegevens

De functie voor persoonsgegevens detecteert de mogelijke aanwezigheid van deze informatie:

  • E-mailadres
  • Postadres in de VS
  • IP-adres
  • Telefoonnummer vs

In het volgende voorbeeld ziet u een voorbeeld van een antwoord:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatische correctie

Stel dat de invoertekst is (de 'qu!ck', 'f0x' en 'lzay' zijn opzettelijk):

De qu!ck brown f0x springt over de lzay-hond.

Als u vraagt om automatische correctie, bevat het antwoord de gecorrigeerde versie van de tekst:

De snelle brown fox springt over de luie hond.

Uw aangepaste lijsten met termen maken en beheren

Hoewel de standaardlijst met algemene termen in de meeste gevallen prima werkt, kunt u het beste scherm af met termen die specifiek zijn voor uw bedrijfsbehoeften. U kunt bijvoorbeeld concurrerende merknamen uit berichten door gebruikers filteren.

Notitie

Er is een maximumlimiet van 5 terminologielijsten waarbij elke lijst niet meer dan 10.000 termen mag bevatten.

In het volgende voorbeeld ziet u de overeenkomende lijst-id:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "crap"
    }

De Content Moderator biedt een termlijst-API met bewerkingen voor het beheren van aangepaste termlijsten. Begin met de TERM Lists API Console en gebruik de REST API codevoorbeelden. Bekijk ook de quickstart Term Lists .NET als u bekend bent met Visual Studio en C#.

Volgende stappen

Test de API's met de Console voor tekstbeheer-API. Zie ook Beoordelingen, werkstromen en taken voor meer informatie over het instellen van menselijke beoordelingen.