Persoonlijke identificatiegegevens (PII) in gesprekken detecteren en redigeren

Artikel
12/19/2023

Met de functie Conversational PII kunnen gesprekken worden geëvalueerd om gevoelige informatie (PII) in de inhoud te extraheren in verschillende vooraf gedefinieerde categorieën en deze te redigeren. Deze API werkt op zowel getranscribeerde tekst (waarnaar wordt verwezen als transcripties) als chats. Voor transcripties maakt de API ook redactie van audiosegmenten mogelijk, die de PII-informatie bevatten door de audiotijdgegevens voor die audiosegmenten op te geven.

Bepalen hoe de gegevens moeten worden verwerkt (optioneel)

Het PII-detectiemodel opgeven

Deze functie maakt standaard gebruik van het nieuwste beschikbare AI-model voor uw invoer. U kunt uw API-aanvragen ook configureren voor het gebruik van een specifieke modelversie.

Taalondersteuning

Op dit moment ondersteunt de api voor de preview-versie van conversational PII alleen de Engelse taal.

Ondersteuning voor regio

Momenteel ondersteunt de conversationele PII Preview-API alle Azure-regio's die worden ondersteund door de Taalservice.

Gegevens verzenden

Notitie

Zie het artikel Language Studio voor informatie over het opmaken van gesprekstekst die moet worden verzonden met Behulp van Language Studio.

U kunt de invoer naar de API verzenden als lijst met gespreksitems. Analyse wordt uitgevoerd na ontvangst van de aanvraag. Omdat de API asynchroon is, kan er een vertraging zijn tussen het verzenden van een API-aanvraag en het ontvangen van de resultaten. Zie de onderstaande gegevenslimieten voor informatie over de grootte en het aantal aanvragen dat u per minuut en seconde kunt verzenden.

Wanneer u de asynchrone functie gebruikt, zijn de API-resultaten 24 uur beschikbaar vanaf het moment dat de aanvraag is opgenomen en worden ze aangegeven in het antwoord. Na deze periode worden de resultaten opgeschoond en kunnen ze niet meer worden opgehaald.

Wanneer u gegevens verzendt naar conversational PII, kunt u één gesprek (chat of gesproken) per aanvraag verzenden.

De API probeert alle gedefinieerde entiteitscategorieën te detecteren voor een bepaalde gespreksinvoer. Als u wilt opgeven welke entiteiten worden gedetecteerd en geretourneerd, gebruikt u de optionele piiCategories parameter met de juiste entiteitscategorieën.

Voor gesproken transcripties worden de gedetecteerde entiteiten geretourneerd op basis van de redactionSource opgegeven parameterwaarde. Op dit moment zijn de ondersteunde waarden voor redactionSource , lexical, itnen maskedItn (die respectievelijk worden toegewezen aan de indeling , en maskedItn van de REST-API van lexicalitndisplaydisplayText\Speech aan tekst).text Daarnaast biedt deze API voor de gesproken transcriptie-invoer ook informatie over de timing van audio om audioredactie mogelijk te maken. Als u de functie audioRedaction wilt gebruiken, gebruikt u de optionele includeAudioRedaction vlag met true waarde. De audioredactie wordt uitgevoerd op basis van de lexicale invoerindeling.

Notitie

Gespreks-PII ondersteunt nu 40.000 tekens als documentgrootte.

PII-resultaten ophalen

Wanneer u resultaten van PII-detectie krijgt, kunt u de resultaten streamen naar een toepassing of de uitvoer opslaan in een bestand op het lokale systeem. Het API-antwoord bevat herkende entiteiten, inclusief hun categorieën en subcategorieën, en betrouwbaarheidsscores. De tekenreeks met de bewerkte PII-entiteiten wordt ook geretourneerd.

Ga naar de overzichtspagina van uw resource in de Azure Portal
Selecteer sleutels en eindpunt in het menu aan de linkerkant. U hebt een van de sleutels en het eindpunt nodig om uw API-aanvragen te verifiëren.
Download en installeer het clientbibliotheekpakket voor de gewenste taal:

Taal Versie van het pakket

.NET 1.0.0

Python 1.0.0
Zie de volgende referentiedocumentatie voor meer informatie over de client en retourobject:
- C#
- Python

Taal	Versie van het pakket
.NET	1.0.0
Python	1.0.0

Transcripten verzenden met spraak-naar-tekst

Gebruik het volgende voorbeeld als u gesprekken hebt getranscribeerd met de spraak-naar-tekstfunctie van de Speech-service:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Sms-chats verzenden

Gebruik het volgende voorbeeld als u gesprekken hebt die afkomstig zijn van tekst. Bijvoorbeeld gesprekken via een op tekst gebaseerde chatclient.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Het resultaat ophalen

Haal de operation-location op uit de antwoordheader. De waarde ziet er ongeveer als volgt uit:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Gebruik de volgende cURL-opdracht om de resultaten van de aanvraag op te halen. Zorg ervoor dat u vervangt door my-job-id de numerieke id-waarde die u hebt ontvangen van de vorige operation-location antwoordheader:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Service- en gegevenslimieten

Zie het artikel servicelimieten voor informatie over de grootte en het aantal aanvragen dat u per minuut en seconde kunt verzenden.