Identifiera och redigera personligt identifierande information (PII) i konversationer

Artikel
12/19/2023

Funktionen konversations-PII kan utvärdera konversationer för att extrahera känslig information (PII) i innehållet i flera fördefinierade kategorier och redigera dem. Det här API:et fungerar på både transkriberad text (refereras till som avskrifter) och chattar. För avskrifter möjliggör API:et även redigering av ljudsegment, som innehåller PII-informationen genom att tillhandahålla information om ljudtidsinställningar för dessa ljudsegment.

Fastställ hur data ska bearbetas (valfritt)

Ange PII-identifieringsmodellen

Som standard använder den här funktionen den senaste tillgängliga AI-modellen på dina indata. Du kan också konfigurera dina API-begäranden så att de använder en specifik modellversion.

Stöd för språk

För närvarande stöder api:et för förhandsgranskning av konversations-PII endast engelska.

Stöd för regioner

För närvarande stöder API:et för förhandsgranskning av konversations-PII alla Azure-regioner som stöds av språktjänsten.

Skicka data

Anteckning

Mer information om hur du formaterar konversationstext som ska skickas med Language Studio finns i Language Studio-artikeln .

Du kan skicka indata till API:et som en lista över konversationsobjekt. Analysen utförs när begäran har tagits emot. Eftersom API:et är asynkront kan det uppstå en fördröjning mellan att skicka en API-begäran och att ta emot resultatet. Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i datagränserna nedan.

När du använder funktionen async är API-resultaten tillgängliga i 24 timmar från det att begäran matades in och anges i svaret. Efter den här tidsperioden rensas resultaten och är inte längre tillgängliga för hämtning.

När du skickar data till konversations-PII kan du skicka en konversation (chatt eller talat) per begäran.

API:et försöker identifiera alla definierade entitetskategorier för en viss konversationsinmatning. Om du vill ange vilka entiteter som ska identifieras och returneras använder du den valfria piiCategories parametern med lämpliga entitetskategorier.

För talade avskrifter returneras de identifierade entiteterna för det redactionSource angivna parametervärdet. För närvarande är de värden som stöds för redactionSource , lexical, itnoch maskedItn (som mappar till Speech to text REST API:ets display\displayTextformat , itnlexicalrespektive maskedItn ).text För talade avskriftsindata tillhandahåller detta API dessutom information om ljudtidsinställningar för att underlätta ljudredigering. Om du vill använda funktionen audioRedaction använder du den valfria includeAudioRedaction flaggan med true värde. Ljudredigeringen utförs baserat på det lexikala indataformatet.

Anteckning

Konversations-PII stöder nu 40 000 tecken som dokumentstorlek.

Hämta PII-resultat

När du får resultat från PII-identifiering kan du strömma resultatet till ett program eller spara utdata till en fil i det lokala systemet. API-svaret innehåller identifierade entiteter, inklusive deras kategorier och underkategorier, samt förtroendepoäng. Textsträngen med PII-entiteterna som redigeras returneras också.

Gå till resursöversiktssidan i Azure Portal
På menyn till vänster väljer du Nycklar och slutpunkt. Du behöver en av nycklarna och slutpunkten för att autentisera dina API-begäranden.
Ladda ned och installera klientbibliotekspaketet för valfritt språk:

Språk Paketversion

.NET 1.0.0

Python 1.0.0
Mer information om klienten och returobjekt finns i följande referensdokumentation:
- C#
- Python

Språk	Paketversion
.NET	1.0.0
Python	1.0.0

Skicka avskrifter med tal till text

Använd följande exempel om du har konversationer transkriberade med tal till text-funktionen i Speech-tjänsten:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Skicka textchatt

Använd följande exempel om du har konversationer som har sitt ursprung i text. Till exempel konversationer via en textbaserad chattklient.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Hämta resultatet

operation-location Hämta från svarshuvudet. Värdet ser ut ungefär så här:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Använd följande cURL-kommando för att hämta resultatet av begäran. Se till att ersätta my-job-id med det numeriska ID-värdet som du fick från föregående operation-location svarsrubrik:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Tjänst- och datagränser

Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i artikeln om tjänstbegränsningar .

Share via