Jak rozpoznat a redigovat osobní identifikační údaje (PII) v konverzacích

Článek
12/19/2023

Funkce Konverzační pii může vyhodnotit konverzace, aby extrahovali citlivé informace (PII) v obsahu z několika předdefinovaných kategorií a redigovali je. Toto rozhraní API funguje na přepisovaném textu (odkazovaném jako přepisy) i na chatech. U přepisů rozhraní API také umožňuje redigování zvukových segmentů, které obsahují informace o PII tím, že poskytuje informace o časování zvuku pro tyto zvukové segmenty.

Určení způsobu zpracování dat (volitelné)

Určení modelu detekce PII

Ve výchozím nastavení bude tato funkce používat nejnovější dostupný model AI na vašem vstupu. Můžete také nakonfigurovat požadavky rozhraní API tak, aby používaly konkrétní verzi modelu.

Podpora jazyků

Rozhraní API verze Preview pro konverzační pii v současné době podporuje pouze angličtinu.

Podpora oblastí

V současné době rozhraní API verze Preview pro konverzační pii podporuje všechny oblasti Azure podporované službou Language.

Odesílání dat

Poznámka

Informace o formátování konverzačního textu k odeslání pomocí nástroje Language Studio najdete v článku o nástroji Language Studio .

Vstup můžete odeslat do rozhraní API jako seznam položek konverzace. Analýza se provede po přijetí žádosti. Vzhledem k tomu, že je rozhraní API asynchronní, může dojít ke zpoždění mezi odesláním požadavku rozhraní API a přijetím výsledků. Informace o velikosti a počtu žádostí, které můžete posílat za minutu a sekundu, najdete níže v datových limitech.

Při použití asynchronní funkce jsou výsledky rozhraní API k dispozici po dobu 24 hodin od přijetí požadavku a jsou uvedené v odpovědi. Po uplynutí tohoto časového období se výsledky vyprázdní a už nejsou k dispozici pro načtení.

Když odesíláte data do konverzačních osobních údajů, můžete na každou žádost odeslat jednu konverzaci (chat nebo mluvenou konverzaci).

Rozhraní API se pokusí zjistit všechny definované kategorie entit pro daný vstup konverzace. Pokud chcete určit, které entity budou rozpoznány a vráceny, použijte volitelný piiCategories parametr s příslušnými kategoriemi entit.

U mluvených přepisů se zjištěné entity vrátí podle zadané hodnoty parametru redactionSource . V současné době jsou podporované hodnoty pro redactionSource , lexical, itna maskedItn (které se mapují na řeč na textové rozhraní REST API display\displayText, lexicalitn a maskedItn formát .text Kromě toho toto rozhraní API pro vstup mluveného přepisu poskytne také informace o časování zvuku, které umožní redakci zvuku. Pro použití funkce audioRedaction použijte volitelný includeAudioRedaction příznak s true hodnotou. Zvuková redakce se provádí na základě lexikálního vstupního formátu.

Poznámka

PiI konverzace teď jako velikost dokumentu podporuje 40 000 znaků.

Získání výsledků PII

Když získáte výsledky z detekce PII, můžete výsledky streamovat do aplikace nebo uložit výstup do souboru v místním systému. Odpověď rozhraní API bude obsahovat rozpoznané entity, včetně jejich kategorií a podkategorií, a skóre spolehlivosti. Vrátí se také textový řetězec s redigovanými entitami PII.

Přejděte na stránku přehledu prostředků v Azure Portal
V nabídce na levé straně vyberte Klíče a Koncový bod. K ověřování požadavků rozhraní API budete potřebovat jeden z klíčů a koncový bod.
Stáhněte a nainstalujte balíček klientské knihovny pro jazyk podle vašeho výběru:

Jazyk Verze balíčku

.NET 1.0.0

Python 1.0.0
Další informace o klientovi a návratovém objektu najdete v následující referenční dokumentaci:
- C#
- Python

Jazyk	Verze balíčku
.NET	1.0.0
Python	1.0.0

Odesílání přepisů pomocí převodu řeči na text

Následující příklad použijte, pokud máte konverzace přepisované pomocí funkce převodu řeči na text služby Speech:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Odesílání textových chatů

Následující příklad použijte, pokud máte konverzace, které pocházejí z textu. Například konverzace prostřednictvím textového chatovacího klienta.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Získání výsledku

Získejte kód operation-location z hlavičky odpovědi. Hodnota bude vypadat podobně jako následující adresa URL:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Pokud chcete získat výsledky požadavku, použijte následující příkaz cURL. Nezapomeňte nahradit my-job-id číselnou hodnotou ID, kterou jste získali z předchozí operation-location hlavičky odpovědi:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Limity služeb a dat

Informace o velikosti a počtu požadavků, které můžete posílat za minutu a sekundu, najdete v článku Věnovaném omezením služeb .

Share via