Co je detekce identifikovatelných osobních údajů (PII) v jazyce Azure AI?

Detekce PII je jednou z funkcí nabízených jazykem Azure AI, kolekcí algoritmů strojového učení a AI v cloudu pro vývoj inteligentních aplikací, které zahrnují napsaný jazyk. Funkce detekce PII dokáže identifikovat, kategorizovat a redactovat citlivé informace v nestrukturovaném textu. Příklad: telefonní čísla, e-mailové adresy a formuláře identifikace. Metoda využití PII v konverzacích se liší od jiných případů použití a články pro toto použití jsou oddělené.

  • Rychlé starty jsou úvodní pokyny, které vás provedou prováděním požadavků na službu.
  • Návody obsahují pokyny pro používání služby konkrétnějšími nebo přizpůsobenými způsoby.
  • Koncepční články poskytují podrobné vysvětlení funkcí a funkcí služby.

PII má dva tvary:

Typický pracovní postup

Pokud chcete tuto funkci použít, odešlete data k analýze a zpracujete výstup rozhraní API ve vaší aplikaci. Analýza se provádí tak, jak je, bez přidaného přizpůsobení modelu používaného na vašich datech.

  1. Vytvořte prostředek azure AI Language, který vám uděluje přístup k funkcím nabízeným jazykem Azure AI. Vygeneruje heslo (označované jako klíč) a adresu URL koncového bodu, kterou používáte k ověřování požadavků rozhraní API.

  2. Vytvořte požadavek pomocí rozhraní REST API nebo klientské knihovny pro C#, Javu, JavaScript a Python. Pomocí dávkového požadavku můžete také posílat asynchronní volání, která kombinují požadavky rozhraní API pro více funkcí do jednoho volání.

  3. Odešlete požadavek obsahující vaše textová data. Váš klíč a koncový bod se používají k ověřování.

  4. Streamujte nebo ukládejte odpověď místně.

Podpora nativních dokumentů

Nativní dokument odkazuje na formát souboru použitý k vytvoření původního dokumentu, jako je Microsoft Word (docx) nebo přenosný soubor dokumentu (pdf). Podpora nativních dokumentů eliminuje potřebu předběžného zpracování textu před použitím funkcí prostředků Azure AI Language. Podpora nativních dokumentů je v současné době dostupná pro funkci PiiEntityRecognition .

V současné době PII podporuje následující nativní formáty dokumentů:

Typ souboru Přípona souboru Popis
Text .txt Neformátovaný textový dokument
Adobe PDF .pdf Přenosný dokument naformátovaný souborem dokumentu
Microsoft Word .docx Soubor dokumentu aplikace Microsoft Word.

Další informace najdete v tématuPoužití nativních dokumentů ke zpracování jazyka.

Začínáme s detekcí PII

Pokud chcete použít detekci PII, odešlete text pro analýzu a zpracujete výstup rozhraní API ve vaší aplikaci. Analýza se provádí tak, jak je, bez přizpůsobení modelu používaného na vašich datech. Detekce PII se dá použít dvěma způsoby:

Možnost vývoje Popis
Language Studio Language Studio je webová platforma, která umožňuje vyzkoušet propojení entit s textovými příklady bez účtu Azure a vlastní data při registraci. Další informace najdete na webu language Studio nebo v rychlém startu language studio.
ROZHRANÍ REST API nebo klientská knihovna (Azure SDK) Integrujte detekci PII do svých aplikací pomocí rozhraní REST API nebo klientské knihovny dostupné v různých jazycích. Další informace najdete v rychlém startu detekce PII.

Referenční dokumentace a ukázky kódu

Při používání této funkce ve svých aplikacích si projděte následující referenční dokumentaci a ukázky jazyka Azure AI:

Možnost vývoje / jazyk Referenční dokumentace Ukázky
REST API Dokumentace k rozhraní REST API
C# Dokumentace k jazyku C# Ukázky jazyka C#
Java Dokumentace k Javě Ukázky v Javě
JavaScript Dokumentace k JavaScriptu Ukázky JavaScriptu
Python Dokumentace k Pythonu Ukázky Pythonu

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, které ho mají vliv, a prostředí nasazení. Přečtěte si poznámku transparentnosti pro PII , kde se dozvíte o zodpovědném používání a nasazení umělé inteligence ve vašich systémech. Další informace najdete v následujících článcích:

Ukázkové scénáře

  • Použijte popisky citlivosti – například na základě výsledků služby PII se může použít popisek veřejné citlivosti na dokumenty, ve kterých se nezjistí žádné entity PII. U dokumentů, kde jsou rozpoznány adresy USA a telefonní čísla, se může použít důvěrný popisek. Pro dokumenty, ve kterých jsou rozpoznána čísla bankovního směrování, se může použít vysoce důvěrný popisek.
  • Redact some categories of personal information from documents that get wider circulation - Example, if customer contact records are accessible to frontline support representatives, the company can redact the customer's personal information from the name from the version of the customer history to preserve the customer's privacy.
  • Redact personal information in to reduce bezvědomí předsudky - Například během procesu kontroly životopisu společnosti mohou blokovat jméno, adresu a telefonní číslo, které pomáhá snížit nevědomé pohlaví nebo jiné předsudky.
  • Nahraďte osobní údaje ve zdrojových datech pro strojové učení, abyste snížili nespravedlivost – například pokud chcete odebrat jména, která by mohla odhalit pohlaví při trénování modelu strojového učení, můžete tuto službu použít k jejich identifikaci a nahradit je obecnými zástupnými symboly pro trénování modelu.
  • Odeberte osobní údaje z přepisu call centra – například pokud chcete odebrat jména nebo jiná data PII, ke kterým dochází mezi agentem a zákazníkem ve scénáři call centra. Službu můžete použít k jejich identifikaci a odebrání.
  • Čištění dat pro datové vědy – PII je možné použít k tomu, aby byla data připravená pro datové vědce a techniky, aby tato data mohli použít k trénování modelů strojového učení. Redacting the data to make sure that customer data isn't exposed.

Další kroky

Existují dva způsoby, jak začít používat funkci propojení entit:

  • Language Studio, což je webová platforma, která umožňuje vyzkoušet několik funkcí služby jazyka, aniž byste museli psát kód.
  • V článku Rychlý start najdete pokyny k provádění požadavků na službu pomocí rozhraní REST API a sady SDK klientské knihovny.