Začínáme s analýzou textu

Dokončeno

Azure AI Language je součástí nabídek služeb Azure AI, které můžou provádět pokročilé zpracování přirozeného jazyka nad nestrukturovaným textem. Mezi funkce analýzy textu jazyka Azure AI patří:

  • Rozpoznávání pojmenovaných entit identifikuje lidi, místa, události a další. Tuto funkci lze také přizpůsobit pro extrahování vlastních kategorií.
  • Propojení entit identifikuje známé entity společně s odkazem na Wikipedii.
  • Detekce osobních údajů (PII) identifikuje citlivé osobní údaje, včetně osobních zdravotních údajů (PHI).
  • Rozpoznávání jazyka identifikuje jazyk textu a vrátí kód jazyka, například "en" pro angličtinu.
  • Analýza mínění a dolování názorů identifikuje, zda je text pozitivní nebo negativní.
  • Shrnutí shrnuje text tím, že identifikuje nejdůležitější informace.
  • Extrakce klíčových frází uvádí hlavní koncepty z nestrukturovaného textu.

Rozpoznávání a propojení entit

Azure AI Language můžete poskytnout nestrukturovaný text a vrátí seznam entit v textu, který rozpozná. Entita je položka určitého typu nebo kategorie; a v některých případech podtyp, například podtyp, jak je znázorněno v následující tabulce.

Typ Podtyp Příklad
Osoba "Bill Gates", "John"
Poloha "Paříž", "New York"
Organizace "Microsoft"
Množství Počet "6" nebo "šest"
Množství Procento "25 %" nebo "padesát procent"
Množství Řadová číslovka "1." nebo "první"
Množství Věk "90 dnů" nebo "30 let"
Množství Měna "10,99"
Množství Dimenze "10 km", "40 cm"
Množství Teplota "45 stupňů"
DateTime "18:30, 4. února 2012"
DateTime Datum "2. května 2017" nebo "2. 5. 2017"
DateTime Čas "8:00" nebo "18:00"
DateTime Rozsah dat "2. května až 5. května"
DateTime Časový rozsah "18:00 až 19:00"
DateTime Doba trvání "1 minuta a 45 sekund"
DateTime Nastavit "každé úterý"
Adresa URL "https://www.bing.com"
E-mail "support@microsoft.com"
Telefonní číslo (USA) "(312) 555-0176"
IP adresa "10.0.1.125"

Azure AI Language také podporuje propojení entit, které pomáhají nejednoznačnost entit propojením s konkrétním odkazem. U rozpoznaných entit vrátí služba adresu URL relevantního článku na Wikipedii.

Předpokládejme například, že používáte Azure AI Language k detekci entit v následujícím extrahování kontroly restaurace:

"Minulý týden jsem si dala jídlo v restauraci v městě Seattle."

Entita Typ Podtyp Adresa URL Wikipedie
Seattle Poloha https://en.wikipedia.org/wiki/Seattle
minulý týden DateTime Rozsah dat

Rozpoznávání jazyka

Pomocí funkce rozpoznávání jazyka Azure AI můžete identifikovat jazyk, ve kterém je text napsaný. Můžete odeslat k analýze více dokumentů najednou. Pro každý dokument odeslaný službou se zjistí:

  • název jazyka (například angličtina)
  • Kód jazyka ISO 639-1 (například "en").
  • skóre udávající úroveň spolehlivosti rozpoznání jazyka

Představte si třeba situaci, kdy vlastníte a provozujete restauraci, kde zákazníci můžou vyplňovat průzkumy a poskytovat zpětnou vazbu k jídlu, službám, pracovníkům a tak dále. Předpokládejme, že jste získali následující recenze od zákazníků:

Hodnocení 1: "Fantastické místo na oběd. Polévka byla vynikající."

Recenze 2: "Comida maravillosa y gran servicio."

Hodnocení 3: "Croque monsieur avec frites byl skvělý. Bon appetit!"

Pomocí funkcí analýzy textu v Jazyce Azure AI můžete zjistit jazyk foreach těchto kontrol; a může reagovat s následujícími výsledky:

Dokument Název jazyka ISO 6391 Code Skóre
1. recenze English en 1.0
2. recenze Španělština es 1.0
3. recenze English en 0,9

Všimněte si, že jazyk zjištěný pro 3. recenzi je angličtina navzdory tomu, že text obsahuje směs angličtiny a francouzštiny. Služba rozpoznávání jazyka se soustředí na převládající jazyk v textu. Používá algoritmus k určení převládajícího jazyka, jako je délka slovních spojení nebo celkové množství textu pro jazyk v porovnání s jinými jazyky v textu. Vrácenou hodnotou bude převládající jazyk, spolu s kódem jazyka. Skóre spolehlivosti může být menší než 1 v důsledku textu smíšeného jazyka.

Může existovat text, který je nejednoznačný v přírodě nebo má obsah smíšeného jazyka. Tyto situace můžou představovat výzvu. Příklad s nejednoznačným obsahem by byl případ, kdy dokument obsahuje omezený text nebo pouze interpunkční znaménko. Například použití jazyka Azure AI k analýze textu ":-)", výsledkem je hodnota neznámá pro název jazyka a identifikátor jazyka a skóre NaN (které se používá k označení čísla).

Analýza zabarvení a dolování názorů

Funkce analýzy textu v Azure AI Language můžou vyhodnotit text a vrátit skóre mínění a popisky pro každou větu. Tato funkce je užitečná pro zjišťování pozitivních a negativních mínění na sociálních sítích, v recenzích zákazníků, diskuzních fórech a dalších zdrojích.

Azure AI Language používá k vyhodnocení textu předem připravený klasifikační model strojového učení. Služba vrátí skóre mínění ve třech kategoriích: kladné, neutrální a záporné. V každé kategorii je k dispozici skóre mezi 0 a 1. Skóre označují, jak pravděpodobné je, že zadaný text je určitým míněním. K dispozici je také jedno mínění o dokumentu.

Například u následujících dvou recenzí na restauraci by se dalo analyzovat mínění:

Recenze 1: "Včera večer jsme měli večeři v této restauraci a první věc, kterou jsem si všiml, bylo, že byl zdvořilý personál. Byli jsme pozdravováni přátelským způsobem a okamžitě jsme se dostali do našeho stolu. Stůl byl čistý, židle byly pohodlné a jídlo bylo úžasné."

a

Recenze 2: "Naše jídelna v této restauraci byla jedním z nejhorších, co jsem kdy měl. Služba byla pomalá a jídlo bylo hrozné. Už nikdy nebudu jíst v tomto zařízení."

Skóre mínění pro první recenzi může být: Mínění dokumentu: kladné kladné skóre: ,90 Neutrální skóre: ,10 Záporné skóre: ,00

Druhá recenze může vrátit odpověď: Mínění dokumentu: záporné kladné skóre: ,00 Neutrální skóre: ,00 Záporné skóre: ,99

Extrakce klíčových frází

Extrakce klíčových frází identifikuje hlavní body textu. Představte si situaci s restaurací popisovanou výše. Pokud máte velký počet průzkumů, může to trvat dlouhou dobu, než si projdete recenze. Místo toho můžete pomocí funkcí extrakce klíčových frází služby Language shrnout hlavní body.

Můžete dostat recenzi podobnou této:

"Měli jsme tu večeři na oslavu narozenin a měli fantastický zážitek. Pozdravili jsme přátelskou hostesku a hned jsme se dostali k našemu stolu. Atmosféra byla uvolněná, jídlo bylo úžasné a služba byla úžasná. Pokud se vám líbí skvělé jídlo a pozorné služby, měli byste vyzkoušet toto místo."

Extrakce klíčových frází může k této recenzi poskytnout více kontextu extrahováním následujících frází:

  • oslavu narozenin
  • bylo to fantastické
  • přátelsky přivítala
  • skvělé jídlo
  • pozornou obsluhu
  • večeři
  • table
  • atmosféra
  • místo

Stejně jako použití analýzy mínění k určení, že se jedná o pozitivní recenzi, můžete také použít službu klíčových frází k identifikaci důležitých prvků kontroly.

Vytvoření prostředku pro jazyk Azure AI

Pokud chcete v aplikaci používat jazyk Azure AI, musíte zřídit odpovídající prostředek ve svém předplatném Azure. Můžete zvolit některý z následujících typů prostředků:

  • Prostředek jazyka – tento typ prostředku vyberte, pokud plánujete používat pouze služby Azure AI Language nebo pokud chcete spravovat přístup a fakturaci prostředku odděleně od ostatních služeb.
  • Prostředek služeb Azure AI – tento typ prostředku zvolte, pokud plánujete používat jazyk Azure AI v kombinaci s jinými službami Azure AI a chcete spravovat přístup a fakturaci těchto služeb společně.