Co je vlastní rozpoznávání pojmenovaných entit (NER) (Preview)?

Custom NER je jedna z funkcí, kterou nabízí Služba pro rozpoznávání Azure pro jazyk. Jedná se o cloudovou službu API, která umožňuje vytvářet vlastní modely pro vlastní NER úkoly v rámci služby Machine Learning Intelligence.

Vlastní NER se nabízí jako součást vlastních funkcí v rámci služby Azure pro rozpoznávání jazyka. Tato funkce umožňuje svým uživatelům vytvářet vlastní modely AI pro extrakci entit specifických pro doménu z nestrukturovaného textu, jako jsou například smlouvy nebo finanční dokumenty. Díky vytvoření vlastního projektu NER můžou vývojáři iterativním tagem označit data, vyhodnocovat, hodnotit a zlepšovat výkon modelu, než je zpřístupní pro spotřebu. Kvalita tagovaných dat významně ovlivňuje výkon modelu. Pro zjednodušení sestavování a přizpůsobení modelu nabízí služba vlastní webový portál, ke kterému se dá dostat prostřednictvím jazykové studia. Pomocí kroků v tomto rychlémstartu můžete snadno začít používat službu.

Tato dokumentace obsahuje následující typy článků:

  • Rychlé starty jsou pokyny Začínáme, které vám pomohou při provádění požadavků na službu.
  • Koncepty poskytují Vysvětlení funkcí a funkcí služby.
  • Návody obsahují pokyny k používání služby v konkrétnějším nebo přizpůsobeném způsobu.

Příklady scénářů použití

Extrakce informací

Mnoho finančních a právnických organizací extrahuje a normalizuje data z tisíců komplexního nestrukturovaného textu, jako jsou například bankovní výpisy, zákonné smlouvy nebo bankovní formuláře, na denní bázi. Vlastní NER místo ručního zpracování těchto formulářů může přispět k automatizaci tohoto procesu a šetří náklady, čas a úsilí.

Hledání je základem libovolné aplikace, která uživatelům poskytuje textový obsah, a to s využitím běžných scénářů, jako je katalog nebo hledání dokumentů, maloobchodní hledání produktů nebo dolování znalostí pro datové vědy.Řada podniků v různých odvětvích se pokouší vytvořit bohatou možnost vyhledávání přes soukromý, heterogenní obsah, který zahrnuje strukturované i nestrukturované dokumenty. Jako součást svého kanálu můžou vývojáři používat vlastní NER k extrakci entit z textu, který je relevantní pro jejich odvětví. Tyto entity lze použít k obohacení indexování souboru pro lépe přizpůsobené vyhledávání.

Audit a dodržování předpisů

Místo ruční kontroly výrazně dlouhých textových souborů pro auditování a uplatnění zásad mohou oddělení IT ve finančních nebo zákonných podnicích využít vlastní NER k vytváření automatizovaných řešení. Tato řešení vám pomůžou vyhodnotit zásady dodržování předpisů a nastavit nezbytná obchodní pravidla založená na kanálech dolování znalostí, které zpracovávají strukturovaný a nestrukturovaný obsah.

Životní cyklus vývoje aplikací

Použití vlastních NER obvykle zahrnuje několik různých kroků.

Životní cyklus vývoje

  1. Definování schématu: Zjistěte data a Identifikujte entity, které chcete extrahovat. Vyhněte se nejednoznačnosti.

  2. Označení dat: označení dat je klíčovým faktorem při určování výkonu modelu. Tagy přesně, konzistentně a kompletně.

    1. Tag přesně: označte každou entitu na její správný typ vždy. Zahrňte pouze to, co chcete extrahovat, a vyhněte se zbytečným datům ve značce.
    2. Značka konzistentně: stejná entita by měla mít stejnou značku napříč všemi soubory.
    3. Značka zcela: označte všechny instance entity ve všech souborech.
  3. Model výuky: váš model začíná učení s vašimi tagovanými daty.

  4. Zobrazení podrobností o vyhodnocení modelu: po dokončení školení si prohlédněte podrobnosti o vyhodnocení modelu a jeho výkon.

  5. Zlepšení modelu: po zkontrolování podrobností o vyhodnocení modelu můžete pokračovat a zjistit, jak můžete model vylepšit.

  6. Nasazení modelu: nasazení modelu je, aby bylo k dispozici pro použití.

  7. Extrahování entit: použijte vlastní modely pro úlohy extrakce entit.

Další kroky

  • Pomocí článku rychlý Start můžete začít používat vlastní klasifikaci textu.

  • Při procházení životního cyklu vývoje aplikací si přečtěte Glosář , kde najdete další informace o termínech používaných v dokumentaci k této funkci.

  • Nezapomeňte zobrazit omezení služby pro informace, jako je například regionální dostupnost.