Co je vlastní klasifikace textu (Preview)?

Vlastní klasifikace textu je jednou z funkcí nabízených službou Azure Cognitive Service for Language. Jedná se o cloudovou službu API, která pomocí inteligentních funkcí strojového učení umožňuje vytvářet vlastní modely pro úlohy klasifikace textu.

Vlastní klasifikace textu se nabízí jako součást vlastních funkcí v rámci služby Azure Cognitive for Language. Tato funkce umožňuje uživatelům vytvářet vlastní modely AI ke klasifikaci textu do vlastních kategorií předem definovaných uživatelem. Vytvořením projektu vlastní klasifikace mohou vývojáři iterativním způsobem označovat data, trénovat, vyhodnocovat a vylepšovat výkon modelu, než budou k dispozici pro spotřebu. Kvalita označených dat má velký vliv na výkon modelu. Pro zjednodušení vytváření a přizpůsobení modelu nabízí služba vlastní webový portál, který je přístupný prostřednictvím jazykového studia. Službu můžete snadno začít používat podle kroků v tomto rychlém startu.

Vlastní klasifikace textu podporuje dva typy projektů:

  • Klasifikace bez přípony – pro každý soubor datové sady můžete přiřadit jednu třídu. Například filmový skript by se mohl klasifikovat jenom jako "Action" (Akce) nebo "Čísér".
  • Více klasifikací popisků – každému souboru datové sady můžete přiřadit více tříd. Například filmový skript se může klasifikovat jako "Action" (Akce) nebo Action (Akce) a Action (Akce) a Action and Actioner (Akce a smyšlovač).

Tato dokumentace obsahuje následující typy článku:

  • Rychlé starty jsou úvodní pokyny, které vás provede prováděním požadavků na službu.
  • Koncepty poskytují vysvětlení funkcí a funkcí služby.
  • Návody obsahují pokyny pro použití služby konkrétnějšími nebo přizpůsobenějšími způsoby.

Příklady scénářů použití

Automatické e-maily / hodnocení lístků

Centra podpory všech typů přijímají tisíce až stovky tisíc e-mailů/lístků, které obsahují nestrukturovaný, volný text a přílohy. Včasné kontroly, potvrzení a směrování odborníkům na předmět v rámci interních týmů je zásadní. V takovém měřítku ale hodnocení e-mailů zahrnující lidi ke kontrola a směrování do správných oddělení vyžaduje čas a drahocenné prostředky. Vlastní klasifikace se může použít k analýze třídění příchozího textu a kategorizaci obsahu tak, aby se automaticky směroval do příslušného oddělení, aby bylo možné provést nezbytné akce.

Hledání je základem aplikací, které uživatelům zobrazují textový obsah, a to v běžných scénářích, mezi které patří vyhledávání v katalogu nebo dokumentech, hledání maloobchodních produktů nebo dolování znalostí pro datové vědy.Mnoho podniků v různých odvětvích hledá pro privátní heterogenní obsah, který zahrnuje strukturovaný i nestrukturovaný obsah, bohaté možnosti vyhledávání. Jako součást kanálu mohou vývojáři použít vlastní klasifikaci ke kategorizaci textu do tříd, které jsou relevantní pro jejich obor. Předpovězené třídy lze použít k rozšíření indexování souboru pro přizpůsobenější vyhledávání.

Project životního cyklu vývoje

Vytvoření vlastního projektu klasifikace obvykle zahrnuje několik různých kroků.

Životní cyklus vývoje

Pokud chcete model vyu ít na co nejvíce, postupujte podle těchto kroků:

  1. Definování schématu: Znají vaše data a identifikují třídy, mezi oběma třídami. Vyhněte se nejednoznačnosti.

  2. Data značek: Kvalita označování dat je klíčovým faktorem při určování výkonu modelu. Označte všechny soubory, které chcete zahrnout do trénování. Soubory, které patří do stejné třídy, by měly mít vždy stejnou třídu, pokud máte soubor, který může spadat do dvou tříd, používat projekty klasifikace více tříd. Vyhněte se nejednoznačnosti tříd a ujistěte se, že vaše třídy jsou mezi sebou jasně oddělitelné, zejména u projektů klasifikace s jednou třídou.

  3. Trénování modelu: Váš model se začne učit z označených dat.

  4. View model evaluation details: View the evaluation details for your model to determine how well it performs when introduced to new data.

  5. Vylepšení modelu: Zapracujte na vylepšení výkonu modelu prozkoumáním nesprávných předpovědí modelu a prozkoumáním distribuce dat.

  6. Nasazení modelu: Nasazení modelu umožňuje jeho použití prostřednictvím rozhraní Analyze API.

  7. Klasifikovat text: Použijte vlastní model pro úlohy klasifikace textu.

Další kroky