Nápady na řešení
Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.
Tento článek popisuje, jak můžete pomocí umělé inteligence Microsoftu zlepšit přesnost označování obsahu webu kombinováním hloubkového učení a zpracování přirozeného jazyka (NLP) s daty na hledaných termínech specifických pro web.
Architektura
Stáhněte si soubor aplikace Visio s touto architekturou.
Tok dat
Data se ukládají v různých formátech v závislosti na původním zdroji. Data se dají ukládat jako soubory ve službě Azure Data Lake Storage nebo v tabulkové podobě ve službě Azure Synapse nebo Azure SQL Database.
Azure Machine Učení (ML) se může z těchto zdrojů připojit a číst, aby ingestovat data do kanálu NLP pro předběžné zpracování, trénování modelů a následné zpracování.
Předběžné zpracování NLP zahrnuje několik kroků pro zpracování dat s účelem zobecnění textu. Jakmile se text rozdělí na věty, techniky NLP, jako je lemmatizace nebo stemming, umožňují tokenizaci jazyka v obecné podobě.
Vzhledem k tomu, že modely NLP jsou již k dispozici předem vytrénované, doporučuje přístup pro transferové učení stahovat vkládání specifické pro jazyk a používat oborový standardní model pro klasifikaci textu s více třídami, jako jsou varianty BERT.
Po zpracování NLP doporučujeme uložit model do registru modelů v Azure ML, aby bylo sledovat metriky modelu. Text lze navíc po zpracování zpracovat pomocí konkrétních obchodních pravidel, která jsou deterministicky definovaná na základě obchodních cílů. Microsoft doporučuje používat etické nástroje AI k detekci zkresleného jazyka, což zajišťuje spravedlivé trénování jazykového modelu.
Model je možné nasadit prostřednictvím služby Azure Kubernetes Service při spuštění clusteru spravovaného kubernetes, ve kterém jsou kontejnery nasazené z imagí uložených ve službě Azure Container Registry. Koncové body je možné zpřístupnit front-endové aplikaci. Model je možné nasadit prostřednictvím služby Azure Kubernetes Service jako koncové body v reálném čase.
Výsledky modelu je možné zapsat do možnosti úložiště v souboru nebo tabulkovém formátu a pak je správně indexovat pomocí služby Azure Cognitive Search. Model by se spustil jako dávkové odvozování a uložil výsledky do příslušného úložiště dat.
Komponenty
- Data Lake Storage pro analýzy velkých objemů dat
- Azure Machine Learning
- Azure Cognitive Search
- Azure Container Registry
- Azure Kubernetes Service (AKS)
Podrobnosti scénáře
Sociální weby, fóra a další služby Q&A náročné na text spoléhají na označování obsahu, což umožňuje dobré indexování a vyhledávání uživatelů. Označování obsahu je ale často ponecháno na uvážení uživatelů. Protože uživatelé nemají seznamy běžně hledaných termínů nebo hluboké porozumění struktuře webu, často nesprávně označují obsah. Nesprávně označený obsah je obtížné nebo nemožné najít, když je později potřeba.
Potenciální případy použití
Pomocí zpracování přirozeného jazyka (NLP) s hloubkovým učením pro označování obsahu umožňuje škálovatelné řešení vytvářet značky napříč obsahem. Když uživatelé hledají obsah podle klíčových slov, tento proces klasifikace s více třídami rozšiřuje neoznačené obsah popisky, které vám umožní vyhledávat na podstatných částech textu, což zlepšuje procesy načítání informací. Nový příchozí obsah bude odpovídajícím způsobem označen spuštěním odvození NLP.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Louis Li | Vedoucí zákaznický inženýr
Další kroky
Projděte si dokumentaci k produktu:
- Úvod do Azure Data Lake Storage Gen2
- Azure Machine Learning
- Dokumentace ke službě Azure Cognitive Search
- Další informace o službě Azure Container Registry
- Azure Kubernetes Service
Vyzkoušejte tyto moduly Microsoft Learn:
- Úvod do zpracování přirozeného jazyka pomocí PyTorch
- Trénování a vyhodnocování modelů hlubokého učení
- Implementace dolování znalostí pomocí služby Azure Cognitive Search
Související prostředky
Projděte si následující související články o architektuře:
- Technologie zpracování přirozeného jazyka
- Vytvoření delta jezera pro podporu ad hoc dotazů v online volném čase a rezervaci cesty
- Dotazování datového jezera nebo jezera pomocí bezserverové služby Azure Synapse
- Architektura operací strojového učení (MLOps) pro škálování životního cyklu strojového učení s využitím služby Azure Machine Učení
- Úvod do prediktivní údržby ve výrobě
- Řešení prediktivní údržby