Megoldási ötletek
Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.
Ez a cikk azt ismerteti, hogyan javíthatja a webhelyek tartalomcímkézési pontosságát a Microsoft AI használatával a mély tanulás és a természetes nyelvi feldolgozás (NLP) és a webhelyspecifikus keresési kifejezések adatainak kombinálásával.
Architektúra
Töltse le az architektúra Visio-fájlját.
Adatfolyam
Az adatok tárolása az eredeti forrástól függően különböző formátumban történik. Az adatok tárolhatók fájlként az Azure Data Lake Storage-ban, vagy táblázatos formában az Azure Synapse-ban vagy az Azure SQL Database-ben.
Az Azure Machine Tanulás (ML) képes csatlakozni és olvasni az ilyen forrásokból, hogy az adatokat az NLP-folyamatba betöltse előfeldolgozás, modellbetanítás és utófeldolgozás céljából.
Az NLP előfeldolgozása több lépést is tartalmaz az adatok felhasználásához, szöveges általánosítás céljából. Miután a szöveget mondatokra bontották, az NLP-technikák, például a lemmatizálás vagy a lemmatizálás lehetővé teszik a nyelv általános formában történő tokenizálását.
Mivel az NLP-modellek már előre betanítottak, a transzfertanulási megközelítés azt javasolja, hogy töltse le a nyelvspecifikus beágyazásokat, és használjon iparági szabványmodellt a többosztályos szövegbesoroláshoz, például a BERT változataihoz.
Az NLP utófeldolgozása azt javasolja, hogy a modell egy modellregisztrációs adatbázisba legyen tárolva az Azure ML-ben a modellmetrikák nyomon követése érdekében. Ezenkívül a szöveg az üzleti célok alapján meghatározott, determinisztikusan meghatározott üzleti szabályokkal utólag is feldolgozható. A Microsoft etikus AI-eszközök használatát javasolja az elfogult nyelvek észleléséhez, ami biztosítja a nyelvi modell tisztességes betanítását.
A modell üzembe helyezhető az Azure Kubernetes Service-ben, miközben egy Kubernetes által felügyelt fürtöt futtat, ahol a tárolók az Azure Container Registryben tárolt rendszerképekből vannak üzembe helyezve. A végpontok elérhetővé tehetők egy előtérbeli alkalmazás számára. A modell valós idejű végpontként üzembe helyezhető az Azure Kubernetes Service-ben.
A modelleredmények fájl- vagy táblázatos formátumban írhatók egy tárolási beállításba, majd megfelelően indexelhetők az Azure Cognitive Search által. A modell kötegelt következtetésként futna, és az eredményeket a megfelelő adattárban tárolná.
Összetevők
- Data Lake Storage a Big Data Analyticshez
- Azure Machine Learning
- Azure Cognitive Search
- Azure Container Registry
- Azure Kubernetes Service (AKS)
Forgatókönyv részletei
A közösségi webhelyek, fórumok és más, szövegigényes Q&A-szolgáltatások nagymértékben támaszkodnak a tartalomcímkézésre, ami lehetővé teszi a jó indexelést és a felhasználói keresést. A tartalomcímkézés azonban gyakran a felhasználók saját belátása szerint történik. Mivel a felhasználók nem rendelkeznek a gyakran keresett kifejezések listájával vagy a webhelyszerkezet alapos ismeretével, gyakran helytelenül címkéznek tartalmat. A helytelenül címkézett tartalmat nehéz vagy lehetetlen megtalálni, amikor később szükség van rá.
Lehetséges használati esetek
Ha természetes nyelvi feldolgozást (NLP) használ a tartalomcímkézés mélytanításával, lehetővé teszi a méretezhető megoldásokat a címkék tartalomközi létrehozásához. Ahogy a felhasználók kulcsszavak alapján keresnek tartalmat, ez a többosztályos besorolási folyamat címkékkel egészíti ki a címkézetlen tartalmakat, amelyek lehetővé teszik a szöveg jelentős részének keresését, ami javítja az információlekérési folyamatokat. Az új bejövő tartalom megfelelően lesz megjelölve NLP-következtetés futtatásával.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Louis Li | Vezető ügyfélmérnök
Következő lépések
Tekintse meg a termék dokumentációját:
- Az Azure Data Lake Storage Gen2 bemutatása
- Azure Machine Learning
- Az Azure Cognitive Search dokumentációja
- További információ az Azure Container Registryről
- Azure Kubernetes Service
Próbálja ki az alábbi Microsoft Learn-modulokat:
- Bevezetés a természetes nyelvi feldolgozásba a PyTorch használatával
- Mélytanulási modellek betanítása és kiértékelése
- Tudásbányászat megvalósítása az Azure Cognitive Search használatával
Kapcsolódó erőforrások
Tekintse meg a következő kapcsolódó architekturális cikkeket:
- Természetes nyelvi feldolgozási technológia
- Delta-tó létrehozása alkalmi lekérdezések támogatására online szabadidős és utazási foglalás esetén
- Data Lake vagy Lakehouse lekérdezése kiszolgáló nélküli Azure Synapse használatával
- Gépi tanulási műveletek (MLOps) keretrendszere a gépi tanulási életciklus méretezéséhez az Azure Machine Tanulás
- Bevezetés a prediktív karbantartásba a gyártásban
- Prediktív karbantartási megoldás