Adatgyűjtés az alkalmazáshoz

Cikk
01/19/2024

Fontos

A LUIS 2025. október 1-jén megszűnik, és 2023. április 1-től nem fog tudni új LUIS-erőforrásokat létrehozni. Javasoljuk, hogy a LUIS-alkalmazásokat áttelepítse beszélgetési nyelvfelismerésre , hogy kihasználhassa a terméktámogatás és a többnyelvű képességek folyamatos előnyeit.

Egy Language Understanding (LUIS) alkalmazásnak adatokra van szüksége az alkalmazásfejlesztés részeként.

A LUIS-ban használt adatok

A LUIS szövegeket használ adatokként a LUIS-alkalmazás betanításához és teszteléséhez a szándékok besorolásához és az entitások kinyeréséhez. Elég nagy adatkészletre van szüksége, amely elegendő adatkészlettel rendelkezik ahhoz, hogy külön adatkészleteket hozzon létre mind a betanításhoz, mind a teszteléshez, amelyeknél a sokféleség és a terjesztés kifejezetten az alábbiakban szerepel. Az egyes készletekben lévő adatok nem fedik egymást.

Betanítási adatok kiválasztása például kimondott szövegekhez

Válassza ki a betanítási csoport kimondott szövegeit az alábbi feltételek alapján:

A valós adatok a legjobbak:
- Valós adatok az ügyfélalkalmazásból: Válassza ki az ügyfélalkalmazásból származó valós adatokat tartalmazó kimondott szövegeket. Ha az ügyfél egy webes űrlapot küld a mai kérdésével, és Ön egy robotot készít, a webes űrlapadatok használatával kezdheti.
- Közösségi forrásból származó adatok: Ha nem rendelkezik meglévő adatokkal, fontolja meg a közösségi forrásszövegek forrását. Próbálja meg a tényleges felhasználói sokaságból származó kimondott szövegeket tömegesen használni a forgatókönyvhöz, hogy a lehető legjobb közelítést kapja az alkalmazás által látott valós adatokhoz. A közösségi forrásból eredő emberi beszédelemek jobbak, mint a számítógép által létrehozott kimondott szövegek. Amikor szintetikus kimondott szövegekből álló adatkészletet hoz létre bizonyos minták alapján, az nem fogja látni azokat a természetes változatokat, amelyek a kimondott szövegek létrehozásakor megjelennek, és nem lesznek túl általánosak az éles környezetben.
Adatok sokfélesége:
- Régiók sokfélesége: Győződjön meg arról, hogy az egyes szándékok adatai a lehető legkülönbözőbbek, beleértve a kifejezéseket (szóválasztást) és a nyelvhelyességet. Ha a szabadságnapokkal kapcsolatos HR-szabályzatokkal kapcsolatos szándékot tanít, győződjön meg arról, hogy rendelkezik olyan kimondott szövegekkel, amelyek az összes kiszolgált régióban használt kifejezéseket képviselik. Európában például az emberek kérdezhetnek róla taking a holiday , az USA-ban pedig a kérdésről taking vacation days.
- Nyelvi sokszínűség: Ha olyan felhasználókkal rendelkezik, akiknek különböző anyanyelvük van, és egy másik nyelven kommunikálnak, győződjön meg arról, hogy olyan kimondott szövegek vannak, amelyek nem anyanyelvi beszélőket képviselnek.
- Bemeneti sokszínűség: Fontolja meg az adatbeviteli útvonalat. Ha egy személytől, részlegtől vagy beviteli eszköztől (mikrofontól) gyűjt adatokat, valószínűleg hiányzik a sokszínűség, amely fontos lesz az alkalmazás számára az összes bemeneti útvonal megismeréséhez.
- Írásjelek sokfélesége: Vegye figyelembe, hogy a szövegalkalmazásokban az írásjelek különböző szintjei vannak használatban, és győződjön meg arról, hogy az írásjelek különbözőek. Ha beszédből származó adatokat használ, azok nem rendelkeznek írásjelekkel, így az adatoknak sem szabad.
Adatterjesztés: Győződjön meg arról, hogy a szándékok közötti adateloszlás megegyezik az ügyfélalkalmazás által kapott adatok eloszlásával. Ha a LUIS-alkalmazás osztályozza azokat a kimondott szövegeket, amelyek szabadság ütemezésére vonatkozó kérések (50%), de beszédelemeket is látni fognak a hátralévő szabadságnapokkal kapcsolatos kérdésekről (20%), a levelek jóváhagyásáról (20%), valamint néhány hatókörön kívüli és csevegésről (10%), akkor az adatkészletnek rendelkeznie kell az egyes beszédelemek mintaszázalékával.
Minden adatűrlap használata: Ha a LUIS-alkalmazás több űrlapon fog adatokat készíteni, mindenképpen vegye fel ezeket az űrlapokat a betanítási kimondott szövegekbe. Ha például az ügyfélalkalmazás beszédet és beírt szövegbevitelt is használ, akkor beszédfelismerést kell létrehoznia a szöveghez létrehozott kimondott szövegekhez és beírt kimondott szövegekhez. A beszédfelismerésben és az elírásokban különböző eltéréseket láthat a beszédfelismerésben és az elírásokban. Ezt a változatot a betanítási adatokban kell ábrázolni.
Pozitív és negatív példák: A LUIS-alkalmazások tanításához meg kell tudnia, hogy mi a szándék (pozitív), és mi nem (negatív). A LUIS-ban a kimondott szövegek csak egyetlen szándék esetén lehetnek pozitívak. Amikor a rendszer hozzáad egy kimondott szöveget egy szándékhoz, a LUIS automatikusan negatív példává teszi ezt a példa kimondott szöveget az összes többi szándékra.
Alkalmazás hatókörén kívüli adatok: Ha az alkalmazás a definiált szándékokon kívül eső kimondott szövegeket fog látni, győződjön meg arról, hogy ezeket adja meg. Azok a példák, amelyek nincsenek hozzárendelve egy adott meghatározott szándékhoz, a Nincs szándék címkével lesznek ellátva. Fontos, hogy reális példákkal rendelkezzen a Nincs szándékra a definiált szándékok hatókörén kívül eső kimondott szövegek helyes előrejelzéséhez.

Ha például egy szabadságra összpontosító HR-robotot hoz létre, és három szándéka van:
- szabadság ütemezése vagy szerkesztése
- érdeklődjön a szabadnapokról
- kilépés jóváhagyása/elutasítása
Győződjön meg arról, hogy mindkét szándékot lefedő kimondott szövegekkel rendelkezik, de az alkalmazás által a következő hatókörön kívüli lehetséges kimondott szövegeket is lefedi:
- What are my medical benefits?
- Who is my HR rep?
- tell me a joke
Ritka példák: Az alkalmazásnak ritka példákat és gyakori példákat kell létrehoznia. Ha az alkalmazás még soha nem látott ritka példákat, nem fogja tudni azonosítani őket éles környezetben. Ha valós adatokat használ, pontosabban előrejelezheti, hogy a LUIS-alkalmazás hogyan fog működni éles környezetben.

Minőség a mennyiség helyett

Fontolja meg a meglévő adatok minőségét, mielőtt további adatokat ad hozzá. A LUIS-ban gépi tanítást használ. A címkék és az Ön által definiált gépi tanulási funkciók kombinációja az, amit a LUIS-alkalmazás használ. Nem csak a címkék mennyiségére támaszkodik a legjobb előrejelzés érdekében. A példák sokfélesége és azok ábrázolása, amit a LUIS-alkalmazás éles környezetben látni fog, a legfontosabb rész.

Adatok előfeldolgozása

Az alábbi előfeldolgozási lépések segítenek egy jobb LUIS-alkalmazás létrehozásában:

Duplikált elemek eltávolítása: A kimondott szövegek duplikálása nem fog fájni, de ezek sem segítenek, így az eltávolításuk időt takarít meg a címkézéshez.
Azonos ügyfélalkalmazás-előfeldolgozás alkalmazása: Ha a LUIS-előrejelzési végpontot meghívó ügyfélalkalmazás futásidőben alkalmazza az adatfeldolgozást, mielőtt elküldi a szöveget a LUIS-nak, be kell tanítania a LUIS-alkalmazást az azonos módon feldolgozott adatokra.
Ne alkalmazzon olyan új törlési folyamatokat, amelyeket az ügyfélalkalmazás nem használ: Ha az ügyfélalkalmazás közvetlenül, például nyelvtan vagy írásjelek törlése nélkül fogadja el a beszéddel létrehozott szöveget, a kimondott szövegeknek ugyanazt kell tükrözniük, beleértve a hiányzó írásjeleket és egyéb téves felismeréseket is, amelyeket figyelembe kell vennie.
Ne törölje az adatokat: Ne szabaduljon meg a hibásan formázott bemenetektől, amelyeket a hibás beszédfelismerés, a véletlen billentyűlenyomások vagy a hibásan beírt/hibásan írt szöveg miatt kaphat. Ha az alkalmazás ilyen bemeneteket fog látni, fontos, hogy betanítása és tesztelése legyen rajtuk. Adjon hozzá egy helytelen formátumú bemeneti szándékot , ha nem várná el, hogy az alkalmazás megértse. Címkézze fel ezeket az adatokat, hogy segítsen a LUIS-alkalmazásnak előrejelezni a megfelelő választ futásidőben. Az ügyfélalkalmazás kiválaszthatja a megfelelő választ az olyan értelmezhetetlen kimondott szövegekre, mint a Please try again.

Adatok címkézése

Szöveg címkézése helyesen: A példaszövegeknek egy entitás minden formáját címkézniük kell. Ide tartoznak a hibásan írt, hibásan beírt és félrefordított szövegek.

Adatok áttekintése, miután a LUIS-alkalmazás éles környezetben van

Tekintse át a végponti kimondott szövegeket a valódi kimondott szöveg forgalmának figyeléséhez, miután üzembe helyezett egy alkalmazást az éles környezetben. Ez lehetővé teszi a betanítási beszédelemek valós adatokkal való frissítését, ami javítja az alkalmazást. A közösségi forrású vagy nem valós forgatókönyvek adataival létrehozott alkalmazásokat a valós használatuk alapján javítani kell.

Adatkijelölés tesztelése kötegelt teszteléshez

A kimondott szövegek betanítására vonatkozó fent felsorolt alapelvek azokra a kimondott szövegekre vonatkoznak, amelyeket a tesztkészlethez kell használnia. Győződjön meg arról, hogy a szándékok és entitások közötti eloszlás a lehető legszorosabban tükrözi a valós eloszlást.

A tesztkészletben ne használja újra a betanítási készlet kimondott szövegeit. Ez helytelenül torzítja az eredményeket, és nem ad megfelelő jelzést arról, hogy a LUIS-alkalmazás hogyan fog éles környezetben teljesíteni.

Az alkalmazás első verziójának közzététele után frissítenie kell a tesztkészletet a valós forgalomból származó kimondott szövegekkel, hogy a tesztkészlet tükrözze az éles elosztást, és időben monitorozhassa a valós teljesítményt.

Következő lépések

Megtudhatja, hogyan módosítja a LUIS az adatokat az előrejelzés előtt