Begrijpen wat goede uitingen zijn voor uw LUIS-app
Uitingen zijn invoer van de gebruiker die uw app moet interpreteren. Om LUIS te trainen om de intenties en entiteiten van hen te extra heren, is het belang rijk dat u voor elke intentie een groot aantal verschillende voor beeld-uitingen vastlegt. Actief leren of het proces van het voortzetten van de nieuwe uitingen is essentieel voor machine learning-informatie die LUIS biedt.
Verzamel uitingen die u denkt dat gebruikers worden ingevoerd. Neem uitingen op. Dit betekent hetzelfde als op verschillende manieren:
- Lengte van Utterance-short, medium en Long voor uw client-app
- Lengte van woord en woord groep
- Plaatsing van woorden: entiteit aan het begin, Midden en einde van utterance
- Grammatica
- Pluralization
- Als gevolg
- Keuze uit zelfstandig naam woord en werk woord
- Interpunctie : een goed RAS met de juiste, onjuiste en geen grammatica
Een variabele uitingen kiezen
Wanneer u voor het eerst aan de slag gaat door bijvoorbeeld uitingen toe te voegen aan uw Luis-model, zijn hier enkele principes die u moet onthouden.
Uitingen zijn niet altijd goed gevormd
Dit kan een zin zijn, zoals "een ticket aan Parijs voor mij" of een fragment van een zin, zoals "boeken" of "Parijs vlucht". Gebruikers maken vaak spel fouten. Overweeg bij het plannen van uw app of u Bing spellingcontrole gebruikt om gebruikers invoer te corrigeren voordat u deze aan Luis door gegeven.
Als u de spelling van de gebruiker uitingen niet wilt controleren, moet u LUIS trainen op uitingen met type-en spel fouten.
De representatieve taal van de gebruiker gebruiken
Wanneer u uitingen kiest, moet u er rekening mee houden dat u een veelvoorkomende term of woord groep zou kunnen hebben voor de typische gebruiker van uw client toepassing. Ze hebben mogelijk geen domein ervaring. Wees voorzichtig met het gebruik van termen of zinsdelen die een gebruiker alleen zou zeggen als hij een expert was.
Kies verschillende terminologie en formule ring
U zult merken dat zelfs als u een gevarieerde zin maakt, u nog steeds een woorden lijst moet herhalen.
Doe het volgende voor beeld uitingen:
| Voorbeelden van utterances |
|---|
| Hoe krijg ik een computer? |
| Hoe krijg ik een computer? |
| Ik wil een computer verkrijgen, hoe ga ik daar naartoe? |
| Wanneer kan ik een computer? |
De kern term hier, computer, is niet gevarieerd. Gebruik alternatieven als desktop computer, laptop, werk station of zelfs alleen machine. LUIS kan op intelligente wijze synoniemen uit de context afleiden, maar wanneer u uitingen voor training maakt, is het altijd beter om ze te variëren.
Voor beeld van uitingen in elke intentie
Elke intentie moet voorbeeld uitingen hebben, ten minste 15. Als u een intentie hebt die geen voorbeeld uitingen heeft, kunt u LUIS niet trainen. Als u een intentie hebt met een of meer voor beeld uitingen, is het mogelijk dat LUIS de bedoeling niet nauw keurig voors pellen.
Kleine groepen van 15 uitingen toevoegen voor elke ontwerp herhaling
Voeg in elke herhaling van het model geen grote hoeveelheid uitingen toe. Voeg uitingen toe aan hoeveel heden van 15. Train, Publiceeren test het opnieuw.
LUIS bouwt efficiënte modellen met uitingen die zorgvuldig zijn geselecteerd door de auteur van het LUIS-model. Het is niet waardevol om te veel uitingen toe te voegen, omdat het Verwar ring leidt.
Het is beter om met een paar uitingen te beginnen en vervolgens eind punt uitingen te controleren op juiste intentie van voor spelling en extractie van entiteiten.
Utterance normalisatie
Utterance normalisatie is het proces van het negeren van de effecten van typen tekst, zoals interpunctie en diakritische tekens, tijdens de training en voor spelling.
De utterance normalisatie-instellingen zijn standaard uitgeschakeld. Deze instellingen zijn onder meer:
- Word-formulieren
- Diakritische tekens mag
- Interpunctie
Als u een normalisatie-instelling inschakelt, worden de scores in het test deel venster, batch tests en eindpunt query's gewijzigd voor alle uitingen voor die normalisatie-instelling.
Wanneer u een versie in de LUIS-Portal kloont, gaan de versie-instellingen door naar de nieuwe gekloonde versie.
Stel de versie-instellingen in via de LUIS-Portal, in de sectie beheren , op de pagina Toepassings instellingen of de API-versie-instellingen bijwerken. Meer informatie over deze normalisatie wijzigingen in de verwijzing.
Word-formulieren
Als woord vormen worden genormaliseerd, worden de verschillen in woorden die buiten het hoofd gebied uitvouwen, genegeerd.
Diakritische tekens mag
Diakritische tekens zijn tekens of tekens in de tekst, bijvoorbeeld:
İ ı Ş Ğ ş ğ ö ü
Lees tekens
Het normaliseren van interpunctie betekent dat voordat uw modellen worden getraind en voordat uw eindpunt query's worden voor speld, wordt interpunctie verwijderd uit de uitingen.
Interpunctie is een afzonderlijk token in LUIS. Een utterance die een punt bevat aan het einde en een utterance die geen punt aan het einde bevatten, zijn twee afzonderlijke uitingen en kunnen twee verschillende voor spellingen ontvangen.
Als interpunctie niet is genormaliseerd, LUIS niet standaard interpunctie markeringen negeren, omdat sommige client toepassingen significant kunnen zijn voor deze markeringen. Zorg ervoor dat uw voor beeld-uitingen zowel interpunctie als geen interpunctie gebruiken voor beide stijlen om dezelfde relatieve scores te retour neren.
Zorg ervoor dat het model interpunctie verwerkt in het voor beeld uitingen (met en zonder interpunctie) of in de patronen waar het gemakkelijker is om interpunctie te negeren met de speciale syntaxis: I am applying for the {Job} position[.]
Als interpunctie geen specifieke betekenis heeft in uw client toepassing, kunt u overwegen interpunctie te negeren door interpunctie te normaliseren.
Woorden en interpunctie negeren
Als u specifieke woorden of interpunctie in patronen wilt negeren, gebruikt u een patroon met de syntaxis negeren van de vier Kante haken, [] .
Training met alle uitingen
Training is doorgaans niet-deterministisch: de utterance-voor spelling kan enigszins variëren in verschillende versies of apps.
U kunt niet-deterministische trainingen verwijderen door de API voor versie -instellingen UseAllTrainingData te wijzigen met de naam/waarde-paar om alle trainings gegevens te gebruiken.
Uitingen testen
Ontwikkel aars moeten hun LUIS-toepassing met echt verkeer testen door uitingen naar de URL voor het Voorspellings eindpunt te sturen. Deze uitingen worden gebruikt om de prestaties van de intenties en entiteiten te verbeteren met beoordeling uitingen. Tests die zijn verzonden met het deel venster LUIS website testen, worden niet via het eind punt verzonden en bijdragen dus niet aan actief leren.
Uitingen controleren
Nadat uw model is getraind, gepubliceerd en endpoint -query's ontvangen, controleert u de uitingen die door Luis is voorgesteld. LUIS selecteert eind punt uitingen met een lage score voor de intentie of entiteit.
Aanbevolen procedures
Bekijk Aanbevolen procedures en pas deze toe als onderdeel van uw reguliere ontwerp cyclus.
Label voor woord betekenis
Als het woord of de rang schikking van Word hetzelfde is, maar niet hetzelfde is, moet u deze niet aan de entiteit labelen.
De volgende uitingen, het woord fair is een homograph. De spelling is hetzelfde, maar heeft een andere betekenis:
| Uiting |
|---|
| Wat voor soort graafschap komt in het gebied Seattle van deze zomer? |
| Is de huidige beoordeling voor de Seattle-beoordeling eerlijk? |
Als u wilt dat een gebeurtenis entiteit alle gebeurtenis gegevens vindt, labelt u het woord fair in het eerste utterance, maar niet in de tweede.
Volgende stappen
Zie voor beeld uitingen toevoegen voor informatie over het trainen van een Luis-app om inzicht te krijgen in gebruikers uitingen.