Märka dina yttranden i Language Studio

Artikel
12/19/2023

När du har skapat ett schema för projektet bör du lägga till träningsyttranden i projektet. Yttrandena bör likna vad användarna kommer att använda när de interagerar med projektet. När du lägger till ett yttrande måste du tilldela vilken avsikt det tillhör. När yttrandet har lagts till etiketterar du orden i ditt yttrande som du vill extrahera som entiteter.

Datamärkning är ett viktigt steg i utvecklingslivscykeln. Dessa data används i nästa steg när du tränar din modell så att modellen kan lära sig av märkta data. Om du redan har märkt yttranden kan du importera dem direkt till projektet, men du måste se till att dina data följer det godkända dataformatet. Mer information om hur du importerar etiketterade data till projektet finns i Skapa projekt . Märkta data informerar modellen om hur text ska tolkas och används för träning och utvärdering.

Förutsättningar

Innan du kan märka dina data behöver du:

Ett projekt har skapats.

Mer information finns i livscykeln för projektutveckling .

Riktlinjer för dataetiketter

När du har skapat schemat och skapat projektet måste du märka dina data. Det är viktigt att märka dina data så att din modell vet vilka ord och meningar som ska associeras med avsikterna och entiteterna i projektet. Du kommer att vilja lägga tid på att märka dina yttranden – introducera och förfina de data som ska användas för att träna dina modeller.

Tänk på följande när du lägger till yttranden och etiketterar dem:

Maskininlärningsmodellerna generaliseras baserat på de märkta exempel som du anger. Ju fler exempel du anger, desto fler datapunkter måste modellen göra bättre generaliseringar.
Precisionen, konsekvensen och fullständigheten i dina märkta data är viktiga faktorer för att fastställa modellens prestanda.
- Etikett exakt: Märk alltid varje avsikt och entitet till rätt typ. Inkludera bara det du vill ska klassificeras och extraheras, undvik onödiga data i etiketterna.
- Etikett konsekvent: Samma entitet ska ha samma etikett för alla yttranden.
- Etikett helt: Ange olika yttranden för varje avsikt. Märk alla instanser av entiteten i alla dina yttranden.

Märk tydligt yttranden

Se till att de begrepp som dina entiteter refererar till är väldefinierade och kan särskiljas. Kontrollera om du enkelt kan fastställa skillnaderna på ett tillförlitligt sätt. Om du inte kan det kan detta vara en indikation på att den inlärda komponenten också kommer att ha problem.
Om det finns en likhet mellan entiteter ser du till att det finns någon aspekt av dina data som ger en signal om skillnaden mellan dem.

Om du till exempel har skapat en modell för att boka flygresor kan en användare använda ett yttrande som "Jag vill ha ett flyg från Boston till Seattle".Ursprungsstaden och målstaden för sådana yttranden förväntas vara liknande. En signal för att särskilja "Origin city" kan vara att den ofta föregås av ordet "från".
Se till att du märker alla instanser av varje entitet i både tränings- och testdata. En metod är att använda sökfunktionen för att hitta alla instanser av ett ord eller en fras i dina data för att kontrollera om de är korrekt märkta.
Märka testdata för entiteter som inte har någon inlärd komponent och även för dem som gör det. På så sätt kan du se till att dina utvärderingsmått är korrekta.

För flerspråkiga projekt ökar tillägget av yttranden på andra språk modellens prestanda på dessa språk, men undvik att duplicera dina data över alla språk som du vill stödja. För att till exempel förbättra en kalenderrobots prestanda med användare kan en utvecklare lägga till exempel på främst engelska och några på spanska eller franska. De kan lägga till yttranden som:
- "Ställ in ett möte med Matt och Kevini morgon klockan 12.00." (Engelska)
- "Svara som preliminärt på veckouppdateringsmötet ." (Engelska)
- "Cancelar mi próxima reunión." (Spanska)

Så här etiketterar du dina yttranden

Använd följande steg för att märka dina yttranden:

Gå till projektsidan i Language Studio.
På menyn till vänster väljer du Dataetiketter. På den här sidan kan du börja lägga till ditt yttrande och märka dem. Du kan också ladda upp ditt yttrande direkt genom att klicka på Ladda upp yttrandefil från den översta menyn och se till att det följer det godkända formatet.
Från de översta pivoterna kan du ändra vyn till träningsuppsättning eller testuppsättning. Läs mer om tränings- och testuppsättningar och hur de används för modellträning och utvärdering.

Tips

Om du planerar att använda Dela upp testuppsättningen automatiskt från delning av träningsdata lägger du till alla dina yttranden i träningsuppsättningen.
I listrutan Välj avsikt väljer du en av avsikterna, språket i yttrandet (för flerspråkiga projekt) och själva yttrandet. Tryck på returknappen i yttrandets textruta för att lägga till yttrandet.

Du har två alternativ för att märka entiteter i ett yttrande:

Alternativ	Beskrivning
Etikett med hjälp av en pensel	Välj penselikonen bredvid en entitet i den högra rutan och markera sedan texten i det yttrande som du vill märka.
Etikett med infogad meny	Markera det ord som du vill märka som en entitet så visas en meny. Välj den entitet som du vill märka dessa ord med.

I den högra rutan, under pivoten Etiketter , hittar du alla entitetstyper i projektet och antalet märkta instanser per var och en.
Under distributionspivoten kan du visa distributionen över tränings- och testuppsättningar. Du har två alternativ för att visa:
- Totalt antal instanser per märkt entitet där du kan visa antalet etiketterade instanser för en viss entitet.
- Unika yttranden per märkt entitet där varje yttrande räknas om det innehåller minst en märkt instans av den här entiteten.
- Yttranden per avsikt där du kan visa antalet yttranden per avsikt.

Anteckning

Lista och fördefinierade komponenter visas inte på dataetikettsidan, och alla etiketter här gäller endast för den inlärda komponenten.

Så här tar du bort en etikett:

I ditt yttrande väljer du den entitet som du vill ta bort en etikett från.
Bläddra igenom menyn som visas och välj Ta bort etikett.

Så här tar du bort en entitet:

Välj den entitet som du vill redigera i rutan till höger.
Välj de tre punkterna bredvid entiteten och välj önskat alternativ i den nedrullningsbara menyn.

Föreslå yttranden med Azure OpenAI

I CLU använder du Azure OpenAI för att föreslå yttranden som du kan lägga till i projektet med GPT-modeller. Du måste först få åtkomst och skapa en resurs i Azure OpenAI. Sedan måste du skapa en distribution för GPT-modellerna. Följ de nödvändiga stegen här.

Innan du börjar är funktionen föreslå yttranden endast tillgänglig om språkresursen finns i följande regioner:

East US
USA, södra centrala
Europa, västra

På sidan Dataetiketter:

Välj knappen Föreslå yttranden . Ett fönster öppnas till höger där du uppmanas att välja din Azure OpenAI-resurs och -distribution.
När du väljer en Azure OpenAI-resurs väljer du Anslut, vilket gör att din språkresurs kan ha direkt åtkomst till din Azure OpenAI-resurs. Den tilldelar språkresursen rollen Cognitive Services User för till din Azure OpenAI-resurs, vilket gör att din aktuella Språkresurs kan ha åtkomst till Azure OpenAI:s tjänst. Om anslutningen misslyckas följer du de här stegen nedan för att lägga till rätt roll i Din Azure OpenAI-resurs manuellt.
När resursen är ansluten väljer du distributionen. Den rekommenderade modellen för Azure OpenAI-distributionen är text-davinci-002.
Välj den avsikt som du vill få förslag på. Kontrollera att avsikten som du har valt har minst 5 sparade yttranden som ska aktiveras för yttrandeförslag. Förslagen från Azure OpenAI baseras på de senaste yttrandena som du har lagt till för den avsikten.
Välj Generera yttranden. När det är klart visas de föreslagna yttrandena med en prickad linje runt den, med anteckningen Genererad av AI. Dessa förslag måste godkännas eller avvisas. Om du accepterar ett förslag läggs det bara till i projektet, som om du hade lagt till det själv. Om du avvisar det tas förslaget bort helt. Endast godkända yttranden kommer att ingå i projektet och användas för träning eller testning. Du kan acceptera eller avvisa genom att klicka på de gröna kryssknapparna eller de röda knapparna avbryt bredvid varje yttrande. Du kan också använda knapparna Accept all och Reject all i verktygsfältet.

Om du använder den här funktionen debiteras din Azure OpenAI-resurs för ett liknande antal token som de föreslagna yttranden som genereras. Information om prissättningen för Azure OpenAI finns här.

Lägga till nödvändiga konfigurationer i Azure OpenAI-resursen

Om det inte går att ansluta språkresursen till en Azure OpenAI-resurs följer du dessa steg:

Aktivera identitetshantering för språkresursen med följande alternativ:

Azure-portalen
Language Studio

Språkresursen måste ha identitetshantering för att aktivera den med hjälp av Azure Portal:

Gå till språkresursen
I menyn till vänster går du till avsnittet Resurshantering och väljer Identitet
Från fliken Systemtilldelat ser du till att ange Status till På

När du har aktiverat hanterad identitet tilldelar du rollen Cognitive Services User till din Azure OpenAI-resurs med hjälp av den hanterade identiteten för språkresursen.

Logga in på Azure Portal och gå till din Azure OpenAI-resurs.
Välj fliken Access Control (IAM) till vänster.
Välj Lägg till Lägg till > rolltilldelning.
Välj "Jobbfunktionsroller" och klicka på Nästa.
Välj Cognitive Services User i listan över roller och klicka på Nästa.
Välj Tilldela åtkomst till "Hanterad identitet" och välj "Välj medlemmar".
Under "Hanterad identitet" väljer du "Språk".
Sök efter din resurs och välj den. Välj sedan knappen Välj nedan och sedan för att slutföra processen.
Granska informationen och välj Granska + tilldela.

Efter några minuter uppdaterar du Language Studio så att du kan ansluta till Azure OpenAI.

Nästa steg

Träna modell

Share via