Tekstgegevens labelen voor het trainen van uw model

Artikel
12/19/2023

Voordat u uw model traint, moet u uw documenten labelen met de klassen waar u ze in wilt categoriseren. Het labelen van gegevens is een cruciale stap in de ontwikkelingslevenscyclus; in deze stap kunt u de klassen maken waarin u uw gegevens wilt categoriseren en uw documenten labelen met deze klassen. Deze gegevens worden in de volgende stap gebruikt bij het trainen van uw model, zodat uw model kan leren van de gelabelde gegevens. Als u al gelabelde gegevens hebt, kunt u deze rechtstreeks importeren in uw project, maar u moet ervoor zorgen dat uw gegevens de geaccepteerde gegevensindeling hebben.

Voordat u een aangepast model voor tekstclassificatie maakt, moet u eerst gelabelde gegevens hebben. Als uw gegevens nog niet zijn gelabeld, kunt u deze labelen in Language Studio. Gelabelde gegevens informeren het model hoe tekst moet worden geïnterpreteerd en worden gebruikt voor training en evaluatie.

Vereisten

Voordat u gegevens kunt labelen, hebt u het volgende nodig:

Een project is gemaakt met een geconfigureerd Azure Blob Storage-account,
Documenten met tekstgegevens die zijn geüpload naar uw opslagaccount.

Zie de levenscyclus van projectontwikkeling voor meer informatie.

Richtlijnen voor gegevenslabels

Nadat u uw gegevens hebt voorbereid, uw schema hebt ontworpen en uw project hebt gemaakt, moet u uw gegevens labelen. Het labelen van uw gegevens is belangrijk, zodat uw model weet welke documenten worden gekoppeld aan de klassen die u nodig hebt. Wanneer u uw gegevens in Language Studio labelt (of gelabelde gegevens importeert), worden deze labels opgeslagen in het JSON-bestand in de opslagcontainer die u aan dit project hebt gekoppeld.

Houd bij het labelen van uw gegevens rekening met het volgende:

Over het algemeen leiden meer gelabelde gegevens tot betere resultaten, mits de gegevens nauwkeurig zijn gelabeld.
Er is geen vast aantal labels dat kan garanderen dat uw model het beste presteert. Modelprestaties over mogelijke dubbelzinnigheid in uw schema en de kwaliteit van uw gelabelde gegevens. Niettemin raden we 50 gelabelde documenten per klasse aan.

Uw gegevens labelen

Gebruik de volgende stappen om uw gegevens te labelen:

Ga naar uw projectpagina in Language Studio.
Selecteer Gegevenslabeling in het menu aan de linkerkant. U vindt een lijst met alle documenten in uw opslagcontainer. Zie de onderstaande afbeelding.

Tip

U kunt de filters in het bovenste menu gebruiken om de niet-gelabelde bestanden weer te geven, zodat u ze kunt gaan labelen. U kunt de filters ook gebruiken om de documenten weer te geven die zijn gelabeld met een specifieke klasse.
Ga naar één bestandsweergave aan de linkerkant in het bovenste menu of selecteer een specifiek bestand om te beginnen met labelen. Aan de linkerkant vindt u een lijst met alle .txt bestanden die beschikbaar zijn in uw projecten. U kunt de knop Vorige en Volgende onderaan de pagina gebruiken om door uw documenten te navigeren.

Notitie

Als u meerdere talen hebt ingeschakeld voor uw project, vindt u een vervolgkeuzelijst Taal in het bovenste menu, waarin u de taal van elk document kunt selecteren.
Voeg in het rechterdeelvenster klasse toe aan uw project, zodat u kunt beginnen met het labelen van uw gegevens.
Begin met het labelen van uw bestanden.
- Classificatie van meerdere labels
- Classificatie van één label
Classificatie van meerdere labels: uw bestand kan worden gelabeld met meerdere klassen. U kunt dit doen door alle toepasselijke selectievakjes in te schakelen naast de klassen waarmee u dit document wilt labelen.

Classificatie met één label: uw bestand kan slechts met één klasse worden gelabeld; U kunt dit doen door een van de knoppen te selecteren naast de klas waarmee u het document wilt labelen.
U kunt ook de functie voor automatisch labelen gebruiken om volledige labeling te garanderen.
In het rechterdeelvenster onder de draaitabel Labels vindt u alle klassen in uw project en het aantal gelabelde exemplaren.
In het onderste gedeelte van het rechterdeelvenster kunt u het huidige bestand dat u bekijkt toevoegen aan de trainingsset of de testset. Standaard worden alle documenten toegevoegd aan uw trainingsset. Meer informatie over trainings- en testsets en hoe ze worden gebruikt voor modeltraining en -evaluatie.

Tip

Als u van plan bent automatische gegevenssplitsing te gebruiken, gebruikt u de standaardoptie om alle documenten toe te wijzen aan uw trainingsset.
Onder de distributiedraaipunt kunt u de distributie over trainings- en testsets bekijken. U hebt twee opties voor weergave:
- Totaal aantal exemplaren waarin u het aantal gelabelde exemplaren van een specifieke klasse kunt bekijken.
- documenten met ten minste één label waarbij elk document wordt geteld als het ten minste één gelabeld exemplaar van deze klasse bevat.
Terwijl u labelt, worden uw wijzigingen periodiek gesynchroniseerd. Als ze nog niet zijn opgeslagen, ziet u een waarschuwing boven aan de pagina. Als u handmatig wilt opslaan, selecteert u de knop Labels opslaan onderaan de pagina.

Labels verwijderen

Als u een label wilt verwijderen, schakelt u de knop naast de klasse uit.

Klassen of verwijderen

Als u een klas wilt verwijderen, selecteert u het pictogram Verwijderen naast de klas die u wilt verwijderen. Als u een klasse verwijdert, worden alle gelabelde exemplaren uit uw gegevensset verwijderd.

Volgende stappen

Nadat u uw gegevens hebt gelabeld, kunt u beginnen met het trainen van een model dat leert op basis van uw gegevens.

Share via