Gegevens voorbereiden en een schema definiëren voor Gepersonaliseerde gezondheids-Tekstanalyse

Artikel
12/19/2023

Als u een aangepast TA4H-model wilt maken, hebt u kwaliteitsgegevens nodig om het te trainen. In dit artikel wordt beschreven hoe u uw gegevens moet selecteren en voorbereiden, samen met het definiëren van een schema. Het definiëren van het schema is de eerste stap in de levenscyclus van projectontwikkeling en omvat het definiëren van de entiteitstypen of categorieën die u tijdens runtime met uw model uit de tekst moet extraheren.

Schemaontwerp

Met aangepaste Text Analytics voor status kunt u de Text Analytics voor de statusentiteitstoewijzing uitbreiden en aanpassen. De eerste stap van het proces is het bouwen van uw schema, waarmee u de nieuwe entiteitstypen of categorieën kunt definiëren die uw model moet extraheren uit tekst, naast de Text Analytics voor bestaande statusentiteiten tijdens runtime.

Controleer documenten in uw gegevensset om bekend te zijn met de indeling en structuur ervan.
Identificeer de entiteiten die u wilt ophalen uit de gegevens.

Als u bijvoorbeeld entiteiten uit ondersteuningse-mails extraheert, moet u mogelijk 'Klantnaam', 'Productnaam', 'Aanvraagdatum' en 'Contactgegevens' extraheren.
Dubbelzinnigheid van entiteitstypen voorkomen.

Dubbelzinnigheid treedt op wanneer entiteitstypen die u selecteert, op elkaar lijken. Hoe dubbelzinniger uw schema, hoe meer gelabelde gegevens u nodig hebt om onderscheid te maken tussen verschillende entiteitstypen.

Als u bijvoorbeeld gegevens uit een juridisch contract wilt extraheren en 'Naam van de eerste partij' en 'Naam van de tweede partij' wilt extraheren, moet u meer voorbeelden toevoegen om dubbelzinnigheid te voorkomen, omdat de namen van beide partijen er ongeveer hetzelfde uitzien. Vermijd dubbelzinnigheid omdat dit tijd en moeite bespaart en betere resultaten oplevert.
Vermijd complexe entiteiten. Complexe entiteiten kunnen lastig zijn om precies uit tekst te kiezen. Overweeg deze op te splitsen in meerdere entiteiten.

Het extraheren van 'Adres' zou bijvoorbeeld lastig zijn als het niet wordt opgesplitst in kleinere entiteiten. Er zijn zoveel variaties op de manier waarop adressen worden weergegeven, dat er een groot aantal gelabelde entiteiten nodig is om het model te leren een adres als geheel te extraheren zonder het op te splitsen. Als u 'Adres' echter vervangt door 'Straatnaam', 'Postbus', 'Plaats', 'Staat' en 'Zip', heeft het model minder labels per entiteit nodig.

Entiteiten toevoegen

Entiteiten toevoegen aan uw project:

Ga naar de draaitabel Entiteiten vanaf de bovenkant van de pagina.
Text Analytics voor statusentiteiten worden automatisch in uw project geladen. Als u extra entiteitscategorieën wilt toevoegen, selecteert u Toevoegen in het bovenste menu. U wordt gevraagd een naam in te voeren voordat u de entiteit maakt.
Nadat u een entiteit hebt gemaakt, wordt u doorgestuurd naar de pagina met entiteitsgegevens, waar u de samenstellingsinstellingen voor deze entiteit kunt definiëren.
Entiteiten worden gedefinieerd door entiteitsonderdelen: geleerd, lijst of vooraf gedefinieerd. Text Analytics voor statusentiteiten worden standaard gevuld met het vooraf gemaakte onderdeel en kunnen geen geleerde onderdelen hebben. Uw zojuist gedefinieerde entiteiten kunnen worden gevuld met het geleerde onderdeel zodra u labels voor deze entiteiten toevoegt aan uw gegevens, maar kunnen niet worden gevuld met het vooraf gedefinieerde onderdeel.
U kunt een lijstonderdeel toevoegen aan een van uw entiteiten.

Lijstonderdeel toevoegen

Als u een lijstonderdeel wilt toevoegen, selecteert u Nieuwe lijst toevoegen. U kunt meerdere lijsten toevoegen aan elke entiteit.

Als u een nieuwe lijst wilt maken, voert u in het tekstvak Waarde invoeren in dat dit de genormaliseerde waarde is die wordt geretourneerd wanneer een van de synoniemenwaarden wordt geëxtraheerd.
Voor meertalige projecten selecteert u in de vervolgkeuzelijst taal de taal van de lijst met synoniemen, typt u uw synoniemen en drukt u na elke opdracht op Enter. Het wordt aanbevolen synoniemenlijsten in meerdere talen te hebben.

Entiteitsopties definiëren

Ga naar de draaitabel Entiteitsopties op de pagina met entiteitsdetails. Wanneer er meerdere onderdelen zijn gedefinieerd voor een entiteit, kunnen de voorspellingen elkaar overlappen. Wanneer er een overlapping optreedt, wordt de uiteindelijke voorspelling van elke entiteit bepaald op basis van de entiteitsoptie die u in deze stap selecteert. Selecteer het item dat u wilt toepassen op deze entiteit en selecteer de knop Opslaan bovenaan.

Nadat u uw entiteiten hebt gemaakt, kunt u teruggaan en ze bewerken. U kunt entiteitsonderdelen bewerken of verwijderen door deze optie te selecteren in het bovenste menu.

Gegevensselectie

De kwaliteit van de gegevens waarmee u uw model traint, heeft een grote invloed op de prestaties van het model.

Gebruik echte gegevens die de probleemruimte van uw domein weerspiegelen om uw model effectief te trainen. U kunt synthetische gegevens gebruiken om het initiële modeltrainingsproces te versnellen, maar deze verschillen waarschijnlijk van uw echte gegevens en maken uw model minder effectief wanneer ze worden gebruikt.
Breng uw gegevensdistributie zoveel mogelijk in balans zonder dat u ver van de distributie in de praktijk afwijkt. Als u bijvoorbeeld uw model traint om entiteiten te extraheren uit juridische documenten die in veel verschillende indelingen en talen kunnen worden geleverd, moet u voorbeelden opgeven die de diversiteit illustreren die u in het echte leven zou verwachten.
Gebruik waar mogelijk diverse gegevens om overfitting van uw model te voorkomen. Minder diversiteit in trainingsgegevens kan ertoe leiden dat uw model valse correlaties leert die mogelijk niet bestaan in echte gegevens.
Vermijd dubbele documenten in uw gegevens. Dubbele gegevens hebben een negatief effect op het trainingsproces, metrische modelgegevens en modelprestaties.
Bedenk waar uw gegevens vandaan komen. Als u gegevens verzamelt van één persoon, afdeling of een deel van uw scenario, mist u waarschijnlijk diversiteit die belangrijk kan zijn voor uw model om meer over te weten te komen.

Notitie

Als uw documenten in meerdere talen zijn, selecteert u de optie Meertalige optie inschakelen tijdens het maken van het project en stelt u de taaloptie in op de taal van het merendeel van uw documenten.

Gegevensvoorbereiding

Als vereiste voor het maken van een project moeten uw trainingsgegevens worden geüpload naar een blobcontainer in uw opslagaccount. U kunt trainingsdocumenten rechtstreeks vanuit Azure maken en uploaden, of met behulp van het hulpprogramma Azure Storage Explorer. Met het hulpprogramma Azure Storage Explorer kunt u sneller meer gegevens uploaden.

U kunt alleen documenten gebruiken .txt . Als uw gegevens een andere indeling hebben, kunt u de opdracht CLUtils parse gebruiken om de documentindeling te wijzigen.

U kunt een geannoteerde gegevensset uploaden of een niet-geannoteerde gegevensset uploaden en uw gegevens labelen in Language Studio.

Testset

Wanneer u de testset definieert, moet u voorbeelddocumenten opnemen die niet aanwezig zijn in de trainingsset. Het definiëren van de testset is een belangrijke stap voor het berekenen van de modelprestaties. Zorg er ook voor dat de testset documenten bevat die alle entiteiten vertegenwoordigen die in uw project worden gebruikt.

Volgende stappen

Als u dat nog niet hebt gedaan, maakt u een Gepersonaliseerde gezondheids-Tekstanalyse-project. Als dit de eerste keer is dat u Gepersonaliseerde gezondheids-Tekstanalyse gebruikt, kunt u de quickstart volgen om een voorbeeldproject te maken. U kunt ook het instructieartikel bekijken voor meer informatie over wat u nodig hebt om een project te maken.

Delen via