Uw aangepaste model voor herkenning van benoemde entiteiten trainen

Artikel
12/19/2023

Training is het proces waarbij het model leert van uw gelabelde gegevens. Nadat de training is voltooid, kunt u de prestaties van het model bekijken om te bepalen of u uw model moet verbeteren.

Als u een model wilt trainen, start u een trainingstaak en maken alleen voltooide taken een model. Trainingstaken verlopen na zeven dagen, wat betekent dat u de taakdetails na deze tijd niet meer kunt ophalen. Als uw trainingstaak is voltooid en er een model is gemaakt, wordt het model niet beïnvloed. U kunt slechts één trainingstaak tegelijk uitvoeren en u kunt geen andere taken in hetzelfde project starten.

De trainingstijden kunnen variëren van een paar minuten wanneer u met weinig documenten te maken krijgt, tot enkele uren, afhankelijk van de grootte van de gegevensset en de complexiteit van uw schema.

Vereisten

Een project is gemaakt met een geconfigureerd Azure Blob Storage-account
Tekstgegevens die zijn geüpload naar uw opslagaccount.
Gelabelde gegevens

Zie de levenscyclus van projectontwikkeling voor meer informatie.

Gegevens splitsen

Voordat u met het trainingsproces begint, worden gelabelde documenten in uw project onderverdeeld in een trainingsset en een testset. Elk van hen heeft een andere functie. De trainingsset wordt gebruikt om het model te trainen. Dit is de set waaruit het model de gelabelde entiteiten leert en welke tekstreeksen als entiteiten moeten worden geëxtraheerd. De testset is een blinde set die niet in het model wordt geïntroduceerd tijdens de training, maar alleen tijdens de evaluatie. Nadat de modeltraining is voltooid, wordt het model gebruikt om voorspellingen te doen op basis van de documenten in de test en op basis van deze voorspellingen worden metrische evaluatiegegevens berekend. Het is raadzaam om ervoor te zorgen dat al uw entiteiten adequaat worden vertegenwoordigd in zowel de trainings- als testset.

Aangepaste NER ondersteunt twee methoden voor het splitsen van gegevens:

De testset automatisch splitsen van trainingsgegevens:Het systeem splitst uw gelabelde gegevens op tussen de trainings- en testsets, op basis van de percentages die u kiest. Het aanbevolen percentage is 80% voor training en 20% voor testen.

Notitie

Als u de optie De testset automatisch splitsen van trainingsgegevens kiest, worden alleen de gegevens die zijn toegewezen aan de trainingsset gesplitst volgens de opgegeven percentages.

Gebruik een handmatige splitsing van training- en testgegevens: met deze methode kunnen gebruikers definiëren welke gelabelde documenten bij welke set horen. Deze stap is alleen ingeschakeld als u documenten hebt toegevoegd aan uw testset tijdens het labelen van gegevens.

Ga als volgende te werk om uw model te trainen vanuit Language Studio:

Selecteer Trainingstaken in het menu aan de linkerkant.
Selecteer Een trainingstaak starten in het bovenste menu.
Selecteer Een nieuw model trainen en typ de naam van het model in het tekstvak. U kunt een bestaand model ook overschrijven door deze optie te selecteren en het model te kiezen dat u wilt overschrijven in de vervolgkeuzelijst. Het overschrijven van een getraind model kan niet ongedaan worden gemaakt, maar dit heeft geen invloed op uw geïmplementeerde modellen totdat u het nieuwe model implementeert.
Selecteer de methode voor het splitsen van gegevens. U kunt de testset automatisch splitsen uit trainingsgegevens kiezen, waarbij het systeem uw gelabelde gegevens splitst tussen de trainings- en testsets, op basis van de opgegeven percentages. Of u kunt een handmatige splitsing van training- en testgegevens gebruiken. Deze optie is alleen ingeschakeld als u documenten aan uw testset hebt toegevoegd tijdens het labelen van gegevens. Zie Een model trainen voor informatie over het splitsen van gegevens.
Selecteer de knop Trainen .
Als u de trainingstaak-id in de lijst selecteert, wordt er een zijvenster weergegeven waarin u de voortgang van de training, de taakstatus en andere details voor deze taak kunt controleren.
Notitie
- Alleen voltooide trainingstaken genereren modellen.
- Training kan enkele minuten tot enkele uren duren, afhankelijk van de grootte van uw gelabelde gegevens.
- U kunt slechts één trainingstaak tegelijk uitvoeren. U kunt pas met een andere trainingstaak binnen hetzelfde project beginnen als de actieve taak is voltooid.

Trainingstaak starten

Dien een POST-aanvraag in met behulp van de volgende URL, headers en JSON-hoofdtekst om een trainingstaak in te dienen. Vervang de waarden van de tijdelijke aanduidingen hieronder door uw eigen waarden.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Tijdelijke aanduiding	Waarde	Voorbeeld
`{ENDPOINT}`	Het eindpunt voor het verifiëren van uw API-aanvraag.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	De naam van uw project. Deze waarde is hoofdlettergevoelig.	`myProject`
`{API-VERSION}`	De versie van de API die u aanroept. De waarde waarnaar hier wordt verwezen, is voor de meest recente versie die is uitgebracht. Zie Levenscyclus van model voor meer informatie over andere beschikbare API-versies.	`2022-05-01`

Kopteksten

Gebruik de volgende header om uw aanvraag te verifiëren.

Sleutel	Waarde
`Ocp-Apim-Subscription-Key`	De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.

Aanvraagbody

Gebruik de volgende JSON in de hoofdtekst van uw aanvraag. Het model krijgt de zodra de {MODEL-NAME} training is voltooid. Alleen succesvolle trainingstaken produceren modellen.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Sleutel	Tijdelijke aanduiding	Waarde	Voorbeeld
modelLabel	`{MODEL-NAME}`	De modelnaam die aan uw model wordt toegewezen zodra de training is voltooid.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Dit is de modelversie die wordt gebruikt om het model te trainen.	`2022-05-01`
evaluationOptions		Optie voor het splitsen van uw gegevens over trainings- en testsets.	`{}`
Soort	`percentage`	Splitsmethoden. Mogelijke waarden zijn `percentage` en `manual`. Zie Een model trainen voor meer informatie.	`percentage`
trainingSplitPercentage	`80`	Percentage van de getagde gegevens die moeten worden opgenomen in de trainingsset. De aanbevolen waarde is `80`.	`80`
testingSplitPercentage	`20`	Percentage van de getagde gegevens die moeten worden opgenomen in de testset. De aanbevolen waarde is `20`.	`20`

Notitie

De trainingSplitPercentage en testingSplitPercentage zijn alleen vereist als Kind is ingesteld op percentage en de som van beide percentages gelijk moet zijn aan 100.

Nadat u uw API-aanvraag hebt verzonden, ontvangt u een 202 antwoord dat aangeeft dat de taak correct is verzonden. Extraheer de waarde in de location antwoordheaders. Deze wordt als volgt opgemaakt:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} wordt gebruikt om uw aanvraag te identificeren, omdat deze bewerking asynchroon is. U kunt deze URL gebruiken om de trainingsstatus op te halen.

Status van trainingstaak ophalen

De training kan enige tijd duren, afhankelijk van de grootte van uw trainingsgegevens en de complexiteit van uw schema. U kunt de volgende aanvraag gebruiken om de status van de trainingstaak te blijven peilen totdat deze is voltooid.

Gebruik de volgende GET-aanvraag om de status van de trainingsvoortgang van uw model op te halen. Vervang de waarden van de tijdelijke aanduidingen hieronder door uw eigen waarden.

Aanvraag-URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Tijdelijke aanduiding	Waarde	Voorbeeld
`{ENDPOINT}`	Het eindpunt voor het verifiëren van uw API-aanvraag.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	De naam van uw project. Deze waarde is hoofdlettergevoelig.	`myProject`
`{JOB-ID}`	De id voor het vinden van de trainingsstatus van uw model. Deze waarde bevindt zich in de `location` headerwaarde die u in de vorige stap hebt ontvangen.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	De versie van de API die u aanroept. De waarde waarnaar hier wordt verwezen, is voor de meest recente versie die is uitgebracht. Zie Levenscyclus van model voor meer informatie over andere beschikbare API-versies.	`2022-05-01`

Kopteksten

Gebruik de volgende header om uw aanvraag te verifiëren.

Sleutel	Waarde
`Ocp-Apim-Subscription-Key`	De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.

Hoofdtekst van antwoord

Nadat u de aanvraag hebt verzonden, krijgt u het volgende antwoord.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Trainingstaak annuleren

Language Studio
REST-API's

Als u een trainingstaak vanuit Language Studio wilt annuleren, gaat u naar de pagina Trainingstaken . Selecteer de trainingstaak die u wilt annuleren en selecteer Annuleren in het bovenste menu.

Maak een POST-aanvraag met behulp van de volgende URL, headers en JSON-hoofdtekst om een trainingstaak te annuleren.

Aanvraag-URL

Gebruik de volgende URL bij het maken van uw API-aanvraag. Vervang de waarden van de tijdelijke aanduidingen hieronder door uw eigen waarden.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Tijdelijke aanduiding	Waarde	Voorbeeld
`{ENDPOINT}`	Het eindpunt voor het verifiëren van uw API-aanvraag.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	De naam voor uw project. Deze waarde is hoofdlettergevoelig.	`EmailApp`
`{JOB-ID}`	Deze waarde is de id van de trainingstaak.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	De versie van de API die u aanroept. De waarde waarnaar wordt verwezen, is voor de meest recent uitgebrachte modelversie.	`2022-05-01`

Kopteksten

Gebruik de volgende header om uw aanvraag te verifiëren.

Sleutel	Waarde
`Ocp-Apim-Subscription-Key`	De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.

Nadat u uw API-aanvraag hebt verzonden, ontvangt u een 202-antwoord met een Operation-Location header die wordt gebruikt om de status van de taak te controleren.

Volgende stappen

Nadat de training is voltooid, kunt u de modelprestaties bekijken om eventueel uw model te verbeteren. Zodra u tevreden bent met uw model, kunt u het implementeren, zodat het beschikbaar is voor gebruik voor het extraheren van entiteiten uit tekst.

Share via

Uw aangepaste model voor herkenning van benoemde entiteiten trainen

Vereisten

Gegevens splitsen

Model trainen

Trainingstaak starten

Kopteksten

Aanvraagbody

Status van trainingstaak ophalen

Aanvraag-URL

Kopteksten

Hoofdtekst van antwoord

Trainingstaak annuleren

Aanvraag-URL

Kopteksten

Volgende stappen

Aanvullende resources