Trenowanie modelu Niestandardowa analiza tekstu dla zdrowia

Artykuł
12/19/2023

Trenowanie to proces, w którym model uczy się na podstawie danych oznaczonych etykietą. Po zakończeniu trenowania będzie można wyświetlić wydajność modelu , aby określić, czy trzeba poprawić model.

Aby wytrenować model, należy rozpocząć zadanie szkoleniowe i utworzyć model tylko pomyślnie ukończone zadania. Zadania szkoleniowe wygasają po siedmiu dniach, co oznacza, że nie będzie można pobrać szczegółów zadania po tym czasie. Jeśli zadanie trenowania zostało ukończone pomyślnie, a model został utworzony, model nie będzie miał wpływu. Możesz mieć tylko jedno zadanie szkoleniowe uruchomione jednocześnie i nie można uruchomić innych zadań w tym samym projekcie.

Czas trenowania może trwać od kilku minut, gdy zajmuje się kilkoma dokumentami, nawet kilka godzin w zależności od rozmiaru zestawu danych i złożoności schematu.

Wymagania wstępne

Pomyślnie utworzono projekt ze skonfigurowanym kontem usługi Azure Blob Storage
Dane tekstowe przekazane do konta magazynu.
Dane oznaczone etykietami

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu .

Dzielenie danych

Przed rozpoczęciem procesu trenowania dokumenty oznaczone etykietami w projekcie są podzielone na zestaw szkoleniowy i zestaw testów. Każdy z nich pełni inną funkcję. Zestaw trenowania jest używany w trenowaniu modelu. Jest to zestaw, z którego model uczy się oznaczonych jednostek i zakresów tekstu, które mają być wyodrębniane jako jednostki. Zestaw testów to zestaw niewidomy, który nie jest wprowadzany do modelu podczas trenowania, ale tylko podczas oceny. Po pomyślnym zakończeniu trenowania modelu model jest używany do przewidywania z dokumentów w testach i na podstawie tych metryk oceny przewidywań. Trenowanie modelu i ocena są przeznaczone tylko dla nowo zdefiniowanych jednostek ze poznanymi składnikami; dlatego analiza tekstu dla jednostek kondycji są wykluczone z trenowania i oceny modelu ze względu na to, że są one jednostkami ze wstępnie utworzonymi składnikami. Zaleca się upewnienie się, że wszystkie oznaczone jednostki są odpowiednio reprezentowane zarówno w zestawie treningowym, jak i testowym.

Niestandardowe analiza tekstu kondycji obsługuje dwie metody dzielenia danych:

Automatyczne dzielenie zestawu testów na podstawie danych treningowych: system dzieli dane oznaczone etykietami między zestawami treningowymi i testowymi, zgodnie z wybranymi wartościami procentowymi. Zalecany podział procentowy wynosi 80% na potrzeby trenowania i 20% do testowania.

Uwaga

Jeśli wybierzesz opcję Automatycznie rozdzielając zestaw testów z danych treningowych , tylko dane przypisane do zestawu treningowego zostaną podzielone zgodnie z podanymi wartościami procentowymi.

Użyj ręcznego podziału danych treningowych i testowych: ta metoda umożliwia użytkownikom definiowanie, które dokumenty oznaczone etykietami powinny należeć do tego zestawu. Ten krok jest włączony tylko w przypadku dodania dokumentów do zestawu testów podczas etykietowania danych.

Aby rozpocząć trenowanie modelu z poziomu programu Language Studio:

Wybierz pozycję Zadania trenowania z menu po lewej stronie.
Wybierz pozycję Start a training job (Uruchom zadanie szkoleniowe ) z górnego menu.
Wybierz pozycję Train a new model (Trenowanie nowego modelu) i wpisz nazwę modelu w polu tekstowym. Możesz również zastąpić istniejący model , wybierając tę opcję i wybierając model, który chcesz zastąpić z menu rozwijanego. Zastępowanie wytrenowanego modelu jest nieodwracalne, ale nie wpłynie to na wdrożone modele do momentu wdrożenia nowego modelu.
Wybierz metodę dzielenia danych. Możesz wybrać opcję Automatyczne dzielenie zestawu testów na podstawie danych treningowych , w których system podzieli dane oznaczone etykietami między zestawy treningowe i testowe, zgodnie z określonymi wartościami procentowymi. Możesz też użyć ręcznego podziału danych treningowych i testowych, ta opcja jest włączona tylko w przypadku dodania dokumentów do zestawu testów. Zobacz etykietowanie danych i sposób trenowania modelu, aby uzyskać informacje na temat dzielenia danych.
Wybierz przycisk Train (Trenowanie ).
Po wybraniu identyfikatora zadania trenowania z listy zostanie wyświetlone okienko boczne, w którym można sprawdzić postęp trenowania, stan zadania i inne szczegóły dla tego zadania.
Uwaga
- Tylko pomyślnie ukończone zadania szkoleniowe będą generować modele.
- Trenowanie może potrwać od kilku minut do kilku godzin na podstawie rozmiaru oznaczonych danych.
- Jednocześnie może być uruchomione tylko jedno zadanie trenowania. Nie można uruchomić innego zadania trenowania w tym samym projekcie, dopóki uruchomione zadanie nie zostanie ukończone.

Rozpocznij zadanie szkoleniowe

Prześlij żądanie POST przy użyciu następującego adresu URL, nagłówków i treści JSON w celu przesłania zadania szkoleniowego. Zastąp wartości symbole zastępcze własnymi wartościami.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Symbol zastępczy	Wartość	Przykład
`{ENDPOINT}`	Punkt końcowy do uwierzytelniania żądania interfejsu API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nazwa projektu. Ta wartość jest uwzględniana w wielkości liter.	`myProject`
`{API-VERSION}`	Wersja wywoływanego interfejsu API. Wartość, do których odwołuje się tutaj, dotyczy najnowszej wersji wydanej. Zobacz Cykl życia modelu , aby dowiedzieć się więcej o innych dostępnych wersjach interfejsu API.	`2022-05-01`

Nagłówki

Użyj następującego nagłówka, aby uwierzytelnić żądanie.

Klucz	Wartość
`Ocp-Apim-Subscription-Key`	Klucz do zasobu. Służy do uwierzytelniania żądań interfejsu API.

Treść żądania

Użyj następującego kodu JSON w treści żądania. Model jest podawany po zakończeniu {MODEL-NAME} trenowania. Tylko pomyślne zadania szkoleniowe generują modele.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Klucz	Symbol zastępczy	Wartość	Przykład
modelLabel	`{MODEL-NAME}`	Nazwa modelu przypisana do modelu po pomyślnym wytrenowanym.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Jest to wersja modelu używana do trenowania modelu.	`2022-05-01`
evaluationOptions		Opcja dzielenia danych między zestawy trenowania i testowania.	`{}`
Rodzaju	`percentage`	Metody podzielone. Możliwe wartości to `percentage` lub `manual`. Aby uzyskać więcej informacji, zobacz How to train a model (Jak trenować model ).	`percentage`
trainingSplitPercentage	`80`	Procent oznakowanych danych, które mają zostać uwzględnione w zestawie treningowym. Zalecana wartość to `80`.	`80`
testingSplitPercentage	`20`	Procent oznakowanych danych do ujęć w zestawie testów. Zalecana wartość to `20`.	`20`

Uwaga

Wartości trainingSplitPercentage i testingSplitPercentage są wymagane tylko wtedy, gdy Kind ustawiono percentage wartość , a suma obu wartości procentowych powinna być równa 100.

Po wysłaniu żądania interfejsu API otrzymasz odpowiedź wskazującą 202 , że zadanie zostało przesłane poprawnie. W nagłówkach odpowiedzi wyodrębnij location wartość. Jest on sformatowany w następujący sposób:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} służy do identyfikowania żądania, ponieważ ta operacja jest asynchroniczna. Możesz użyć tego adresu URL, aby uzyskać stan szkolenia.

Uzyskiwanie stanu zadania szkoleniowego

Trenowanie może potrwać czasami w zależności od rozmiaru danych treningowych i złożoności schematu. Możesz użyć następującego żądania, aby zachować sondowanie stanu zadania szkoleniowego do momentu pomyślnego ukończenia zadania.

Użyj następującego żądania GET , aby uzyskać stan postępu trenowania modelu. Zastąp wartości zastępcze poniżej własnymi wartościami.

Adres URL żądania

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Symbol zastępczy	Wartość	Przykład
`{ENDPOINT}`	Punkt końcowy do uwierzytelniania żądania interfejsu API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nazwa projektu. Ta wartość jest uwzględniana w wielkości liter.	`myProject`
`{JOB-ID}`	Identyfikator lokalizowania stanu trenowania modelu. Ta wartość znajduje się w wartości nagłówka `location` otrzymanej w poprzednim kroku.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Wersja wywoływanego interfejsu API. Wartość, do których odwołuje się tutaj, dotyczy najnowszej wersji wydanej. Zobacz Cykl życia modelu , aby dowiedzieć się więcej o innych dostępnych wersjach interfejsu API.	`2022-05-01`

Nagłówki

Użyj następującego nagłówka, aby uwierzytelnić żądanie.

Klucz	Wartość
`Ocp-Apim-Subscription-Key`	Klucz do zasobu. Służy do uwierzytelniania żądań interfejsu API.

Treść odpowiedzi

Po wysłaniu żądania otrzymasz następującą odpowiedź.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Anulowanie zadania trenowania

Language Studio
Interfejsy API REST

Aby anulować zadanie szkoleniowe z poziomu programu Language Studio, przejdź do strony Zadania szkoleniowe . Wybierz zadanie trenowania, które chcesz anulować, a następnie wybierz pozycję Anuluj z górnego menu.

Utwórz żądanie POST przy użyciu następującego adresu URL, nagłówków i treści JSON w celu anulowania zadania trenowania.

Adres URL żądania

Użyj następującego adresu URL podczas tworzenia żądania interfejsu API. Zastąp wartości zastępcze poniżej własnymi wartościami.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Symbol zastępczy	Wartość	Przykład
`{ENDPOINT}`	Punkt końcowy do uwierzytelniania żądania interfejsu API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nazwa projektu. Ta wartość jest uwzględniana w wielkości liter.	`EmailApp`
`{JOB-ID}`	Ta wartość to identyfikator zadania trenowania.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Wersja wywoływanego interfejsu API. Wartość, do których się odwołuje, dotyczy najnowszej wersji modelu wydanej.	`2022-05-01`

Nagłówki

Użyj następującego nagłówka, aby uwierzytelnić żądanie.

Klucz	Wartość
`Ocp-Apim-Subscription-Key`	Klucz do zasobu. Służy do uwierzytelniania żądań interfejsu API.

Po wysłaniu żądania interfejsu API otrzymasz odpowiedź 202 z nagłówkiem używanym Operation-Location do sprawdzenia stanu zadania.

Następne kroki

Po zakończeniu trenowania będzie można wyświetlić wydajność modelu , aby opcjonalnie poprawić model w razie potrzeby. Gdy model jest zadowolony, możesz go wdrożyć, udostępniając go do wyodrębniania jednostek z tekstu.

Udostępnij za pośrednictwem

Trenowanie modelu Niestandardowa analiza tekstu dla zdrowia

Wymagania wstępne

Dzielenie danych

Trenowanie modelu

Rozpocznij zadanie szkoleniowe

Nagłówki

Treść żądania

Uzyskiwanie stanu zadania szkoleniowego

Adres URL żądania

Nagłówki

Treść odpowiedzi

Anulowanie zadania trenowania

Adres URL żądania

Nagłówki

Następne kroki

Dodatkowe zasoby