Como preparar um modelo de classificação de textos personalizado

Artigo
12/19/2023

A preparação é o processo em que o modelo aprende com os seus dados etiquetados. Após a conclusão da preparação, poderá ver o desempenho do modelo para determinar se precisa de melhorar o modelo.

Para preparar um modelo, inicie uma tarefa de preparação. Apenas as tarefas concluídas com êxito criam um modelo utilizável. As tarefas de preparação expiram após sete dias. Após este período, não poderá obter os detalhes da tarefa. Se a tarefa de preparação tiver sido concluída com êxito e um modelo tiver sido criado, não será afetado pela expiração da tarefa. Só pode ter um trabalho de preparação em execução de cada vez e não pode iniciar outras tarefas no mesmo projeto.

Os tempos de preparação podem ser em qualquer lugar a partir de alguns minutos ao lidar com poucos documentos, até várias horas, dependendo do tamanho do conjunto de dados e da complexidade do seu esquema.

Pré-requisitos

Antes de preparar o modelo, precisa de:

Um projeto criado com êxito com uma conta de armazenamento de blobs do Azure configurada,
Dados de texto que foram carregados para a sua conta de armazenamento.
Dados etiquetados

Veja o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Divisão de dados

Antes de iniciar o processo de preparação, os documentos etiquetados no seu projeto são divididos num conjunto de preparação e num conjunto de testes. Cada um deles serve uma função diferente. O conjunto de preparação é utilizado na preparação do modelo. Este é o conjunto a partir do qual o modelo aprende a classe/classes atribuídas a cada documento. O conjunto de testes é um conjunto cego que não é introduzido no modelo durante a preparação, mas apenas durante a avaliação. Depois de o modelo ser preparado com êxito, é utilizado para fazer predições a partir dos documentos no conjunto de testes. Com base nestas predições, as métricas de avaliação do modelo serão calculadas. Recomenda-se garantir que todas as suas turmas estão representadas adequadamente no conjunto de preparação e teste.

A classificação de textos personalizados suporta dois métodos de divisão de dados:

Dividir automaticamente o conjunto de testes a partir dos dados de preparação: o sistema irá dividir os dados etiquetados entre os conjuntos de preparação e teste, de acordo com as percentagens que escolher. O sistema tentará ter uma representação de todas as classes no seu conjunto de preparação. A divisão percentual recomendada é de 80% para preparação e 20% para testes.

Nota

Se escolher a opção Dividir automaticamente o conjunto de testes dos dados de preparação , apenas os dados atribuídos ao conjunto de preparação serão divididos de acordo com as percentagens fornecidas.

Utilizar uma divisão manual de dados de preparação e teste: este método permite que os utilizadores definam que documentos etiquetados devem pertencer a que conjunto. Este passo só é ativado se tiver adicionado documentos ao conjunto de testes durante a etiquetagem de dados.

Para começar a preparar o modelo a partir do Language Studio:

Selecione Tarefas de preparação no menu esquerdo.
Selecione Iniciar uma tarefa de preparação no menu superior.
Selecione Preparar um novo modelo e escreva o nome do modelo na caixa de texto. Também pode substituir um modelo existente ao selecionar esta opção e escolher o modelo que pretende substituir no menu pendente. A substituição de um modelo preparado é irreversível, mas não afetará os modelos implementados até implementar o novo modelo.
Selecione o método de divisão de dados. Pode escolher Dividir automaticamente o conjunto de testes a partir dos dados de preparação em que o sistema irá dividir os dados etiquetados entre os conjuntos de preparação e teste, de acordo com as percentagens especificadas. Em alternativa, pode Utilizar uma divisão manual dos dados de preparação e teste. Esta opção só está ativada se tiver adicionado documentos ao seu conjunto de testes durante a etiquetagem de dados. Veja Como preparar um modelo para obter mais informações sobre a divisão de dados.
Selecione o botão Preparar .
Se selecionar o ID da tarefa de preparação na lista, será apresentado um painel lateral onde poderá verificar o progresso da Preparação, o Estado da tarefa e outros detalhes para esta tarefa.
Nota
- Apenas as tarefas de preparação concluídas com êxito irão gerar modelos.
- O tempo de preparação do modelo pode demorar entre alguns minutos a várias horas com base no tamanho dos dados etiquetados.
- Só pode ter um trabalho de preparação em execução de cada vez. Não pode iniciar outro trabalho de preparação no mesmo projeto sem que o trabalho em execução esteja concluído.

Iniciar tarefa de preparação

Submeta um pedido POST com o seguinte URL, cabeçalhos e corpo JSON para submeter uma tarefa de preparação. Substitua os valores de marcador de posição abaixo pelos seus próprios valores.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Marcador de posição	Valor	Exemplo
`{ENDPOINT}`	O ponto final para autenticar o pedido da API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	O nome do seu projeto. Este valor é sensível às maiúsculas e minúsculas.	`myProject`
`{API-VERSION}`	A versão da API que está a chamar. O valor aqui referenciado destina-se à versão mais recente lançada. Saiba mais sobre outras versões de API disponíveis	`2022-05-01`

Cabeçalhos

Utilize o cabeçalho seguinte para autenticar o pedido.

Chave	Valor
`Ocp-Apim-Subscription-Key`	A chave do recurso. Utilizado para autenticar os seus pedidos de API.

Corpo do pedido

Utilize o seguinte JSON no corpo do pedido. O modelo será fornecido assim que a {MODEL-NAME} preparação estiver concluída. Apenas as tarefas de preparação bem-sucedidas produzirão modelos.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Chave	Marcador de posição	Valor	Exemplo
modelLabel	`{MODEL-NAME}`	O nome do modelo que será atribuído ao modelo depois de preparado com êxito.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Esta é a versão do modelo que será utilizada para preparar o modelo.	`2022-05-01`
evaluationOptions		Opção para dividir os seus dados em conjuntos de preparação e teste.	`{}`
tipo	`percentage`	Métodos de divisão. Os valores possíveis são `percentage` ou `manual`. Veja Como preparar um modelo para obter mais informações.	`percentage`
trainingSplitPercentage	`80`	Percentagem dos dados marcados a incluir no conjunto de preparação. O valor recomendado é `80`.	`80`
testingSplitPercentage	`20`	Percentagem dos dados etiquetados a incluir no conjunto de testes. O valor recomendado é `20`.	`20`

Nota

O trainingSplitPercentage e testingSplitPercentage só é necessário se Kind estiver definido como percentage e a soma de ambas as percentagens deve ser igual a 100.

Depois de enviar o pedido da API, receberá uma 202 resposta a indicar que a tarefa foi submetida corretamente. Nos cabeçalhos de resposta, extraia o location valor. Será formatado da seguinte forma:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} é utilizado para identificar o seu pedido, uma vez que esta operação é assíncrona. Pode utilizar este URL para obter o estado de preparação.

Obter o estado da tarefa de preparação

A preparação pode demorar algum tempo, dependendo do tamanho dos dados de preparação e da complexidade do esquema. Pode utilizar o seguinte pedido para continuar a consultar o estado da tarefa de formação até que seja concluída com êxito.

Utilize o seguinte pedido GET para obter o estado do progresso da preparação do modelo. Substitua os valores de marcador de posição abaixo pelos seus próprios valores.

URL do Pedido

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Marcador de posição	Valor	Exemplo
`{ENDPOINT}`	O ponto final para autenticar o seu pedido de API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	O nome do seu projeto. Este valor é sensível às maiúsculas e minúsculas.	`myProject`
`{JOB-ID}`	O ID para localizar o estado de preparação do modelo. Este valor está no valor do `location` cabeçalho que recebeu no passo anterior.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	A versão da API que está a chamar. O valor aqui referenciado destina-se à versão mais recente lançada. Veja o ciclo de vida do modelo para saber mais sobre outras versões de API disponíveis.	`2022-05-01`

Cabeçalhos

Utilize o cabeçalho seguinte para autenticar o seu pedido.

Chave	Valor
`Ocp-Apim-Subscription-Key`	A chave do recurso. Utilizado para autenticar os seus pedidos de API.

Corpo da Resposta

Assim que enviar o pedido, obterá a seguinte resposta.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Cancelar tarefa de formação

Language Studio
APIs REST

Para cancelar uma tarefa de formação no Language Studio, aceda à página Tarefas de formação . Selecione a tarefa de preparação que pretende cancelar e selecione Cancelar no menu superior.

Crie um pedido POST com o seguinte URL, cabeçalhos e corpo JSON para cancelar uma tarefa de preparação.

URL do Pedido

Utilize o seguinte URL ao criar o seu pedido de API. Substitua os valores de marcador de posição abaixo pelos seus próprios valores.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Marcador de posição	Valor	Exemplo
`{ENDPOINT}`	O ponto final para autenticar o seu pedido de API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	O nome do projeto. Este valor é sensível às maiúsculas e minúsculas.	`EmailApp`
`{JOB-ID}`	Este valor é o ID da tarefa de preparação.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	A versão da API que está a chamar. O valor referenciado destina-se à versão mais recente do modelo lançado.	`2022-05-01`

Cabeçalhos

Utilize o cabeçalho seguinte para autenticar o seu pedido.

Chave	Valor
`Ocp-Apim-Subscription-Key`	A chave do recurso. Utilizado para autenticar os seus pedidos de API.

Depois de enviar o seu pedido de API, receberá uma resposta 202 com um Operation-Location cabeçalho utilizado para verificar o estado da tarefa.

Passos seguintes

Após a conclusão da preparação, poderá ver o desempenho do modelo para melhorar opcionalmente o modelo, se necessário. Assim que estiver satisfeito com o seu modelo, pode implementá-lo, disponibilizando-o para utilização para classificar texto.

Como preparar um modelo de classificação de textos personalizado

Pré-requisitos

Divisão de dados

Preparar modelo

Cancelar tarefa de formação

Passos seguintes

Recursos adicionais