Treine o seu modelo de reconhecimento de entidades com nome personalizado
Artigo
7 minutos para ler
A formação é o processo em que o modelo aprende com os seus dados rotulados. Após o treino estar concluído, poderá ver o desempenho do modelo para determinar se precisa de melhorar o seu modelo.
Para formar um modelo, inicia-se um trabalho de formação e só os trabalhos concluídos com sucesso criam um modelo. Os trabalhos de formação expiram após sete dias, o que significa que não poderá recuperar os detalhes do trabalho depois deste tempo. Se o seu trabalho de treino tiver sido concluído com sucesso e um modelo for criado, o modelo não será afetado. Só se pode ter um trabalho de treino de cada vez, e não se pode começar outros trabalhos no mesmo projeto.
Os tempos de treino podem ser em qualquer lugar a partir de alguns minutos quando se lida com poucos documentos, até várias horas dependendo do tamanho do conjunto de dados e da complexidade do seu esquema.
Pré-requisitos
Um projeto criado com sucesso com uma conta de armazenamento de blob Azure configurada
Dados de texto que foram enviados para a sua conta de armazenamento.
Antes de iniciar o processo de treino, os documentos rotulados no seu projeto são divididos em um conjunto de treino e um conjunto de testes. Cada um deles tem uma função diferente.
O conjunto de formação é utilizado na formação do modelo, este é o conjunto a partir do qual o modelo aprende as entidades rotuladas e quais os períodos de texto a extrair como entidades.
O conjunto de testes é um conjunto cego que não é introduzido no modelo durante o treino, mas apenas durante a avaliação.
Após a formação do modelo ser concluída com sucesso, o modelo é utilizado para fazer previsões a partir dos documentos nos testes e com base nestas previsões são calculadas as métricas de avaliação .
Recomenda-se que todas as suas entidades estejam adequadamente representadas tanto no conjunto de treino como de testes.
O NER personalizado suporta dois métodos para a divisão de dados:
Dividindo automaticamente o conjunto de testes a partir de dados de treino:O sistema dividirá os seus dados rotulados entre os conjuntos de treino e teste, de acordo com as percentagens que escolher. A percentagem recomendada é de 80% para a formação e 20% para testes.
Nota
Se escolher o conjunto de testes automaticamente dividido da opção de dados de formação , apenas os dados atribuídos ao conjunto de treino serão divididos de acordo com as percentagens fornecidas.
Utilize uma divisão manual de dados de treino e teste: Este método permite que os utilizadores definam quais os documentos rotulados a que conjunto deve pertencer. Este passo só é ativado se tiver adicionado documentos ao seu conjunto de testes durante a rotulagem dos dados.
Selecione trabalhos de formação do menu do lado esquerdo.
Selecione Iniciar um trabalho de formação a partir do menu superior.
Selecione Train um novo modelo e escreva o nome do modelo na caixa de texto. Também pode substituir um modelo existente selecionando esta opção e escolhendo o modelo que pretende substituir no menu suspenso. A sobreposição de um modelo treinado é irreversível, mas não afetará os seus modelos implantados até que implemente o novo modelo.
Selecione método de divisão de dados. Pode escolher dividir automaticamente o conjunto de testes a partir de dados de treino onde o sistema irá dividir os seus dados rotulados entre os conjuntos de treino e teste, de acordo com as percentagens especificadas. Ou pode utilizar uma divisão manual de dados de treino e teste, esta opção só está ativada se tiver adicionado documentos ao seu conjunto de testes durante a rotulagem dos dados. Veja como treinar um modelo de informação sobre a divisão de dados.
Clique no botão Comboio .
Se clicar no ID de Trabalho de Formação da lista, aparecerá um painel lateral onde poderá verificar o progresso da Formação, o estado do trabalho e outros detalhes para este trabalho.
Nota
Só trabalhos de formação concluídos com sucesso gerarão modelos.
O treino pode demorar algum tempo entre alguns minutos e várias horas com base no tamanho dos seus dados rotulados.
Só pode ter um trabalho de preparação em execução de cada vez. Não pode iniciar outro trabalho de preparação no mesmo projeto sem que o trabalho em execução esteja concluído.
Iniciar o trabalho de formação
Submeta um pedido de CORREIO utilizando o seguinte URL, cabeçalhos e corpo JSON para submeter um trabalho de formação. Substitua os valores de espaço reservado abaixo pelos seus próprios valores.
O nome do seu projeto. Este valor é sensível a casos.
myProject
{API-VERSION}
A versão da API que está a ligar. O valor aqui referenciado é para a versão mais recente lançada. Consulte o ciclo de vida do Modelo para saber mais sobre outras versões API disponíveis.
2022-05-01
Cabeçalhos
Utilize o seguinte cabeçalho para autenticar o seu pedido.
Chave
Valor
Ocp-Apim-Subscription-Key
A chave do seu recurso. Utilizado para autenticar os seus pedidos de API.
Corpo do pedido
Utilize o seguinte JSON no seu corpo de pedido. O modelo será dado assim que o {MODEL-NAME} treino estiver completo. Só trabalhos de formação bem sucedidos produzirão modelos.
O nome do modelo que será atribuído ao seu modelo uma vez treinado com sucesso.
myModel
formaçãoConfigVersão
{CONFIG-VERSION}
Esta é a versão modelo que será usada para treinar o modelo.
2022-05-01
avaliaçõesOpções
Opção de dividir os seus dados através de conjuntos de treino e teste.
{}
tipo
percentage
Métodos divididos. Os valores possíveis são percentage ou manual. Veja como treinar um modelo para mais informações.
percentage
formaçãoSplitPercentage
80
Percentagem dos seus dados marcados para serem incluídos no conjunto de treino. O valor recomendado é 80.
80
testesSplitPercentage
20
Percentagem dos seus dados marcados para serem incluídos no conjunto de testes. O valor recomendado é 20.
20
Nota
O trainingSplitPercentage e testingSplitPercentage só é necessário se Kind for definido percentage e a soma de ambas as percentagens deve ser igual a 100.
Assim que enviar o seu pedido de API, receberá uma 202 resposta indicando que o trabalho foi submetido corretamente. Nos cabeçalhos de resposta, extraia o location valor. Será formatado assim:
{JOB-ID} é usado para identificar o seu pedido, uma vez que esta operação é assíncronea. Você pode usar este URL para obter o estado de treino.
Obter estatuto de emprego de formação
O treino pode demorar algum tempo dependendo do tamanho dos seus dados de treino e da complexidade do seu esquema. Pode utilizar o seguinte pedido para continuar a sondar o estado do trabalho de formação até estar concluído com sucesso.
Utilize o seguinte pedido GET para obter o estado do progresso de formação do seu modelo. Substitua os valores de espaço reservado abaixo pelos seus próprios valores.
O nome do seu projeto. Este valor é sensível a casos.
myProject
{JOB-ID}
A identificação para localizar o estado de treino do seu modelo. Este valor está no valor do location cabeçalho que recebeu no passo anterior.
xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
{API-VERSION}
A versão da API que está a ligar. O valor aqui referenciado é para a versão mais recente lançada. Consulte o ciclo de vida do Modelo para saber mais sobre outras versões API disponíveis.
2022-05-01
Cabeçalhos
Utilize o seguinte cabeçalho para autenticar o seu pedido.
Chave
Valor
Ocp-Apim-Subscription-Key
A chave do seu recurso. Utilizado para autenticar os seus pedidos de API.
Corpo de Resposta
Assim que enviar o pedido, terá a seguinte resposta.
Para cancelar um trabalho de formação dentro do Language Studio, vá à página de empregos de formação . Selecione o trabalho de formação que pretende cancelar e clique em Cancelar a partir do menu superior.
Crie um pedido de POST utilizando o seguinte URL, cabeçalhos e corpo JSON para cancelar um trabalho de treino.
URL do Pedido
Utilize o seguinte URL ao criar o seu pedido de API. Substitua os valores de espaço reservado abaixo pelos seus próprios valores.
O nome para o seu projeto. Este valor é sensível a casos.
EmailApp
{JOB-ID}
Este valor é a identificação do trabalho de treino.
XXXXX-XXXXX-XXXX-XX
{API-VERSION}
A versão da API que está a ligar. O valor referenciado é para a versão modelo mais recente lançada.
2022-05-01
Cabeçalhos
Utilize o seguinte cabeçalho para autenticar o seu pedido.
Chave
Valor
Ocp-Apim-Subscription-Key
A chave do seu recurso. Utilizado para autenticar os seus pedidos de API.
Depois de enviar o seu pedido de API, receberá uma resposta de 202 com um Operation-Location cabeçalho usado para verificar o estado do trabalho.
Passos seguintes
Após o treino estar concluído, poderá ver o desempenho do modelo para melhorar opcionalmente o seu modelo, se necessário. Uma vez satisfeito com o seu modelo, pode implantá-lo, disponibilizando-o para extrair entidades de texto.