Treine o seu modelo de reconhecimento de entidades com nome personalizado

A formação é o processo em que o modelo aprende com os seus dados rotulados. Após o treino estar concluído, poderá ver o desempenho do modelo para determinar se precisa de melhorar o seu modelo.

Para formar um modelo, inicia-se um trabalho de formação e só os trabalhos concluídos com sucesso criam um modelo. Os trabalhos de formação expiram após sete dias, o que significa que não poderá recuperar os detalhes do trabalho depois deste tempo. Se o seu trabalho de treino tiver sido concluído com sucesso e um modelo for criado, o modelo não será afetado. Só se pode ter um trabalho de treino de cada vez, e não se pode começar outros trabalhos no mesmo projeto.

Os tempos de treino podem ser em qualquer lugar a partir de alguns minutos quando se lida com poucos documentos, até várias horas dependendo do tamanho do conjunto de dados e da complexidade do seu esquema.

Pré-requisitos

Consulte o ciclo de vida do desenvolvimento do projeto para obter mais informações.

Divisão de dados

Antes de iniciar o processo de treino, os documentos rotulados no seu projeto são divididos em um conjunto de treino e um conjunto de testes. Cada um deles tem uma função diferente. O conjunto de formação é utilizado na formação do modelo, este é o conjunto a partir do qual o modelo aprende as entidades rotuladas e quais os períodos de texto a extrair como entidades. O conjunto de testes é um conjunto cego que não é introduzido no modelo durante o treino, mas apenas durante a avaliação. Após a formação do modelo ser concluída com sucesso, o modelo é utilizado para fazer previsões a partir dos documentos nos testes e com base nestas previsões são calculadas as métricas de avaliação . Recomenda-se que todas as suas entidades estejam adequadamente representadas tanto no conjunto de treino como de testes.

O NER personalizado suporta dois métodos para a divisão de dados:

  • Dividindo automaticamente o conjunto de testes a partir de dados de treino:O sistema dividirá os seus dados rotulados entre os conjuntos de treino e teste, de acordo com as percentagens que escolher. A percentagem recomendada é de 80% para a formação e 20% para testes.

Nota

Se escolher o conjunto de testes automaticamente dividido da opção de dados de formação , apenas os dados atribuídos ao conjunto de treino serão divididos de acordo com as percentagens fornecidas.

  • Utilize uma divisão manual de dados de treino e teste: Este método permite que os utilizadores definam quais os documentos rotulados a que conjunto deve pertencer. Este passo só é ativado se tiver adicionado documentos ao seu conjunto de testes durante a rotulagem dos dados.

Preparar modelo

Para começar a treinar o seu modelo a partir do Estúdio de Línguas:

  1. Selecione trabalhos de formação do menu do lado esquerdo.

  2. Selecione Iniciar um trabalho de formação a partir do menu superior.

  3. Selecione Train um novo modelo e escreva o nome do modelo na caixa de texto. Também pode substituir um modelo existente selecionando esta opção e escolhendo o modelo que pretende substituir no menu suspenso. A sobreposição de um modelo treinado é irreversível, mas não afetará os seus modelos implantados até que implemente o novo modelo.

    Criar um novo trabalho de formação

  4. Selecione método de divisão de dados. Pode escolher dividir automaticamente o conjunto de testes a partir de dados de treino onde o sistema irá dividir os seus dados rotulados entre os conjuntos de treino e teste, de acordo com as percentagens especificadas. Ou pode utilizar uma divisão manual de dados de treino e teste, esta opção só está ativada se tiver adicionado documentos ao seu conjunto de testes durante a rotulagem dos dados. Veja como treinar um modelo de informação sobre a divisão de dados.

  5. Clique no botão Comboio .

  6. Se clicar no ID de Trabalho de Formação da lista, aparecerá um painel lateral onde poderá verificar o progresso da Formação, o estado do trabalho e outros detalhes para este trabalho.

    Nota

    • Só trabalhos de formação concluídos com sucesso gerarão modelos.
    • O treino pode demorar algum tempo entre alguns minutos e várias horas com base no tamanho dos seus dados rotulados.
    • Só pode ter um trabalho de preparação em execução de cada vez. Não pode iniciar outro trabalho de preparação no mesmo projeto sem que o trabalho em execução esteja concluído.

Cancelar trabalho de formação

Para cancelar um trabalho de formação dentro do Language Studio, vá à página de empregos de formação . Selecione o trabalho de formação que pretende cancelar e clique em Cancelar a partir do menu superior.

Passos seguintes

Após o treino estar concluído, poderá ver o desempenho do modelo para melhorar opcionalmente o seu modelo, se necessário. Uma vez satisfeito com o seu modelo, pode implantá-lo, disponibilizando-o para extrair entidades de texto.