Como preparar um modelo de classificação de textos personalizado

A preparação é o processo em que o modelo aprende com os seus dados etiquetados. Após a conclusão da preparação, poderá ver o desempenho do modelo para determinar se precisa de melhorar o modelo.

Para preparar um modelo, inicie uma tarefa de preparação. Apenas as tarefas concluídas com êxito criam um modelo utilizável. As tarefas de preparação expiram após sete dias. Após este período, não poderá obter os detalhes da tarefa. Se a tarefa de preparação tiver sido concluída com êxito e um modelo tiver sido criado, não será afetado pela expiração da tarefa. Só pode ter um trabalho de preparação em execução de cada vez e não pode iniciar outras tarefas no mesmo projeto.

Os tempos de preparação podem ser em qualquer lugar a partir de alguns minutos ao lidar com poucos documentos, até várias horas, dependendo do tamanho do conjunto de dados e da complexidade do seu esquema.

Pré-requisitos

Antes de preparar o modelo, precisa de:

Veja o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Divisão de dados

Antes de iniciar o processo de preparação, os documentos etiquetados no seu projeto são divididos num conjunto de preparação e num conjunto de testes. Cada um deles serve uma função diferente. O conjunto de preparação é utilizado na preparação do modelo. Este é o conjunto a partir do qual o modelo aprende a classe/classes atribuídas a cada documento. O conjunto de testes é um conjunto cego que não é introduzido no modelo durante a preparação, mas apenas durante a avaliação. Depois de o modelo ser preparado com êxito, é utilizado para fazer predições a partir dos documentos no conjunto de testes. Com base nestas predições, as métricas de avaliação do modelo serão calculadas. Recomenda-se garantir que todas as suas turmas estão representadas adequadamente no conjunto de preparação e teste.

A classificação de textos personalizados suporta dois métodos de divisão de dados:

  • Dividir automaticamente o conjunto de testes a partir dos dados de preparação: o sistema irá dividir os dados etiquetados entre os conjuntos de preparação e teste, de acordo com as percentagens que escolher. O sistema tentará ter uma representação de todas as classes no seu conjunto de preparação. A divisão percentual recomendada é de 80% para preparação e 20% para testes.

Nota

Se escolher a opção Dividir automaticamente o conjunto de testes dos dados de preparação , apenas os dados atribuídos ao conjunto de preparação serão divididos de acordo com as percentagens fornecidas.

  • Utilizar uma divisão manual de dados de preparação e teste: este método permite que os utilizadores definam que documentos etiquetados devem pertencer a que conjunto. Este passo só é ativado se tiver adicionado documentos ao conjunto de testes durante a etiquetagem de dados.

Preparar modelo

Para começar a preparar o modelo a partir do Language Studio:

  1. Selecione Tarefas de preparação no menu esquerdo.

  2. Selecione Iniciar uma tarefa de preparação no menu superior.

  3. Selecione Preparar um novo modelo e escreva o nome do modelo na caixa de texto. Também pode substituir um modelo existente ao selecionar esta opção e escolher o modelo que pretende substituir no menu pendente. A substituição de um modelo preparado é irreversível, mas não afetará os modelos implementados até implementar o novo modelo.

    Criar uma nova tarefa de formação

  4. Selecione o método de divisão de dados. Pode escolher Dividir automaticamente o conjunto de testes a partir dos dados de preparação em que o sistema irá dividir os dados etiquetados entre os conjuntos de preparação e teste, de acordo com as percentagens especificadas. Em alternativa, pode Utilizar uma divisão manual dos dados de preparação e teste. Esta opção só está ativada se tiver adicionado documentos ao seu conjunto de testes durante a etiquetagem de dados. Veja Como preparar um modelo para obter mais informações sobre a divisão de dados.

  5. Selecione o botão Preparar .

  6. Se selecionar o ID da tarefa de preparação na lista, será apresentado um painel lateral onde poderá verificar o progresso da Preparação, o Estado da tarefa e outros detalhes para esta tarefa.

    Nota

    • Apenas as tarefas de preparação concluídas com êxito irão gerar modelos.
    • O tempo de preparação do modelo pode demorar entre alguns minutos a várias horas com base no tamanho dos dados etiquetados.
    • Só pode ter um trabalho de preparação em execução de cada vez. Não pode iniciar outro trabalho de preparação no mesmo projeto sem que o trabalho em execução esteja concluído.

Cancelar tarefa de formação

Para cancelar uma tarefa de formação no Language Studio, aceda à página Tarefas de formação . Selecione a tarefa de preparação que pretende cancelar e selecione Cancelar no menu superior.

Passos seguintes

Após a conclusão da preparação, poderá ver o desempenho do modelo para melhorar opcionalmente o modelo, se necessário. Assim que estiver satisfeito com o seu modelo, pode implementá-lo, disponibilizando-o para utilização para classificar texto.