Rotular dados de texto para treinar o seu modelo

Antes de treinar o seu modelo precisa de rotular os seus documentos com as aulas em que os pretende categorizar. A rotulagem dos dados constitui um passo crucial no ciclo de vida do desenvolvimento; neste passo pode criar as classes que pretende categorizar os seus dados e rotular os seus documentos com estas aulas. Estes dados serão utilizados no passo seguinte ao treinar o seu modelo para que o seu modelo possa aprender com os dados rotulados. Se já tiver dados rotulados, pode importá-lo diretamente para o seu projeto, mas tem de se certificar de que os seus dados seguem o formato de dados aceite.

Antes de criar uma classificação de texto personalizada modelo, precisa de ter dados rotulados primeiro. Se os seus dados ainda não estiverem rotulados, pode rotulá-lo no Language Studio. Os dados rotulados informam a modelo como interpretar o texto, e são utilizados para formação e avaliação.

Pré-requisitos

Antes de poder rotular dados, precisa de:

Consulte o ciclo de vida do desenvolvimento do projeto para obter mais informações.

Diretrizes de rotulagem de dados

Depois de preparar os seus dados, projetar o seu esquema e criar o seu projeto, terá de rotular os seus dados. A rotulagem dos seus dados é importante para que o seu modelo saiba quais os documentos que estarão associados às classes de que necessita. Quando rotular os seus dados no Language Studio (ou importar dados rotulados), estas etiquetas serão armazenadas no ficheiro JSON no seu recipiente de armazenamento que ligou a este projeto.

Ao rotular os seus dados, lembre-se:

  • Em geral, dados mais rotulados conduzem a melhores resultados, desde que os dados sejam rotulados com precisão.

  • Não existe um número fixo de etiquetas que garantam que o seu modelo irá ter o melhor desempenho. Modelar desempenho sobre uma possível ambiguidade no seu esquema e a qualidade dos seus dados rotulados. No entanto, recomendamos 50 documentos rotulados por classe.

Rotular os seus dados

Utilize os seguintes passos para rotular os seus dados:

  1. Vá à sua página de projeto no Language Studio.

  2. A partir do menu do lado esquerdo, selecione data labeling. Pode encontrar uma lista de todos os documentos no seu recipiente de armazenamento. Veja a imagem abaixo.

    Dica

    Pode utilizar os filtros no menu superior para visualizar os ficheiros não rotulados para que possa começar a rotulá-los. Também pode utilizar os filtros para visualizar os documentos que são rotulados com uma classe específica.

  3. Mude para uma única vista de ficheiro do lado esquerdo no menu superior ou selecione um ficheiro específico para começar a rotular. Pode encontrar uma lista de todos os .txt ficheiros disponíveis nos seus projetos à esquerda. Pode utilizar o botão Back e Next a partir da parte inferior da página para navegar através dos seus documentos.

    Nota

    Se ativou vários idiomas para o seu projeto, encontrará um Idioma suspenso no menu superior, que lhe permite selecionar o idioma de cada documento.

  4. No painel lateral direito, adicione classe ao seu projeto para que possa começar a rotular os seus dados com eles.

  5. Comece a rotular os seus ficheiros.

    Classificação multi-etiqueta: o seu ficheiro pode ser rotulado com várias classes, pode fazê-lo selecionando todas as caixas de verificação aplicáveis ao lado das classes com as quais pretende rotular este documento.

    A screenshot showing the multiple label classification tag page.

  6. No painel do lado direito sob o pivô labels você pode encontrar todas as classes do seu projeto e a contagem de instâncias rotuladas por cada um.

  7. Na secção inferior do painel lateral direito pode adicionar o ficheiro atual que está a visualizar ao conjunto de treino ou ao conjunto de testes. Por predefinição, todos os documentos são adicionados ao seu conjunto de treino. Saiba mais sobre os conjuntos de treino e testes e como são usados para modelo treino e avaliação.

    Dica

    Se estiver a planear utilizar a divisão automática de dados, utilize a opção predefinidora de atribuir todos os documentos ao seu conjunto de treino.

  8. Sob o pivô distribuição pode ver a distribuição através de conjuntos de treino e teste. Tem duas opções para visualizar:

    • Casos totais em que se pode ver a contagem de todos os casos rotulados de uma classe específica.
    • documentos com pelo menos uma etiqueta em que cada documento é contado se contiver pelo menos uma instância rotulada desta classe.
  9. Enquanto estiver a rotular, as suas alterações serão sincronizadas periodicamente, se ainda não tiverem sido guardadas, encontrará um aviso no topo da sua página. Se quiser guardar manualmente, clique no botão Guardar etiquetas na parte inferior da página.

Remover rótulos

Se quiser remover uma etiqueta, desmarque o botão ao lado da classe.

Excluir ou aulas

Para eliminar uma classe, clique no ícone de exclusão ao lado da classe que pretende remover. A eliminação de uma classe removerá todas as suas instâncias etiquetadas do seu conjunto de dados.

Passos seguintes

Depois de ter rotulado os seus dados, pode começar a treinar um modelo que aprenderá com base nos seus dados.