Rotular os seus dados no Language Studio

Antes de treinar o seu modelo precisa de rotular os seus documentos com as entidades personalizadas que pretende extrair. A rotulagem dos dados é um passo crucial no ciclo de vida do desenvolvimento. Neste passo pode criar os tipos de entidade que pretende extrair dos seus dados e rotular estas entidades dentro dos seus documentos. Estes dados serão utilizados no passo seguinte ao treinar o seu modelo para que o seu modelo possa aprender com os dados rotulados. Se já tiver dados rotulados, pode importá-lo diretamente para o seu projeto, mas tem de se certificar de que os seus dados seguem o formato de dados aceite. Consulte o projeto de criação para saber mais sobre a importação de dados rotulados para o seu projeto.

Antes de criar um NER personalizado modelo, precisa de ter dados rotulados primeiro. Se os seus dados ainda não estiverem rotulados, pode rotulá-lo no Language Studio. Os dados rotulados informam a modelo como interpretar o texto, e são utilizados para formação e avaliação.

Pré-requisitos

Antes de poder rotular os seus dados, precisa de:

  • Um projeto criado com sucesso com uma conta de armazenamento de blob Azure configurada
  • Dados de texto que foram enviados para a sua conta de armazenamento.

Consulte o ciclo de vida do desenvolvimento do projeto para obter mais informações.

Diretrizes de rotulagem de dados

Depois de preparar os seus dados, projetar o seu esquema e criar o seu projeto, terá de rotular os seus dados. A rotulagem dos seus dados é importante para que o seu modelo saiba quais as palavras que estarão associadas aos tipos de entidades que precisa de extrair. Quando rotular os seus dados no Language Studio (ou importar dados rotulados), estas etiquetas serão armazenadas no documento JSON no seu recipiente de armazenamento que ligou a este projeto.

Ao rotular os seus dados, lembre-se:

  • Em geral, dados mais rotulados conduzem a melhores resultados, desde que os dados sejam rotulados com precisão.

  • A precisão, consistência e completude dos seus dados rotulados são fatores-chave para determinar modelo desempenho.

    • Etiquetar com precisão: Rotular sempre cada entidade ao seu tipo certo. Inclua apenas o que pretende extrair, evite dados desnecessários nas suas etiquetas.
    • Etiquetar de forma consistente: A mesma entidade deve ter a mesma etiqueta em todos os documentos.
    • Etiquetar completamente: Rotular todas as instâncias da entidade em todos os seus documentos. Pode utilizar a função de rotulagem automática para garantir uma rotulagem completa.

    Nota

    Não existe um número fixo de etiquetas que garantam que o seu modelo irá ter o melhor desempenho. O desempenho do modelo depende de uma possível ambiguidade no seu esquema e da qualidade dos seus dados rotulados. No entanto, recomendamos ter cerca de 50 instâncias rotuladas por tipo de entidade.

Rotular os seus dados

Utilize os seguintes passos para rotular os seus dados:

  1. Vá à sua página de projeto no Language Studio.

  2. A partir do menu do lado esquerdo, selecione data labeling. Pode encontrar uma lista de todos os documentos no seu recipiente de armazenamento.

    Dica

    Pode utilizar os filtros no menu superior para visualizar os documentos não rotulados para que possa começar a rotulá-los. Também pode utilizar os filtros para visualizar os documentos que são rotulados com um tipo específico de entidade.

  3. Mude para uma única vista de documento do lado esquerdo no menu superior ou selecione um documento específico para começar a rotular. Pode encontrar uma lista de todos os .txt documentos disponíveis no seu projeto à esquerda. Pode utilizar o botão Back e Next a partir da parte inferior da página para navegar através dos seus documentos.

    Nota

    Se ativou vários idiomas para o seu projeto, encontrará um Idioma suspenso no menu superior, que lhe permite selecionar o idioma de cada documento.

  4. No painel lateral direito, adicione o tipo de entidade ao seu projeto para que possa começar a rotular os seus dados com eles.

  5. Tem duas opções para rotular o seu documento:

    Opção Descrição
    Etiqueta usando uma escova Selecione o ícone da escova ao lado de um tipo de entidade no painel direito e, em seguida, realce o texto no documento que pretende anotar com este tipo de entidade.
    Etiqueta usando um menu Realce a palavra que pretende rotular como entidade, e aparecerá um menu. Selecione o tipo de entidade que pretende atribuir para esta entidade.

    A imagem abaixo mostra a rotulagem usando uma escova.

    A screenshot showing the labeling options offered in Custom NER.

  6. No painel lateral direito sob o pivô labels pode encontrar todos os tipos de entidades no seu projeto e a contagem de instâncias rotuladas por cada um.

  7. Na secção inferior do painel lateral direito pode adicionar o documento atual que está a visualizar ao conjunto de treino ou ao conjunto de testes. Por predefinição, todos os documentos são adicionados ao seu conjunto de treino. Saiba mais sobre os conjuntos de treino e testes e como são usados para modelo treino e avaliação.

    Dica

    Se estiver a planear utilizar a divisão automática de dados, utilize a opção padrão de atribuir todos os documentos ao seu conjunto de treino.

  8. Sob o pivô distribuição pode ver a distribuição através de conjuntos de treino e teste. Tem duas opções para visualizar:

    • Total de casos em que pode ver a contagem de todos os casos rotulados de um tipo de entidade específica.
    • documentos com pelo menos uma etiqueta em que cada documento é contado se contiver pelo menos uma instância rotulada desta entidade.
  9. Quando estiver a rotular, as suas alterações serão sincronizadas periodicamente, se ainda não tiverem sido guardadas, encontrará um aviso no topo da sua página. Se quiser guardar manualmente, clique no botão Guardar etiquetas na parte inferior da página.

Remover rótulos

Para remover uma etiqueta

  1. Selecione a entidade de onde pretende remover uma etiqueta.
  2. Percorra o menu que aparece e selecione Remover a etiqueta.

Eliminar entidades

Para eliminar uma entidade, selecione o ícone de exclusão ao lado da entidade que pretende remover. A eliminação de uma entidade removerá todas as suas instâncias etiquetadas do seu conjunto de dados.

Passos seguintes

Depois de ter rotulado os seus dados, pode começar a treinar um modelo que aprenderá com base nos seus dados.