Formatos de dados aceites

Se estiver a tentar importar os seus dados para uma classificação de texto personalizada, tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.

Formato de ficheiro etiquetas

O ficheiro Etiquetas deve estar no json formato abaixo. Isto irá permitir-lhe importar as etiquetas para um projeto.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Chave Marcador de posição Valor Exemplo
multilinngue true Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja suporte de idiomas para saber mais sobre o suporte multilinngue. true
projectName {PROJECT-NAME} Nome do projeto myproject
storageInputContainerName {CONTAINER-NAME} Nome do contentor mycontainer
classes [] Matriz que contém todas as classes que tem no projeto. Estas são as classes nas quais pretende classificar os seus documentos. []
Documentos [] Matriz que contém todos os documentos no seu projeto e as classes etiquetadas para este documento. []
localização {DOCUMENT-NAME} A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este valor deve ser o nome do documento. doc1.txt
conjunto de dados {DATASET} O conjunto de testes para o qual este ficheiro será dividido antes da preparação. Veja Como preparar um modelo para obter mais informações. Os valores possíveis para este campo são Train e Test. Train

Passos seguintes

  • Pode importar os dados etiquetados diretamente para o projeto. Veja Como criar um projeto para saber mais sobre a importação de projetos.
  • Veja o artigo de procedimentos para obter mais informações sobre a etiquetagem dos seus dados. Quando terminar de etiquetar os seus dados, pode preparar o modelo.