Formatos de dados aceites
Se estiver a tentar importar os seus dados para uma classificação de texto personalizada, tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.
Formato de ficheiro etiquetas
O ficheiro Etiquetas deve estar no json
formato abaixo. Isto irá permitir-lhe importar as etiquetas para um projeto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
Chave | Marcador de posição | Valor | Exemplo |
---|---|---|---|
multilinngue | true |
Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja suporte de idiomas para saber mais sobre o suporte multilinngue. | true |
projectName | {PROJECT-NAME} |
Nome do projeto | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nome do contentor | mycontainer |
classes | [] | Matriz que contém todas as classes que tem no projeto. Estas são as classes nas quais pretende classificar os seus documentos. | [] |
Documentos | [] | Matriz que contém todos os documentos no seu projeto e as classes etiquetadas para este documento. | [] |
localização | {DOCUMENT-NAME} |
A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este valor deve ser o nome do documento. | doc1.txt |
conjunto de dados | {DATASET} |
O conjunto de testes para o qual este ficheiro será dividido antes da preparação. Veja Como preparar um modelo para obter mais informações. Os valores possíveis para este campo são Train e Test . |
Train |
Passos seguintes
- Pode importar os dados etiquetados diretamente para o projeto. Veja Como criar um projeto para saber mais sobre a importação de projetos.
- Veja o artigo de procedimentos para obter mais informações sobre a etiquetagem dos seus dados. Quando terminar de etiquetar os seus dados, pode preparar o modelo.