Formati di dati accettati
Se si sta tentando di importare i dati in una classificazione di testo personalizzata, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.
Formato file etichette
Il file Labels deve essere nel json
formato seguente. In questo modo sarà possibile importare le etichette in un progetto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
Multilingue | true |
Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico. | true |
projectName | {PROJECT-NAME} |
Project name (Nome progetto) | Myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nome contenitore | mycontainer |
classi | [] | Matrice contenente tutte le classi presenti nel progetto. Queste sono le classi in cui classificare i documenti. | [] |
documenti | [] | Matrice contenente tutti i documenti nel progetto e le classi etichettate per questo documento. | [] |
posizione | {DOCUMENT-NAME} |
Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo valore deve essere il nome del documento. | doc1.txt |
dataset | {DATASET} |
Set di test a cui verrà passato questo file quando si divide prima del training. Per altre informazioni, vedere Come eseguire il training di un modello . I valori possibili per questo campo sono Train e Test . |
Train |
Passaggi successivi
- È possibile importare direttamente i dati etichettati nel progetto. Per altre informazioni sull'importazione di progetti, vedere Come creare un progetto .
- Per altre informazioni sull'etichettatura dei dati, vedere l'articolo sulle procedure . Al termine dell'etichettatura dei dati, è possibile eseguire il training del modello.