Zaakceptowane formaty danych w niestandardowej analizie tekstu na potrzeby kondycji

Artykuł
12/19/2023

Skorzystaj z tego artykułu, aby dowiedzieć się więcej na temat formatowania danych do zaimportowania do niestandardowej analizy tekstu na potrzeby kondycji.

Jeśli próbujesz zaimportować dane do Niestandardowa analiza tekstu dla zdrowia, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Plik Labels powinien być w json formacie poniżej, który ma być używany podczas importowania etykiet do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klucz	Symbol zastępczy	Wartość	Przykład
`multilingual`	`true`	Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków , aby dowiedzieć się więcej o obsłudze wielojęzycznej.	`true`
`projectName`	`{PROJECT-NAME}`	Project name (Nazwa projektu)	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nazwa kontenera	`mycontainer`
`entities`		Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów.
`category`		Nazwa typu jednostki, który może być zdefiniowany przez użytkownika dla nowych definicji jednostek lub wstępnie zdefiniowany dla wstępnie utworzonych jednostek. Aby uzyskać więcej informacji, zobacz poniższe reguły nazewnictwa jednostek.
`compositionSetting`	`{COMPOSITION-SETTING}`	Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to `combineComponents` lub `separateComponents`.	`combineComponents`
`list`		Tablica zawierająca wszystkie podlisty, które znajdują się w projekcie dla określonej jednostki. Listy można dodawać do wstępnie utworzonych jednostek lub nowych jednostek ze poznanymi składnikami.
`sublists`	`[]`	Tablica zawierająca podlisty. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami.	`[]`
`listKey`	`One`	Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu.	`One`
`synonyms`	`[]`	Tablica zawierająca wszystkie synonimy	Synonim
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka synonimu na liście podrzędnej. Jeśli projekt jest projektem wielojęzycznym i chcesz obsługiwać listę synonimów dla wszystkich języków w projekcie, musisz jawnie dodać synonimy do każdego języka. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka .	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Nazwa wstępnie utworzonego składnika wypełniania wstępnie utworzonej jednostki. Wstępnie utworzone jednostki są domyślnie automatycznie ładowane do projektu, ale można je rozszerzać za pomocą składników listy w pliku etykiet.	`MedicationName`
`documents`		Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie.	[]
`location`	`{DOCUMENT-NAME}`	Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinna to być nazwa dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ten plik przechodzi podczas dzielenia przed trenowaniem. Dowiedz się więcej o dzieleniu danych tutaj. Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`regionOffset`		Położenie znaku inkluzywnego początku tekstu.	`0`
`regionLength`		Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie.	`500`
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Pozycja początkowa dla tekstu jednostki.	`25`
`length`		Długość jednostki pod względem znaków UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka .	`en`

Reguły nazewnictwa jednostek

Wstępnie utworzone nazwy jednostek są wstępnie zdefiniowane. Muszą być wypełnione wstępnie utworzonym składnikiem i muszą być zgodne z nazwą jednostki.
Nowe jednostki zdefiniowane przez użytkownika (jednostki ze poznanymi składnikami lub tekstem oznaczonym etykietą) nie mogą używać wstępnie utworzonych nazw jednostek.
Nie można wypełniać nowych jednostek zdefiniowanych przez użytkownika za pomocą wstępnie utworzonych składników, ponieważ wstępnie utworzone składniki muszą być zgodne z nazwami skojarzonych jednostek i nie mają przypisanych do nich danych z etykietami w tablicy dokumentów.

Następne kroki

Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych.
Po zakończeniu etykietowania danych możesz wytrenować model.

Share via

Zaakceptowane formaty danych w niestandardowej analizie tekstu na potrzeby kondycji

Reguły nazewnictwa jednostek

Następne kroki

Dodatkowe zasoby