Zaakceptowane formaty danych w niestandardowej analizie tekstu na potrzeby kondycji

Skorzystaj z tego artykułu, aby dowiedzieć się więcej na temat formatowania danych do zaimportowania do niestandardowej analizy tekstu na potrzeby kondycji.

Jeśli próbujesz zaimportować dane do Niestandardowa analiza tekstu dla zdrowia, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Plik Labels powinien być w json formacie poniżej, który ma być używany podczas importowania etykiet do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klucz Symbol zastępczy Wartość Przykład
multilingual true Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków , aby dowiedzieć się więcej o obsłudze wielojęzycznej. true
projectName {PROJECT-NAME} Project name (Nazwa projektu) myproject
storageInputContainerName {CONTAINER-NAME} Nazwa kontenera mycontainer
entities Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów.
category Nazwa typu jednostki, który może być zdefiniowany przez użytkownika dla nowych definicji jednostek lub wstępnie zdefiniowany dla wstępnie utworzonych jednostek. Aby uzyskać więcej informacji, zobacz poniższe reguły nazewnictwa jednostek.
compositionSetting {COMPOSITION-SETTING} Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to combineComponents lub separateComponents. combineComponents
list Tablica zawierająca wszystkie podlisty, które znajdują się w projekcie dla określonej jednostki. Listy można dodawać do wstępnie utworzonych jednostek lub nowych jednostek ze poznanymi składnikami.
sublists [] Tablica zawierająca podlisty. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami. []
listKey One Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu. One
synonyms [] Tablica zawierająca wszystkie synonimy Synonim
language {LANGUAGE-CODE} Ciąg określający kod języka synonimu na liście podrzędnej. Jeśli projekt jest projektem wielojęzycznym i chcesz obsługiwać listę synonimów dla wszystkich języków w projekcie, musisz jawnie dodać synonimy do każdego języka. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . en
values "EntityNumberone", "FirstEntity" Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Nazwa wstępnie utworzonego składnika wypełniania wstępnie utworzonej jednostki. Wstępnie utworzone jednostki są domyślnie automatycznie ładowane do projektu, ale można je rozszerzać za pomocą składników listy w pliku etykiet. MedicationName
documents Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. []
location {DOCUMENT-NAME} Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinna to być nazwa dokumentu. doc1.txt
dataset {DATASET} Zestaw testowy, do którego ten plik przechodzi podczas dzielenia przed trenowaniem. Dowiedz się więcej o dzieleniu danych tutaj. Możliwe wartości dla tego pola to Train i Test. Train
regionOffset Położenie znaku inkluzywnego początku tekstu. 0
regionLength Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie. 500
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Pozycja początkowa dla tekstu jednostki. 25
length Długość jednostki pod względem znaków UTF16. 20
language {LANGUAGE-CODE} Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . en

Reguły nazewnictwa jednostek

  1. Wstępnie utworzone nazwy jednostek są wstępnie zdefiniowane. Muszą być wypełnione wstępnie utworzonym składnikiem i muszą być zgodne z nazwą jednostki.
  2. Nowe jednostki zdefiniowane przez użytkownika (jednostki ze poznanymi składnikami lub tekstem oznaczonym etykietą) nie mogą używać wstępnie utworzonych nazw jednostek.
  3. Nie można wypełniać nowych jednostek zdefiniowanych przez użytkownika za pomocą wstępnie utworzonych składników, ponieważ wstępnie utworzone składniki muszą być zgodne z nazwami skojarzonych jednostek i nie mają przypisanych do nich danych z etykietami w tablicy dokumentów.

Następne kroki