Schnellstart: Benutzerdefinierte Textanalyse für Gesundheit

Artikel
12/19/2023

In diesem Artikel lernen Sie, wie Sie ein Projekt für die benutzerdefinierte Textanalyse für Gesundheit erstellen, in dem Sie benutzerdefinierte Modelle auf der Grundlage der Textanalyse für Gesundheit für die Erkennung benutzerdefinierter Entitäten trainieren können. Ein Modell ist KI-Software, die für eine bestimmte Aufgabe trainiert wurde. Für dieses System extrahieren die Modelle gesundheitsbezogene benannte Entitäten und werden durch Lernen anhand von gekennzeichneten Daten trainiert.

In diesem Artikel verwenden wir Language Studio, um wichtige Konzepte der benutzerdefinierten Textanalyse für Gesundheit zu veranschaulichen. Als Beispiel erstellen wir ein Modell für die benutzerdefinierte Textanalyse für Gesundheit, um die Einrichtung oder den Behandlungsort aus kurzen Entlassungsberichten zu extrahieren.

Name	BESCHREIBUNG
Subscription	Ihr Azure-Abonnement.
Ressourcengruppe	Eine Ressourcengruppe, die Ihre Ressource enthält. Sie können eine vorhandene verwenden oder eine neue erstellen.
Region	Die Region Ihrer Sprachressource. Beispiel: „USA, Westen 2“.
Name	Ein Name für Ihre Ressource.
Tarif	Der Tarif für Ihre Sprachressource Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren.

Speicherkontowert	Empfohlener Wert
Speicherkontoname	Beliebiger Name
Speicherkontotyp	Standardmäßiger LRS

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name für Ihr Projekt. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`myProject`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der hier referenzierte Wert gilt für die neueste veröffentlichte Version. Weitere Informationen zu anderen verfügbaren API-Versionen finden Sie unter Modelllebenszyklus.	`2022-05-01`

Schlüssel	Platzhalter	Wert	Beispiel
`multilingual`	`true`	Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung.	`true`
`projectName`	`{PROJECT-NAME}`	Projektname	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Containername	`mycontainer`
`entities`		Dies ist ein Array mit allen Entitätstypen, die im Projekt enthalten sind. Dies sind die Entitätstypen, die aus Ihren Dokumenten extrahiert werden.
`category`		Der Name des Entitätstyps. Dieser kann bei neuen Entitätsdefinitionen benutzerdefiniert und bei vordefinierten Entitäten vordefiniert sein.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind `combineComponents` oder `separateComponents`.	`combineComponents`
`list`		Array mit allen Unterlisten, die im Projekt für eine bestimmte Entität vorhanden sind. Listen können vordefinierten Entitäten oder neuen Entitäten mit gelernten Komponenten hinzugefügt werden.
`sublists`	`[]`	Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar.	`[]`
`listKey`	`One`	Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen.	`One`
`synonyms`	`[]`	Array, das alle Synonyme enthält	Synonym
`language`	`{LANGUAGE-CODE}`	Eine Zeichenfolge, die den Sprachcode für das Synonym in Ihrer Unterliste angibt. Wenn es sich bei Ihrem Projekt um ein mehrsprachiges Projekt handelt und Sie Ihre Synonymliste für alle Sprachen in Ihrem Projekt unterstützen möchten, müssen Sie Ihre Synonyme explizit jeder Sprache hinzufügen. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Der Name der vordefinierten Komponente, die die vordefinierte Entität auffüllt. Vordefinierte Entitäten werden standardmäßig automatisch in Ihr Projekt geladen, können aber mit Listenkomponenten in Ihrer Bezeichnungsdatei erweitert werden.	`MedicationName`
`documents`		Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind.	[]
`location`	`{DOCUMENT-NAME}`	Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dies der Dokumentname sein.	`doc1.txt`
`dataset`	`{DATASET}`	Der Testsatz, in den diese Datei bei der Aufteilung vor dem Training aufgenommen wird. Mögliche Werte für dieses Feld sind `Train` und `Test`.	`Train`
`regionOffset`		Die inklusive Zeichenposition des Textanfangs	`0`
`regionLength`		Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt.	`500`
`category`		Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist	`Entity1`
`offset`		Die Startposition für den Entitätstext	`25`
`length`		Die Länge der Entität in UTF16-Zeichen	`20`
`language`	`{LANGUAGE-CODE}`	Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode für die Sprache aus, die in den meisten Dokumenten verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung.	`en`

Schlüssel	Platzhalter	Wert	Beispiel
modelLabel	`{MODEL-NAME}`	Der Modellname, der Ihrem Modell nach dem erfolgreichen Training zugewiesen wird.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Dies ist die Modellversion, die zum Trainieren des Modells verwendet wird.	`2022-05-01`
evaluationOptions		Option zum Aufteilen Ihrer Daten zwischen Trainings- und Testsätzen	`{}`
kind	`percentage`	Aufteilungsmethoden Mögliche Werte sind `percentage` oder `manual`. Weitere Informationen finden Sie unter Trainieren eines Modells.	`percentage`
trainingSplitPercentage	`80`	Prozentsatz der markierten Daten, die in den Trainingssatz einbezogen werden sollen. Der empfohlene Wert ist `80`.	`80`
testingSplitPercentage	`20`	Prozentsatz der markierten Daten, die in den Testsatz einbezogen werden sollen. Der empfohlene Wert ist `20`.	`20`

Schlüssel	Platzhalter	Wert	Beispiel
`displayName`	`{JOB-NAME}`	Dies ist der Name Ihres Auftrags.	`MyJobName`
`documents`	[{},{}]	Dies ist die Liste der Dokumente, für die Aufgaben ausgeführt werden sollen.	`[{},{}]`
`id`	`{DOC-ID}`	Hierbei handelt es sich um den Namen oder die ID des Dokuments.	`doc1`
`language`	`{LANGUAGE-CODE}`	Dies ist eine Zeichenfolge, die den Sprachcode des Dokuments angibt. Wenn dieser Schlüssel nicht angegeben ist, nimmt der Dienst die Standardsprache des Projekts an, die bei der Projekterstellung ausgewählt wurde. Unter Sprachunterstützung finden sie eine Liste der unterstützten Sprachcodes.	`en-us`
`text`	`{DOC-TEXT}`	Dies ist die Dokumentaufgabe, für die die Aufgaben ausgeführt werden sollen.	`Lorem ipsum dolor sit amet`
`tasks`		Liste der Aufgaben, die ausgeführt werden sollen.	`[]`
`taskName`	`Custom Text Analytics for Health Test`	Aufgabenname	`Custom Text Analytics for Health Test`
`kind`	`CustomHealthcare`	Angabe der gewünschten Art von Projekt oder Aufgabe	`CustomHealthcare`
`parameters`		Dies ist die Liste der Parameter, die an die Aufgabe übergeben werden.
`project-name`	`{PROJECT-NAME}`	Der Name für Ihr Projekt. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	Der Name Ihrer Bereitstellung. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`prod`

Schlüssel	Beispielwert	BESCHREIBUNG
entities	[]	Ein Array, das alle extrahierten Entitäten enthält.
entityComponentKind	`prebuiltComponent`	Eine Variable, die angibt, welche Komponente die spezifische Entität zurückgegeben hat. Mögliche Werte: `prebuiltComponent`, `learnedComponent`, `listComponent`
offset	`0`	Eine Zahl, die den Ausgangspunkt der extrahierten Entität angibt (mittels Indizierung über die Zeichen).
length	`10`	Eine Zahl, die die Länge der extrahierten Entität angibt (als Anzahl von Zeichen).
text	`first entity`	Der Text, der für eine spezifische Entität extrahiert wurde.
category	`MedicationName`	Der Name des Entitätstyps oder der Kategorie, der bzw. die dem extrahierten Text entspricht.
confidenceScore	`0.9`	Eine Zahl zwischen 0 und 1, die den Grad der Gewissheit des Modells in Bezug auf die extrahierte Entität angibt. Je höher der Wert, desto höher die Gewissheit.
assertion	`certainty`	Assertionen, die der extrahierten Entität zugeordnet sind. Assertionen werden nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
name	`Ibuprofen`	Der normalisierte Name für die Entitätsverknüpfung, die der extrahierten Entität zugeordnet ist. Entitätsverknüpfung wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
Verknüpfungen	[]	Ein Array, das alle Ergebnisse der Entitätsverknüpfung enthält, die der extrahierten Entität zugeordnet ist. Entitätsverknüpfung wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
dataSource	`UMLS`	Der Referenzstandard, der sich aus der Entitätsverknüpfung ergibt, die der extrahierten Entität zugeordnet ist. Entitätsverknüpfung wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
ID	`C0020740`	Der Referenzcode, der sich aus der Entitätsverknüpfung ergibt, die der extrahierten Entität zugeordnet ist, die zur extrahierten Datenquelle gehört. Entitätsverknüpfung wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
Relationen	[]	Array, das alle extrahierten Beziehungen enthält. Beziehungsextraktion wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
relationType	`DosageOfMedication`	Die Kategorie der extrahierten Beziehung. Beziehungsextraktion wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.
entities	`"Dosage", "Medication"`	Die Entitäten, die der extrahierten Beziehung zugeordnet sind. Beziehungsextraktion wird nur für vordefinierte Entitäten der Textanalyse für Gesundheit unterstützt.

Freigeben über

Schnellstart: Benutzerdefinierte Textanalyse für Gesundheit

Voraussetzungen

Erstellen einer neuen Azure KI Language-Ressource und eines Azure-Speicherkontos

Erstellen einer neuen Ressource im Azure-Portal

Hochladen von Beispieldaten in den Blobcontainer

Erstellen eines Projekts für die benutzerdefinierte Textanalyse für Gesundheit

Trainieren Ihres Modells

Bereitstellen Ihres Modells

Testen des Modells

Bereinigen von Ressourcen

Voraussetzungen

Erstellen einer neuen Azure KI Language-Ressource und eines Azure-Speicherkontos

Erstellen einer neuen Ressource im Azure-Portal

Hochladen von Beispieldaten in den Blobcontainer

Abrufen Ihrer Ressourcenschlüssel und Endpunkte

Erstellen eines Projekts für die benutzerdefinierte Textanalyse für Gesundheit

Auslösen des Importprojektauftrags

Header

Body

Abrufen des Importauftragsstatus

Anfrage-URL

Header

Trainieren Ihres Modells

Starten des Trainingsauftrags

Header

Anforderungstext

Abrufen des Trainingsauftragsstatus

Anfrage-URL

Header

Antworttext

Bereitstellen Ihres Modells

Starten des Bereitstellungsauftrags

Header

Anforderungstext

Abrufen des Auftragsstatus der Bereitstellung

Header

Antworttext

Treffen von Vorhersagen mit Ihrem trainierten Modell

Übermitteln einer Aufgabe für die benutzerdefinierte Textanalyse für Gesundheit

Header

Body

Antwort

Abrufen der Aufgabenergebnisse

Header

Antworttext

Bereinigen von Ressourcen

Header

Nächste Schritte

Zusätzliche Ressourcen