Untersuchen der Azure AI Video Indexer-Ausgabe

Artikel
03/22/2024

Wichtig

Aufgrund der Ankündigung zur Einstellung von Azure Media Services kündigt Azure AI Video Indexer Anpassungen an. Siehe Änderungen im Zusammenhang mit der Einstellung von Azure Media Service (AMS), um zu verstehen, was dies für Ihr Azure AI Video Indexer-Konto bedeutet. Weitere Informationen finden Sie im Leitfaden zur Vorbereitung auf die Einstellung von AMS: VI-Update und -Migration.

Wenn ein Video indiziert wird, erzeugt Azure AI Video Indexer den JSON-Inhalt, der Details der angegebenen Videoerkenntnisse enthält. Die Erkenntnisse umfassen Transkripte, optische Zeichenerkennungselemente (OCRs), Gesichter, Themen, und ähnliche Details. Jeder Erkenntnistyp enthält Instanzen von Zeitbereichen, die anzeigen, wann die Erkenntnis im Video angezeigt wird.

Informationen finden Sie unter Azure AI Video Indexer Insights.

Stammelemente der Erkenntnisse

Name	Beschreibung
`accountId`	Die VI-Konto-ID der Wiedergabeliste.
`id`	Die ID der Wiedergabeliste.
`name`	Der Name der Wiedergabeliste.
`description`	Die Beschreibung der Wiedergabeliste.
`userName`	Der Name des Benutzers, der die Wiedergabeliste erstellt hat.
`created`	Die Erstellungszeit der Wiedergabeliste.
`privacyMode`	Der Datenschutzmodus der Wiedergabeliste (`Private` oder `Public`).
`state`	Der Status der Wiedergabeliste (`Uploaded`, `Processing`, `Processed`, `Failed`oder `Quarantined`).
`isOwned`	Gibt an, ob der aktuelle Benutzer die Wiedergabeliste erstellt hat.
`isEditable`	Gibt an, ob der aktuelle Benutzer zum Bearbeiten der Wiedergabeliste berechtigt ist.
`isBase`	Gibt an, ob die Wiedergabeliste eine Basiswiedergabeliste (ein Video) oder eine Wiedergabeliste ist, die aus anderen Videos zusammengestellt (abgeleitet) wurde.
`durationInSeconds`	Die Gesamtdauer der Wiedergabeliste.
`summarizedInsights`	Die erzeugte JSON-Ausgabe enthält `Insights`- und `SummarizedInsights`-Elemente. Es wird empfohlen, `Insights` anstelle von `SummarizedInsights` (für Abwärtskompatibilität vorhanden) zu verwenden.
`videos`	Eine Liste mit Videos, aus denen die Wiedergabeliste besteht. Wenn diese Wiedergabeliste aus Zeitbereichen anderer Videos (abgeleitet) erstellt wird, enthalten die Videos in dieser Liste nur Daten aus den enthaltenen Zeitbereichen.

{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Tipp

Die erzeugte JSON-Ausgabe enthält Insights- und SummarizedInsights-Elemente. Es wird dringend empfohlen, Insights anstelle von SummarizedInsights zu verwenden (das für die Abwärtskompatibilität vorhanden ist).

Zusammenfassung der Erkenntnisse

In diesem Abschnitt wird eine Zusammenfassung der Erkenntnisse angezeigt.

Attribute	Beschreibung
`name`	Der Name des Videos. Beispiel: `Azure Monitor`
`id`	Die ID des Videos. Beispiel: `63c6d532ff`
`privacyMode`	Ihre Aufschlüsselung kann einen der folgenden Modi aufweisen: Ein Video mit der Eigenschaft `Public` ist für alle Benutzer in Ihrem Konto und alle Benutzer sichtbar, die einen Link zum Video haben. Ein Video mit der Eigenschaft `Private` ist für alle Benutzer Ihres Kontos sichtbar.
`duration`	Der Zeitpunkt in Sekunden, an dem eine Erkenntnis aufgetreten ist.
`thumbnailVideoId`	Die ID des Videos, aus dem die Miniaturansicht entnommen wurde.
`thumbnailId`	Die Miniaturansicht-ID des Videos. Rufen Sie Get-Thumbnail auf und übergeben Sie `thumbnailVideoId` und `thumbnailId`, um die eigentliche Miniaturansicht zu erhalten.
`faces`	Enthält null oder mehr Gesichter. Weitere Informationen finden Sie unter "Gesichter".
`keywords`	Enthält null oder mehr Schlüsselwörter. Weitere Informationen finden Sie unter Schlüsselwörter.
`sentiments`	Enthält null oder mehr Stimmungen. Weitere Informationen finden Sie unter Stimmungen.
`audioEffects`	Enthält null oder mehr Audioeffekte. Weitere Informationen finden Sie unter audioEffects.
`labels`	Enthält null oder mehr Bezeichnungen. Weitere Informationen finden Sie unter Bezeichnungen.
`brands`	Enthält null oder mehr Marken. Weitere Informationen finden Sie unter Marken.
`statistics`	Weitere Informationen finden Sie unter statistics.
`emotions`	Enthält null oder mehrere Emotionen. Weitere Informationen finden Sie unter Emotionen.
`topics`	Enthält null oder mehr Themen. Weitere Informationen finden Sie unter Themen.

Videos

Name	Beschreibung
`accountId`	Die VI-Konto-ID des Videos.
`id`	Die ID des Videos.
`name`	Der Name des Videos.
`state`	Der Status des Videos (`Uploaded`, `Processing`, `Processed`, `Failed` oder `Quarantined`).
`processingProgress`	Der Verarbeitungsfortschritt. Beispiel: `20%`
`failureCode`	Der Fehlercode, wenn das Video nicht verarbeitet werden konnte. Beispiel: `UnsupportedFileType`
`failureMessage`	Die Fehlermeldung, wenn das Video nicht verarbeitet werden konnte.
`externalId`	Die externe ID des Videos (falls vom Benutzer angegeben).
`externalUrl`	Die externe URL des Videos (falls vom Benutzer angegeben).
`metadata`	Die externen Metadaten des Videos (falls vom Benutzer angegeben).
`isAdult`	Gibt an, ob das Video manuell geprüft und als nur für Erwachsene geeignetes Video eingestuft wurde.
`insights`	Das insights-Objekt. Weitere Informationen finden Sie unter insights.
`thumbnailId`	Die Miniaturansicht-ID des Videos. Rufen Sie Get-Thumbnail auf und übergeben Sie die ID des Videos und der Miniaturansicht, um die eigentliche Miniaturansicht zu erhalten.
`publishedUrl`	Eine URL zum Streamen des Videos.
`publishedUrlProxy`	Eine URL, über die das Video auf Apple-Geräten gestreamt werden kann.
`viewToken`	Ein kurzlebiges Anzeigetoken für das Streamen des Videos.
`sourceLanguage`	Die Quellsprache des Videos.
`language`	Die tatsächliche Sprache des Videos (Übersetzung).
`indexingPreset`	Die Voreinstellung, die zum Indizieren des Videos verwendet wird.
`streamingPreset`	Die Voreinstellung, die zum Veröffentlichen des Videos verwendet wird.
`linguisticModelId`	Das CRIS-Modell (Transkriptanpassung), das zum Transkribieren des Videos verwendet wird.
`statistics`	Weitere Informationen finden Sie unter statistics.

{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

insights

Jede Erkenntnis (z. B. Transkriptzeilen, Gesichter oder Marken) enthält eine Liste eindeutiger Elemente (z. B. face1, face2, face3). Jedes Element verfügt über eigene Metadaten und eine Liste seiner Vorkommen, bei denen es sich um Zeitbereiche mit zusätzlichen Metadaten handelt.

Ein Gesicht kann über eine ID, einen Namen, eine Miniaturansicht, andere Metadaten und eine Liste seiner zeitlichen Instanzen verfügen (z 00:00:05 – 00:00:10. B. , , 00:01:00 - 00:02:30und 00:41:21 – 00:41:49). Jede temporale Instanz kann über zusätzliche Metadaten verfügen. Beispielsweise können die Metadaten die Rechteckkoordinaten des Gesichts (20,230,60,60) enthalten.

Version	Codeversion
`sourceLanguage`	Die Ausgangssprache des Videos (vorausgesetzt, es gibt eine Mastersprache) in Form einer BCP-47-Zeichenfolge.
`language`	Die (aus der Ausgangssprache übersetzte) Erkenntnissprache in Form einer BCP-47-Zeichenfolge.
`transcript`	Die Erkenntnis transcript.
`ocr`	Die Erkenntnis OCR.
`keywords`	Die Erkenntnis keywords.
`transcripts`	Enthält möglicherweise ein oder mehrere transcript.
`faces`	Die Erkenntnis faces.
`labels`	Die Erkenntnis labels.
`shots`	Die Erkenntnis shots.
`brands`	Die Erkenntnis brands.
`audioEffects`	Die Erkenntnis audioEffects.
`sentiments`	Die Erkenntnis sentiments.
`visualContentModeration`	Die Erkenntnis visualContentModeration.
`textualContentModeration`	Die Erkenntnis textualContentModeration.
`emotions`	Die Erkenntnis emotions.
`topics`	Die Erkenntnis topics.
`speakers`	Die Erkenntnis speakers.

Beispiel:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

Transkript

Name	Beschreibung
`id`	Die Zeilen-ID.
`text`	Das Transkript selbst.
`confidence`	Der Zuverlässigkeitsgrad für die Transkriptgenauigkeit.
`speakerId`	Die ID des Sprechers.
`language`	Die Sprache des Transkripts. Dies ist zur Unterstützung von Transkripten vorgesehen, bei denen jede Zeile eine andere Sprache enthalten kann.
`instances`	Eine Liste der Zeitbereiche, in denen diese Zeile angezeigt wurde. Wenn sich die Instanz in einer Transkription befindet, hat sie nur eine Instanz.

Beispiel:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

ocr

Name	Beschreibung
`id`	Die Zeilen-ID der OCR.
`text`	Der Text der OCR.
`confidence`	Die Zuverlässigkeit der Erkennung.
`language`	Die Sprache der OCR.
`instances`	Eine Liste der Zeitbereiche, in denen diese OCR vorgekommen ist. (Dieselbe OCR kann mehrmals vorkommen.)
`height`	Die Höhe des OCR-Rechtecks.
`top`	Die oberste Position in Pixel.
`left`	Die linke Position in Pixel.
`width`	Die Breite des OCR-Rechtecks.
`angle`	Der Winkel des OCR-Rechtecks von `-180` bis `180`. Der Wert `0` bedeutet von links nach rechts horizontal. Der Wert `90` bedeutet von oben nach unten vertikal. Der Wert `180` bedeutet von rechts nach links horizontal. Der Wert `-90` bedeutet von unten nach oben vertikal. Der Wert `30` bedeutet von oben links nach unten rechts.

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

keywords

Name	Beschreibung
`id`	Die ID des Schlüsselworts.
`text`	Der Text des Schlüsselworts.
`confidence`	Die Zuverlässigkeit der Erkennung des Schlüsselwort.
`language`	Die Sprache des Stichworts (sofern übersetzt).
`instances`	Eine Liste der Zeitbereiche, in denen dieses Schlüsselwort vorgekommen ist. (Ein Schlüsselwort kann mehrmals vorkommen.)

{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

faces

Wenn Gesichter vorhanden sind, verwendet Azure AI Video Indexer die Gesichts-API auf allen Frames des Videos, um Gesichter und Prominente zu erkennen.

Name	Beschreibung
`id`	Die ID des Gesichts.
`name`	Der Name des Gesichts. Möglich sind `Unknown #0`, ein identifizierter Prominenter oder eine vom Kunden trainierte Person.
`confidence`	Das Maß an Zuverlässigkeit der Gesichtserkennung.
`description`	Eine Beschreibung des Prominenten.
`thumbnailId`	Die ID der Miniaturansicht des Gesichts.
`knownPersonId`	Bei einer bekannten Person die interne ID.
`referenceId`	Wenn es sich um einen Bing-Prominenten handelt, die Bing-ID.
`referenceType`	Zurzeit nur Bing.
`title`	Wenn es sich um einen Prominenten handelt, den Titel der Person. Beispiel: `Microsoft's CEO`
`imageUrl`	Wenn es sich um einen Prominenten handelt, die Bild-URL.
`instances`	Vorkommnisse, in denen das Gesicht im Zeitbereich zu sehen war. Jedes Vorkommen hat auch einen `thumbnailsIds`-Wert.

"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

Bezeichnungen anzeigen

Name	Beschreibung
`id`	Die ID der Bezeichnung.
`name`	Der Name der Bezeichnung. Beispiel: `Computer` oder `TV`.
`language`	Die Sprache des Namens der Bezeichnung (bei Übersetzung) in Form einer BCP-47-Zeichenfolge.
`instances`	Eine Liste der Zeitbereiche, in denen diese Bezeichnung vorgekommen ist. (Eine Bezeichnung kann mehrmals vorkommen.) Jedes Vorkommen weist ein Konfidenzfeld auf.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

scenes

Name	Beschreibung
`id`	Die ID der Szene.
`instances`	Eine Liste mit Zeitbereichen für diese Szene. (Eine Szene kann nur ein Vorkommen haben.)

"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

shots

Name	Beschreibung
`id`	Die ID der Aufnahme.
`keyFrames`	Eine Liste der Keyframes innerhalb der Aufnahme. Jeder verfügt über eine ID und eine Liste von Zeitbereichen des Vorkommens. Jedes Vorkommen eines Keyframes verfügt über ein `thumbnailId`-Feld, das die Miniaturansichts-ID des Keyframes enthält.
`instances`	Eine Liste mit Zeitbereichen für diese Aufnahme. (Eine Aufnahme kann nur ein Vorkommen haben.)

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

brands

Azure AI Video Indexer erkennt Unternehmens- und Produktmarken im Sprach-zu-Text-Transkript und/oder Video OCR. Diese Informationen enthalten keine visuelle Erkennung von Marken oder Logoerkennungen.

Name	Beschreibung
`id`	Die ID der Marke.
`name`	Der Markenname.
`referenceId`	Das Suffix der Wikipedia-URL für die Marke. Beispielsweise ist `Target_Corporation` das Suffix von https://en.wikipedia.org/wiki/Target_Corporation.
`referenceUrl`	Die Wikipedia-URL der Marke, sofern vorhanden. Beispiel: https://en.wikipedia.org/wiki/Target_Corporation
`description`	Die Beschreibung der Marke.
`tags`	Eine Liste mit vordefinierten Tags, die dieser Marke zugeordnet wurden.
`confidence`	Der Vertrauenswert des Azure AI Video Indexer Markendetektors (`0`-`1`).
`instances`	Eine Liste mit Zeitbereichen für diese Marke. Jedes Vorkommen verfügt über einen `brandType`-Wert, mit dem angegeben wird, ob diese Marke im Transkript oder im Rahmen einer OCR vorgekommen ist.

"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

statistics

Name	Beschreibung
`CorrespondenceCount`	Die Anzahl von Korrespondenzen im Video.
`SpeakerWordCount`	Die Anzahl von Wörtern pro Sprecher.
`SpeakerNumberOfFragments`	Die Anzahl von Fragmenten, über die ein Sprecher im Video verfügt.
`SpeakerLongestMonolog`	Der längste Monolog des Sprechers. Falls der Sprecher bei seinem Monolog Sprechpausen einlegt, ist diese Zeit mit enthalten. Die Ruhephasen am Anfang und Ende des Monologs werden entfernt.
`SpeakerTalkToListenRatio`	Die Berechnung basiert auf der Zeit für den Monolog des Sprechers (ohne Sprechpausen) geteilt durch die Gesamtzeit des Videos. Der Zeitwert wird auf die dritte Dezimalstelle gerundet.

audioEffects (Vorschau)

Name	Beschreibung
`id`	Die ID des Audioeffekts.
`type`	Der Typ des Audioeffekts.
`name`	Der Typ des Audioeffekts in der Sprache, in der der JSON-Code indiziert wurde.
`instances`	Eine Liste der Zeitbereiche, in denen dieser Audioeffekt vorkam. Jedes Vorkommen weist ein Zuverlässigkeitsfeld auf.
`start` + `end`	Der Zeitbereich im ursprünglichen Video.
`adjustedStart` + `adjustedEnd`	Vergleich: Zeitbereich und angepasster Zeitbereich.

audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentiments

Die Stimmungen werden nach ihrem sentimentType Feld (Positive, Neutraloder Negative) aggregiert. Beispiel: 0-0.1, 0.1-0.2.

Name	Beschreibung
`id`	Die Stimmungs-ID.
`averageScore`	Der Durchschnitt aller Bewertungen aller Vorkommen dieses Stimmungstyps.
`instances`	Eine Liste der Zeitbereiche, in denen diese Stimmung vorkam.
`sentimentType`	Der Typ kann `Positive`,`Neutral` oder `Negative` sein.

"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

Das visualContentModeration Transkript enthält Zeitbereiche, die azure AI Video Indexer gefunden hat, um potenziell über erwachsene Inhalte zu verfügen. Wenn visualContentModeration leer ist, wurde kein jugendgefährdender Inhalt ermittelt.

Videos, die nicht jugendfreie bzw. freizügige Inhalte enthalten, sind unter Umständen nur für die private Wiedergabe verfügbar. Benutzer können eine Anfrage zur menschlichen Überprüfung des Inhalts übermitteln. In diesem Fall enthält das IsAdult Attribut das Ergebnis der menschlichen Überprüfung.

Name	Beschreibung
`id`	Die ID der Moderation des visuellen Inhalts.
`adultScore`	Die Bewertung für nicht jugendfreien Inhalt (von der Inhaltsmoderation).
`racyScore`	Die Bewertung für Freizügigkeit (von Content Moderator).
`instances`	Eine Liste mit Zeitbereichen, in denen diese visuelle Inhaltsmoderation durchgeführt wurde.

Weitere Informationen zu visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

textualContentModeration

Name	Beschreibung
`id`	Die ID der Textinhaltsmoderation.
`bannedWordsCount`	Die Anzahl von gesperrten Wörtern.
`bannedWordsRatio`	Das Verhältnis von gesperrten Wörtern zur Gesamtzahl der Wörter.

Weitere Informationen zu textualContentModeration

emotions

Azure AI Video Indexer identifiziert Emotionen basierend auf Sprach- und Audiohinweisen.

Name	Beschreibung
`id`	Die ID der Emotion.
`type`	Der Typ einer identifizierten Emotion: `Joy`, `Sadness`, `Anger` oder `Fear`.
`instances`	Eine Liste der Zeitbereiche, in denen diese Emotion aufgetaucht ist.

"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

topics

Azure AI Video Indexer leitet Standard Themen von Transkriptionen ab. Falls möglich, ist eine IPTC-Taxonomie zweiter Ebene eingeschlossen.

Name	Beschreibung
`id`	Die ID des Themas.
`name`	Der Name des Themas. Beispiel: `Pharmaceuticals`
`referenceId`	Breadcrumbs, die die Hierarchie des Themas widerspiegeln. Beispiel: `HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS`
`confidence`	Die Zuverlässigkeitsbewertung im Bereich `0`-`1`. Je höher, desto zuverlässiger.
`language`	Die im Thema verwendete Sprache.
`iptcName`	Falls erkannt, der Codename von IPTC-Medien.
`instances`	Derzeit indiziert Azure AI Video Indexer kein Thema in Zeitintervalle. Das gesamte Video wird als Intervall verwendet.

"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

speakers

Name	Beschreibung
`id`	Die Sprecher-ID.
`name`	Der Name des Sprechers in Form von `Speaker #<number>`. Beispiel: `Speaker #1`
`instances`	Eine Liste der Zeitbereiche, in denen dieser Sprecher vorgekommen ist.

"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},