Analysieren von Video- und Audiodateien mit Azure Media Services

Media Services-Logo v3


Warnung

Azure Media Services wird am 30. Juni 2024 eingestellt. Weitere Informationen finden Sie im Leitfaden zur Einstellung von AMS.

Wichtig

Gemäß seiner Standards zu verantwortungsvoller KI ist Microsoft hinsichtlich KI-Systemen zu Fairness, Datenschutz, Sicherheit und Transparenz verpflichtet. Um diese Standards zu erfüllen, wird die Video Analyzer-Voreinstellung von Azure Media Services am 14. September 2023 eingestellt. Mit dieser Voreinstellung können bislang Video- und Audio-Insights aus Videodateien extrahiert werden. Die derzeit von unseren Kunden verwendeten Workflows können durch den erweiterten Funktionssatz von Azure Video Indexer ersetzt werden.

Mit Media Services können Sie Erkenntnisse aus Ihren Video- und Audiodateien mithilfe der Voreinstellungen der Audio- und Videoanalyse extrahieren. In diesem Artikel werden die Voreinstellungen der Analysetools beschrieben, die zum Extrahieren von Erkenntnissen verwendet werden. Wenn Sie detailliertere Erkenntnisse aus Ihren Videos erhalten möchten, verwenden Sie den Azure Video Indexer-Dienst. Was für die Verwendung von Video Indexer anstelle von Voreinstellungen des Media Services-Analysetools spricht, erfahren Sie im Vergleichsdokument.

Es gibt zwei Modi für die Audioanalysevoreinstellung, Basic und Standard. Weitere Informationen finden Sie in der Beschreibung der Unterschiede unten.

Um Ihren Inhalt mit Media Services v3 zu analysieren, erstellen Sie eine Transformation, und senden Sie einen Auftrag, der eine der folgenden Voreinstellungen verwendet: VideoAnalyzerPreset oder AudioAnalyzerPreset.

Hinweis

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.

Compliance, Datenschutz und Sicherheit

Sie müssen alle geltenden Gesetze bei der Verwendung von Video Indexer einhalten, und Sie dürfen Video Indexer oder einen anderen Azure-Dienst nicht in einer Weise verwenden, die die Rechte anderer verletzt oder für andere schädlich sein kann. Bevor Sie ein Video mit biometrischen Daten zur Verarbeitung und Speicherung in den Video Indexer-Dienst hochladen, müssen Sie über sämtliche erforderlichen Rechte verfügen (einschließlich entsprechender Einwilligungen von den Personen im Video). Informationen zu Compliance, Datenschutz und Sicherheit in Video Indexer finden Sie in den Azure Cognitive Services-Bestimmungen. Informationen zu den Datenschutzauflagen und zur Behandlung Ihrer Daten durch Microsoft finden Sie in den Datenschutzbestimmungen, in den Bestimmungen für Onlinedienste (Online Services Terms, OST) und im Nachtrag zur Datenverarbeitung (Data Processing Addendum, DPA). Weitere Datenschutzinformationen, einschließlich der Vorratsdatenspeicherung, Löschung/Zerstörung, sind in der OST verfügbar. Durch die Nutzung von Video Indexer akzeptieren Sie die Cognitive Services-Bedingungen, die OST, den DPA und die Datenschutzbestimmungen.

Integrierte Voreinstellungen

Media Services unterstützt derzeit die folgenden integrierten Analysevoreinstellungen:

Name der Voreinstellung Szenario / Modus Details
AudioAnalyzerPreset Audio analysieren Standardmodus Die Voreinstellung wendet einen vordefinierten Satz von AI-basierten Analysevorgängen, einschließlich Sprachtranskription, an. Die Voreinstellung unterstützt derzeit die Verarbeitung von Inhalten mit einer einzelnen, einsprachigen Audiospur. Geben Sie die Sprache für die Audionutzlast in der Eingabe an. Verwenden Sie dazu das BCP-47-Format des Tags zur Identifizierung von Sprache und Region. Verfügbare Sprachcodes finden Sie unten in der Liste der unterstützten Sprachen. Die automatische Spracherkennung wählt die erste erkannte Sprache aus und fährt mit der ausgewählten Sprache für die gesamte Datei fort, wenn sie nicht festgelegt oder auf NULL festgelegt ist. Die automatische Spracherkennung unterstützt derzeit Englisch, Chinesisch, Französisch, Deutsch, Italienisch, Japanisch, Spanisch, Russisch und Portugiesisch (Brasilien). Sie unterstützt nicht das dynamische Wechseln zwischen Sprachen, nachdem die erste Sprache erkannt wurde. Die automatische Spracherkennung funktioniert am besten mit Audioaufnahmen mit deutlicher Sprache. Kann die Sprache nicht automatisch erkannt werden, wird standardmäßig Englisch für die Transkription verwendet.
AudioAnalyzerPreset Audio analysieren Basismodus Dieser voreingestellte Modus führt eine Sprache-zu-Text-Transkription und die Generierung einer VTT-Untertitel-/Beschreibungsdatei aus. Die Ausgabe in diesem Modus beinhaltet eine Insights JSON-Datei, die nur die Stichwörter, die Transkription und Zeitinformationen enthält. Eine automatische Spracherkennung und Sprecherdiarisierung sind nicht Bestandteil dieses Modus. Die Liste der unterstützten Sprachen ist mit dem obengenannten Standardmodus identisch.
VideoAnalyzerPreset Analysieren von Audio und Video Extrahiert Erkenntnisse (umfangreiche Metadaten) von Audio- und Videoinhalten und gibt eine Datei im JSON-Format aus. Beim Verarbeiten einer Videodatei können Sie angeben, ob Sie nur Audioerkenntnisse erhalten möchten.
FaceDetectorPreset Erkennen von Gesichtern in Videos Beschreibt die Einstellungen, die bei der Analyse eines Videos verwendet werden, um alle erscheinenden Gesichter zu erkennen

Hinweis

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.

Unterstützte Sprachen

  • Arabisch („ar-BH“, „ar-EG“, „ar-IQ“, „ar-JO“, „ar-KW“, „ar-LB“, „ar-OM“, „ar-QA“, „ar-SA“ und „ar-SY“)
  • Portugiesisch (Brasilien) („pt-BR“)
  • Chinesisch („zh-CN“)
  • Dänisch („da-DK“)
  • Englisch („en-US“, „en-GB“ und „en-AU“)
  • Finnisch („fi-FI“)
  • Französisch („fr-FR“ und „fr-CA“)
  • Deutsch („de-DE“)
  • Hebräisch („he-IL“)
  • Hindi („hi-IN“), Koreanisch („ko-KR“)
  • Italienisch („it-IT“)
  • Japanisch („ja-JP“)
  • Norwegisch („nb-NO“)
  • Persisch („fa-IR“)
  • Portugiesisch (Portugal) („pt-PT“)
  • Russisch („ru-RU“)
  • Spanisch („es-ES“ und „es-MX“)
  • Schwedisch („sv-SE“)
  • Thai („th-TH“)
  • Türkisch („tr-TR“)

Hinweis

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.

AudioAnalyzerPreset-Standardmodus

Die Voreinstellung ermöglicht Ihnen, mehrere Audioinformationen aus einer Audio- oder Videodatei zu extrahieren.

Die Ausgabe enthält eine JSON-Datei (mit allen Informationen) und eine VTT-Datei für die Audiotranskription. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47-Zeichenfolge angibt. Die Audioinformationen umfassen Folgendes:

  • Audiotranskription: ein Transkript des gesprochenen Texts mit Zeitstempeln. Es werden mehrere Sprachen unterstützt.
  • Schlüsselwörter: aus der Audiotranskription extrahierte Schlüsselbegriffe

AudioAnalyzerPreset-Basic-Modus

Die Voreinstellung ermöglicht Ihnen, mehrere Audioinformationen aus einer Audio- oder Videodatei zu extrahieren.

Die Ausgabe enthält eine JSON-Datei und eine VTT-Datei für die Audiotranskription. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47-Zeichenfolge angibt. Die Ausgabe umfasst Folgendes:

  • Audiotranskription: ein Transkript des gesprochenen Texts mit Zeitstempeln. Es werden mehrere Sprachen unterstützt, die automatische Spracherkennung und Sprecherdiarisierung sind aber nicht Bestandteil des Modus.
  • Schlüsselwörter: aus der Audiotranskription extrahierte Schlüsselbegriffe

VideoAnalyzerPreset

Die Voreinstellung ermöglicht Ihnen, mehrere Audio- und Videoinformationen aus einer Videodatei zu extrahieren. Die Ausgabe enthält eine JSON-Datei (mit allen Informationen), eine VTT-Datei für die Videotranskription und eine Sammlung von Miniaturbildern. Diese Voreinstellung akzeptiert auch eine BCP47-Zeichenfolge (die die Sprache des Videos darstellt) als Eigenschaft. Die Videoinformationen umfassen alle oben genannten Audioinformationen sowie die folgenden zusätzlichen Elemente:

  • Gesichtsverfolgung: die Zeit, während der Gesichter im Video zu sehen sind. Jedes Gesicht weist eine Gesichts-ID und eine entsprechende Sammlung von Miniaturbildern auf.
  • Sicherbarer Text: der Text, der über optische Zeichenerkennung ermittelt wird. Der Text ist mit einem Zeitstempel versehen und wird auch zum Extrahieren von Stichwörtern verwendet (zusätzlich zum Audiotranskript).
  • Keyframes: eine Sammlung von Keyframes, die aus dem Video extrahiert werden
  • Moderation visueller Inhalte: der Teil der Videos, der als nicht jugendfrei oder anstößig gekennzeichnet wird
  • Anmerkung: das Ergebnis der Kommentierung der Videos anhand eines vordefinierten Objektmodells

Elemente in „insights.json“

Die Ausgabe umfasst eine JSON-Datei (insights.json) mit allen Informationen, die in der Video- oder Audiodatei gefunden wurden. Die JSON-Datei kann die folgenden Elemente enthalten:

Transkript

Name BESCHREIBUNG
id Die Zeilen-ID.
text Das Transkript selbst.
language Die Sprache des Transkripts. Vorgesehen zur Unterstützung von Transkripts, bei denen jede Zeile eine andere Sprache enthalten kann.
instances Eine Liste der Zeitbereiche, in denen diese Zeile angezeigt wurde. Wenn die Instanz „transcript“ lautet, ist nur eine Instanz vorhanden.

Beispiel:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Name BESCHREIBUNG
id Die OCR-Zeilen-ID.
text Der OCR-Text.
confidence Die Zuverlässigkeit der Erkennung.
language Die OCR-Sprache.
instances Eine Liste der Zeitbereiche, in denen diese OCR angezeigt wurde (die gleiche OCR kann mehrfach vorkommen).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

faces

Name BESCHREIBUNG
id Die Gesichts-ID.
name Der Name des Gesichts. Möglich sind „Unknown #0“, ein identifizierter Prominenter oder eine vom Kunden trainierte Person.
confidence Die Zuverlässigkeit der Gesichtsidentifikation.
description Eine Beschreibung des Prominenten.
thumbnailId Die ID der Miniaturansicht dieses Gesichts.
knownPersonId Die interne ID (bei einer bekannten Person)
referenceId Die Bing-ID (wenn es sich um einen Bing-Prominenten handelt)
referenceType Zurzeit nur Bing.
title Der Titel (z. B. „CEO von Microsoft“ bei einem Prominenten)
imageUrl Die Bild-URL, wenn es sich um einen Prominenten handelt
instances Instanzen, in denen das Gesicht in einem bestimmten Zeitraum zu sehen war Jedes Vorkommen hat auch eine Miniaturbild-ID.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

shots

Name BESCHREIBUNG
id Die ID der Aufnahme.
keyFrames Eine Liste mit Keyframes innerhalb der Aufnahme (jede verfügt über eine ID und eine Liste der Zeitbereiche der Vorkommen). Keyframeinstanzen weisen ein Feld „thumbnailId“ mit der keyFrame-Miniaturansicht-ID auf.
instances Eine Liste der Zeitbereiche dieser Aufnahme (Aufnahmen kommen nur einmal vor).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistics

Name BESCHREIBUNG
CorrespondenceCount Anzahl von Korrespondenzen im Video.
WordCount Die Anzahl von Wörtern pro Sprecher.
SpeakerNumberOfFragments Die Anzahl von Fragmenten, über die ein Sprecher im Video verfügt.
SpeakerLongestMonolog Der längste Monolog des Sprechers. Falls der Sprecher bei seinem Monolog Sprechpausen einlegt, ist diese Zeit mit enthalten. Die Ruhephasen am Anfang und Ende des Monologs werden entfernt.
SpeakerTalkToListenRatio Die Berechnung basiert auf der Zeit für den Monolog des Sprechers (ohne Sprechpausen) geteilt durch die Gesamtzeit des Videos. Der Zeitwert wird auf die dritte Dezimalstelle gerundet.

Bezeichnungen

Name BESCHREIBUNG
id Die Bezeichnungs-ID.
name Der Bezeichnungsname (z. B. „Computer“, „TV“).
language Die Sprache des Bezeichnungsnamens (sofern übersetzt). BCP-47
instances Eine Liste der Zeitbereiche, in denen diese Bezeichnung angezeigt wurde (eine Bezeichnung kann mehrfach vorkommen). Jedes Vorkommen weist ein Zuverlässigkeitsfeld auf.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords

Name BESCHREIBUNG
id Die Stichwort-ID.
text Der Stichworttext.
confidence Die Zuverlässigkeit der Erkennung des Stichworts.
language Die Sprache des Stichworts (sofern übersetzt).
instances Eine Liste der Zeitbereiche, in denen dieses Stichwort angezeigt wurde (ein Stichwort kann mehrfach vorkommen).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Der visualContentModeration-Block enthält Zeitbereiche, für die von Video Indexer Inhalt ermittelt wurde, der unter Umständen nur für Erwachsene geeignet ist. Wenn „visualContentModeration“ leer ist, wurde kein Inhalt als nicht jugendfrei identifiziert.

Videos, für die nicht jugendfreier bzw. freizügiger Inhalt ermittelt wird, sind unter Umständen nur für die private Wiedergabe verfügbar. Benutzer können die Überprüfung des Inhalts durch einen Menschen anfordern. In diesem Fall enthält das Attribut IsAdult das Ergebnis der Überprüfung durch den Menschen.

Name BESCHREIBUNG
id Die ID für die Moderation des visuellen Inhalts.
adultScore Die Bewertung für nicht jugendfreien Inhalt (von Content Moderator).
racyScore Die Bewertung für Freizügigkeit (von Content Moderator).
instances Eine Liste mit Zeitbereichen, in denen diese visuelle Inhaltsmoderation durchgeführt wurde.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Anfordern von Hilfe und Support

Sie können Media Services mit Fragen kontaktieren oder unsere Updates mit einer der folgenden Methoden verfolgen: