Analysieren von Video- und Audiodateien mit Azure Media Services

Artikel
06/30/2023

Warnung

Azure Media Services wird am 30. Juni 2024 eingestellt. Weitere Informationen finden Sie im Leitfaden zur Einstellung von AMS.

Wichtig

Gemäß seiner Standards zu verantwortungsvoller KI ist Microsoft hinsichtlich KI-Systemen zu Fairness, Datenschutz, Sicherheit und Transparenz verpflichtet. Um diese Standards zu erfüllen, wird die Video Analyzer-Voreinstellung von Azure Media Services am 14. September 2023 eingestellt. Mit dieser Voreinstellung können bislang Video- und Audio-Insights aus Videodateien extrahiert werden. Die derzeit von unseren Kunden verwendeten Workflows können durch den erweiterten Funktionssatz von Azure Video Indexer ersetzt werden.

Mit Media Services können Sie Erkenntnisse aus Ihren Video- und Audiodateien mithilfe der Voreinstellungen der Audio- und Videoanalyse extrahieren. In diesem Artikel werden die Voreinstellungen der Analysetools beschrieben, die zum Extrahieren von Erkenntnissen verwendet werden. Wenn Sie detailliertere Erkenntnisse aus Ihren Videos erhalten möchten, verwenden Sie den Azure Video Indexer-Dienst. Was für die Verwendung von Video Indexer anstelle von Voreinstellungen des Media Services-Analysetools spricht, erfahren Sie im Vergleichsdokument.

Es gibt zwei Modi für die Audioanalysevoreinstellung, Basic und Standard. Weitere Informationen finden Sie in der Beschreibung der Unterschiede unten.

Um Ihren Inhalt mit Media Services v3 zu analysieren, erstellen Sie eine Transformation, und senden Sie einen Auftrag, der eine der folgenden Voreinstellungen verwendet: VideoAnalyzerPreset oder AudioAnalyzerPreset.

Hinweis

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.

Compliance, Datenschutz und Sicherheit

Sie müssen alle geltenden Gesetze bei der Verwendung von Video Indexer einhalten, und Sie dürfen Video Indexer oder einen anderen Azure-Dienst nicht in einer Weise verwenden, die die Rechte anderer verletzt oder für andere schädlich sein kann. Bevor Sie ein Video mit biometrischen Daten zur Verarbeitung und Speicherung in den Video Indexer-Dienst hochladen, müssen Sie über sämtliche erforderlichen Rechte verfügen (einschließlich entsprechender Einwilligungen von den Personen im Video). Informationen zu Compliance, Datenschutz und Sicherheit in Video Indexer finden Sie in den Azure Cognitive Services-Bestimmungen. Informationen zu den Datenschutzauflagen und zur Behandlung Ihrer Daten durch Microsoft finden Sie in den Datenschutzbestimmungen, in den Bestimmungen für Onlinedienste (Online Services Terms, OST) und im Nachtrag zur Datenverarbeitung (Data Processing Addendum, DPA). Weitere Datenschutzinformationen, einschließlich der Vorratsdatenspeicherung, Löschung/Zerstörung, sind in der OST verfügbar. Durch die Nutzung von Video Indexer akzeptieren Sie die Cognitive Services-Bedingungen, die OST, den DPA und die Datenschutzbestimmungen.

Integrierte Voreinstellungen

Media Services unterstützt derzeit die folgenden integrierten Analysevoreinstellungen:

Name der Voreinstellung	Szenario / Modus	Details
AudioAnalyzerPreset	Audio analysieren Standardmodus	Die Voreinstellung wendet einen vordefinierten Satz von AI-basierten Analysevorgängen, einschließlich Sprachtranskription, an. Die Voreinstellung unterstützt derzeit die Verarbeitung von Inhalten mit einer einzelnen, einsprachigen Audiospur. Geben Sie die Sprache für die Audionutzlast in der Eingabe an. Verwenden Sie dazu das BCP-47-Format des Tags zur Identifizierung von Sprache und Region. Verfügbare Sprachcodes finden Sie unten in der Liste der unterstützten Sprachen. Die automatische Spracherkennung wählt die erste erkannte Sprache aus und fährt mit der ausgewählten Sprache für die gesamte Datei fort, wenn sie nicht festgelegt oder auf NULL festgelegt ist. Die automatische Spracherkennung unterstützt derzeit Englisch, Chinesisch, Französisch, Deutsch, Italienisch, Japanisch, Spanisch, Russisch und Portugiesisch (Brasilien). Sie unterstützt nicht das dynamische Wechseln zwischen Sprachen, nachdem die erste Sprache erkannt wurde. Die automatische Spracherkennung funktioniert am besten mit Audioaufnahmen mit deutlicher Sprache. Kann die Sprache nicht automatisch erkannt werden, wird standardmäßig Englisch für die Transkription verwendet.
AudioAnalyzerPreset	Audio analysieren Basismodus	Dieser voreingestellte Modus führt eine Sprache-zu-Text-Transkription und die Generierung einer VTT-Untertitel-/Beschreibungsdatei aus. Die Ausgabe in diesem Modus beinhaltet eine Insights JSON-Datei, die nur die Stichwörter, die Transkription und Zeitinformationen enthält. Eine automatische Spracherkennung und Sprecherdiarisierung sind nicht Bestandteil dieses Modus. Die Liste der unterstützten Sprachen ist mit dem obengenannten Standardmodus identisch.
VideoAnalyzerPreset	Analysieren von Audio und Video	Extrahiert Erkenntnisse (umfangreiche Metadaten) von Audio- und Videoinhalten und gibt eine Datei im JSON-Format aus. Beim Verarbeiten einer Videodatei können Sie angeben, ob Sie nur Audioerkenntnisse erhalten möchten.
FaceDetectorPreset	Erkennen von Gesichtern in Videos	Beschreibt die Einstellungen, die bei der Analyse eines Videos verwendet werden, um alle erscheinenden Gesichter zu erkennen

Hinweis

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.

Unterstützte Sprachen

Arabisch („ar-BH“, „ar-EG“, „ar-IQ“, „ar-JO“, „ar-KW“, „ar-LB“, „ar-OM“, „ar-QA“, „ar-SA“ und „ar-SY“)
Portugiesisch (Brasilien) („pt-BR“)
Chinesisch („zh-CN“)
Dänisch („da-DK“)
Englisch („en-US“, „en-GB“ und „en-AU“)
Finnisch („fi-FI“)
Französisch („fr-FR“ und „fr-CA“)
Deutsch („de-DE“)
Hebräisch („he-IL“)
Hindi („hi-IN“), Koreanisch („ko-KR“)
Italienisch („it-IT“)
Japanisch („ja-JP“)
Norwegisch („nb-NO“)
Persisch („fa-IR“)
Portugiesisch (Portugal) („pt-PT“)
Russisch („ru-RU“)
Spanisch („es-ES“ und „es-MX“)
Schwedisch („sv-SE“)
Thai („th-TH“)
Türkisch („tr-TR“)

Hinweis

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.

AudioAnalyzerPreset-Standardmodus

Die Voreinstellung ermöglicht Ihnen, mehrere Audioinformationen aus einer Audio- oder Videodatei zu extrahieren.

Die Ausgabe enthält eine JSON-Datei (mit allen Informationen) und eine VTT-Datei für die Audiotranskription. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47-Zeichenfolge angibt. Die Audioinformationen umfassen Folgendes:

Audiotranskription: ein Transkript des gesprochenen Texts mit Zeitstempeln. Es werden mehrere Sprachen unterstützt.
Schlüsselwörter: aus der Audiotranskription extrahierte Schlüsselbegriffe

AudioAnalyzerPreset-Basic-Modus

Die Voreinstellung ermöglicht Ihnen, mehrere Audioinformationen aus einer Audio- oder Videodatei zu extrahieren.

Die Ausgabe enthält eine JSON-Datei und eine VTT-Datei für die Audiotranskription. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47-Zeichenfolge angibt. Die Ausgabe umfasst Folgendes:

Audiotranskription: ein Transkript des gesprochenen Texts mit Zeitstempeln. Es werden mehrere Sprachen unterstützt, die automatische Spracherkennung und Sprecherdiarisierung sind aber nicht Bestandteil des Modus.
Schlüsselwörter: aus der Audiotranskription extrahierte Schlüsselbegriffe

VideoAnalyzerPreset

Die Voreinstellung ermöglicht Ihnen, mehrere Audio- und Videoinformationen aus einer Videodatei zu extrahieren. Die Ausgabe enthält eine JSON-Datei (mit allen Informationen), eine VTT-Datei für die Videotranskription und eine Sammlung von Miniaturbildern. Diese Voreinstellung akzeptiert auch eine BCP47-Zeichenfolge (die die Sprache des Videos darstellt) als Eigenschaft. Die Videoinformationen umfassen alle oben genannten Audioinformationen sowie die folgenden zusätzlichen Elemente:

Gesichtsverfolgung: die Zeit, während der Gesichter im Video zu sehen sind. Jedes Gesicht weist eine Gesichts-ID und eine entsprechende Sammlung von Miniaturbildern auf.
Sicherbarer Text: der Text, der über optische Zeichenerkennung ermittelt wird. Der Text ist mit einem Zeitstempel versehen und wird auch zum Extrahieren von Stichwörtern verwendet (zusätzlich zum Audiotranskript).
Keyframes: eine Sammlung von Keyframes, die aus dem Video extrahiert werden
Moderation visueller Inhalte: der Teil der Videos, der als nicht jugendfrei oder anstößig gekennzeichnet wird
Anmerkung: das Ergebnis der Kommentierung der Videos anhand eines vordefinierten Objektmodells

Elemente in „insights.json“

Die Ausgabe umfasst eine JSON-Datei (insights.json) mit allen Informationen, die in der Video- oder Audiodatei gefunden wurden. Die JSON-Datei kann die folgenden Elemente enthalten:

Transkript

Name	BESCHREIBUNG
id	Die Zeilen-ID.
text	Das Transkript selbst.
language	Die Sprache des Transkripts. Vorgesehen zur Unterstützung von Transkripts, bei denen jede Zeile eine andere Sprache enthalten kann.
instances	Eine Liste der Zeitbereiche, in denen diese Zeile angezeigt wurde. Wenn die Instanz „transcript“ lautet, ist nur eine Instanz vorhanden.

Beispiel:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Name	BESCHREIBUNG
id	Die OCR-Zeilen-ID.
text	Der OCR-Text.
confidence	Die Zuverlässigkeit der Erkennung.
language	Die OCR-Sprache.
instances	Eine Liste der Zeitbereiche, in denen diese OCR angezeigt wurde (die gleiche OCR kann mehrfach vorkommen).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

faces

Name	BESCHREIBUNG
id	Die Gesichts-ID.
name	Der Name des Gesichts. Möglich sind „Unknown #0“, ein identifizierter Prominenter oder eine vom Kunden trainierte Person.
confidence	Die Zuverlässigkeit der Gesichtsidentifikation.
description	Eine Beschreibung des Prominenten.
thumbnailId	Die ID der Miniaturansicht dieses Gesichts.
knownPersonId	Die interne ID (bei einer bekannten Person)
referenceId	Die Bing-ID (wenn es sich um einen Bing-Prominenten handelt)
referenceType	Zurzeit nur Bing.
title	Der Titel (z. B. „CEO von Microsoft“ bei einem Prominenten)
imageUrl	Die Bild-URL, wenn es sich um einen Prominenten handelt
instances	Instanzen, in denen das Gesicht in einem bestimmten Zeitraum zu sehen war Jedes Vorkommen hat auch eine Miniaturbild-ID.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

shots

Name	BESCHREIBUNG
id	Die ID der Aufnahme.
keyFrames	Eine Liste mit Keyframes innerhalb der Aufnahme (jede verfügt über eine ID und eine Liste der Zeitbereiche der Vorkommen). Keyframeinstanzen weisen ein Feld „thumbnailId“ mit der keyFrame-Miniaturansicht-ID auf.
instances	Eine Liste der Zeitbereiche dieser Aufnahme (Aufnahmen kommen nur einmal vor).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistics

Name	BESCHREIBUNG
CorrespondenceCount	Anzahl von Korrespondenzen im Video.
WordCount	Die Anzahl von Wörtern pro Sprecher.
SpeakerNumberOfFragments	Die Anzahl von Fragmenten, über die ein Sprecher im Video verfügt.
SpeakerLongestMonolog	Der längste Monolog des Sprechers. Falls der Sprecher bei seinem Monolog Sprechpausen einlegt, ist diese Zeit mit enthalten. Die Ruhephasen am Anfang und Ende des Monologs werden entfernt.
SpeakerTalkToListenRatio	Die Berechnung basiert auf der Zeit für den Monolog des Sprechers (ohne Sprechpausen) geteilt durch die Gesamtzeit des Videos. Der Zeitwert wird auf die dritte Dezimalstelle gerundet.

Bezeichnungen

Name	BESCHREIBUNG
id	Die Bezeichnungs-ID.
name	Der Bezeichnungsname (z. B. „Computer“, „TV“).
language	Die Sprache des Bezeichnungsnamens (sofern übersetzt). BCP-47
instances	Eine Liste der Zeitbereiche, in denen diese Bezeichnung angezeigt wurde (eine Bezeichnung kann mehrfach vorkommen). Jedes Vorkommen weist ein Zuverlässigkeitsfeld auf.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords

Name	BESCHREIBUNG
id	Die Stichwort-ID.
text	Der Stichworttext.
confidence	Die Zuverlässigkeit der Erkennung des Stichworts.
language	Die Sprache des Stichworts (sofern übersetzt).
instances	Eine Liste der Zeitbereiche, in denen dieses Stichwort angezeigt wurde (ein Stichwort kann mehrfach vorkommen).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Der visualContentModeration-Block enthält Zeitbereiche, für die von Video Indexer Inhalt ermittelt wurde, der unter Umständen nur für Erwachsene geeignet ist. Wenn „visualContentModeration“ leer ist, wurde kein Inhalt als nicht jugendfrei identifiziert.

Videos, für die nicht jugendfreier bzw. freizügiger Inhalt ermittelt wird, sind unter Umständen nur für die private Wiedergabe verfügbar. Benutzer können die Überprüfung des Inhalts durch einen Menschen anfordern. In diesem Fall enthält das Attribut IsAdult das Ergebnis der Überprüfung durch den Menschen.

Name	BESCHREIBUNG
id	Die ID für die Moderation des visuellen Inhalts.
adultScore	Die Bewertung für nicht jugendfreien Inhalt (von Content Moderator).
racyScore	Die Bewertung für Freizügigkeit (von Content Moderator).
instances	Eine Liste mit Zeitbereichen, in denen diese visuelle Inhaltsmoderation durchgeführt wurde.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Anfordern von Hilfe und Support

Sie können Media Services mit Fragen kontaktieren oder unsere Updates mit einer der folgenden Methoden verfolgen:

Q & A
Stack Overflow. Markieren Sie Fragen mit azure-media-services.
@MSFTAzureMedia oder verwenden Sie @AzureSupport , um Support anzufordern.
Öffnen Sie ein Supportticket über die Azure-Portal.

Analysieren von Video- und Audiodateien mit Azure Media Services

Compliance, Datenschutz und Sicherheit

Integrierte Voreinstellungen

Unterstützte Sprachen

AudioAnalyzerPreset-Standardmodus

AudioAnalyzerPreset-Basic-Modus

VideoAnalyzerPreset

Elemente in „insights.json“

Transkript

ocr

faces

shots

statistics

Bezeichnungen

keywords

visualContentModeration

Anfordern von Hilfe und Support

Zusätzliche Ressourcen