Analysieren von Video- und Audiodateien mit Azure Media Services
Warnung
Azure Media Services wird am 30. Juni 2024 eingestellt. Weitere Informationen finden Sie im Leitfaden zur Einstellung von AMS.
Wichtig
Gemäß seiner Standards zu verantwortungsvoller KI ist Microsoft hinsichtlich KI-Systemen zu Fairness, Datenschutz, Sicherheit und Transparenz verpflichtet. Um diese Standards zu erfüllen, wird die Video Analyzer-Voreinstellung von Azure Media Services am 14. September 2023 eingestellt. Mit dieser Voreinstellung können bislang Video- und Audio-Insights aus Videodateien extrahiert werden. Die derzeit von unseren Kunden verwendeten Workflows können durch den erweiterten Funktionssatz von Azure Video Indexer ersetzt werden.
Mit Media Services können Sie Erkenntnisse aus Ihren Video- und Audiodateien mithilfe der Voreinstellungen der Audio- und Videoanalyse extrahieren. In diesem Artikel werden die Voreinstellungen der Analysetools beschrieben, die zum Extrahieren von Erkenntnissen verwendet werden. Wenn Sie detailliertere Erkenntnisse aus Ihren Videos erhalten möchten, verwenden Sie den Azure Video Indexer-Dienst. Was für die Verwendung von Video Indexer anstelle von Voreinstellungen des Media Services-Analysetools spricht, erfahren Sie im Vergleichsdokument.
Es gibt zwei Modi für die Audioanalysevoreinstellung, Basic und Standard. Weitere Informationen finden Sie in der Beschreibung der Unterschiede unten.
Um Ihren Inhalt mit Media Services v3 zu analysieren, erstellen Sie eine Transformation, und senden Sie einen Auftrag, der eine der folgenden Voreinstellungen verwendet: VideoAnalyzerPreset oder AudioAnalyzerPreset.
Hinweis
AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.
Compliance, Datenschutz und Sicherheit
Sie müssen alle geltenden Gesetze bei der Verwendung von Video Indexer einhalten, und Sie dürfen Video Indexer oder einen anderen Azure-Dienst nicht in einer Weise verwenden, die die Rechte anderer verletzt oder für andere schädlich sein kann. Bevor Sie ein Video mit biometrischen Daten zur Verarbeitung und Speicherung in den Video Indexer-Dienst hochladen, müssen Sie über sämtliche erforderlichen Rechte verfügen (einschließlich entsprechender Einwilligungen von den Personen im Video). Informationen zu Compliance, Datenschutz und Sicherheit in Video Indexer finden Sie in den Azure Cognitive Services-Bestimmungen. Informationen zu den Datenschutzauflagen und zur Behandlung Ihrer Daten durch Microsoft finden Sie in den Datenschutzbestimmungen, in den Bestimmungen für Onlinedienste (Online Services Terms, OST) und im Nachtrag zur Datenverarbeitung (Data Processing Addendum, DPA). Weitere Datenschutzinformationen, einschließlich der Vorratsdatenspeicherung, Löschung/Zerstörung, sind in der OST verfügbar. Durch die Nutzung von Video Indexer akzeptieren Sie die Cognitive Services-Bedingungen, die OST, den DPA und die Datenschutzbestimmungen.
Integrierte Voreinstellungen
Media Services unterstützt derzeit die folgenden integrierten Analysevoreinstellungen:
Name der Voreinstellung | Szenario / Modus | Details |
---|---|---|
AudioAnalyzerPreset | Audio analysieren Standardmodus | Die Voreinstellung wendet einen vordefinierten Satz von AI-basierten Analysevorgängen, einschließlich Sprachtranskription, an. Die Voreinstellung unterstützt derzeit die Verarbeitung von Inhalten mit einer einzelnen, einsprachigen Audiospur. Geben Sie die Sprache für die Audionutzlast in der Eingabe an. Verwenden Sie dazu das BCP-47-Format des Tags zur Identifizierung von Sprache und Region. Verfügbare Sprachcodes finden Sie unten in der Liste der unterstützten Sprachen. Die automatische Spracherkennung wählt die erste erkannte Sprache aus und fährt mit der ausgewählten Sprache für die gesamte Datei fort, wenn sie nicht festgelegt oder auf NULL festgelegt ist. Die automatische Spracherkennung unterstützt derzeit Englisch, Chinesisch, Französisch, Deutsch, Italienisch, Japanisch, Spanisch, Russisch und Portugiesisch (Brasilien). Sie unterstützt nicht das dynamische Wechseln zwischen Sprachen, nachdem die erste Sprache erkannt wurde. Die automatische Spracherkennung funktioniert am besten mit Audioaufnahmen mit deutlicher Sprache. Kann die Sprache nicht automatisch erkannt werden, wird standardmäßig Englisch für die Transkription verwendet. |
AudioAnalyzerPreset | Audio analysieren Basismodus | Dieser voreingestellte Modus führt eine Sprache-zu-Text-Transkription und die Generierung einer VTT-Untertitel-/Beschreibungsdatei aus. Die Ausgabe in diesem Modus beinhaltet eine Insights JSON-Datei, die nur die Stichwörter, die Transkription und Zeitinformationen enthält. Eine automatische Spracherkennung und Sprecherdiarisierung sind nicht Bestandteil dieses Modus. Die Liste der unterstützten Sprachen ist mit dem obengenannten Standardmodus identisch. |
VideoAnalyzerPreset | Analysieren von Audio und Video | Extrahiert Erkenntnisse (umfangreiche Metadaten) von Audio- und Videoinhalten und gibt eine Datei im JSON-Format aus. Beim Verarbeiten einer Videodatei können Sie angeben, ob Sie nur Audioerkenntnisse erhalten möchten. |
FaceDetectorPreset | Erkennen von Gesichtern in Videos | Beschreibt die Einstellungen, die bei der Analyse eines Videos verwendet werden, um alle erscheinenden Gesichter zu erkennen |
Hinweis
AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.
Unterstützte Sprachen
- Arabisch („ar-BH“, „ar-EG“, „ar-IQ“, „ar-JO“, „ar-KW“, „ar-LB“, „ar-OM“, „ar-QA“, „ar-SA“ und „ar-SY“)
- Portugiesisch (Brasilien) („pt-BR“)
- Chinesisch („zh-CN“)
- Dänisch („da-DK“)
- Englisch („en-US“, „en-GB“ und „en-AU“)
- Finnisch („fi-FI“)
- Französisch („fr-FR“ und „fr-CA“)
- Deutsch („de-DE“)
- Hebräisch („he-IL“)
- Hindi („hi-IN“), Koreanisch („ko-KR“)
- Italienisch („it-IT“)
- Japanisch („ja-JP“)
- Norwegisch („nb-NO“)
- Persisch („fa-IR“)
- Portugiesisch (Portugal) („pt-PT“)
- Russisch („ru-RU“)
- Spanisch („es-ES“ und „es-MX“)
- Schwedisch („sv-SE“)
- Thai („th-TH“)
- Türkisch („tr-TR“)
Hinweis
AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen Zugriff auf das öffentliche Netzwerk hat.
AudioAnalyzerPreset-Standardmodus
Die Voreinstellung ermöglicht Ihnen, mehrere Audioinformationen aus einer Audio- oder Videodatei zu extrahieren.
Die Ausgabe enthält eine JSON-Datei (mit allen Informationen) und eine VTT-Datei für die Audiotranskription. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47-Zeichenfolge angibt. Die Audioinformationen umfassen Folgendes:
- Audiotranskription: ein Transkript des gesprochenen Texts mit Zeitstempeln. Es werden mehrere Sprachen unterstützt.
- Schlüsselwörter: aus der Audiotranskription extrahierte Schlüsselbegriffe
AudioAnalyzerPreset-Basic-Modus
Die Voreinstellung ermöglicht Ihnen, mehrere Audioinformationen aus einer Audio- oder Videodatei zu extrahieren.
Die Ausgabe enthält eine JSON-Datei und eine VTT-Datei für die Audiotranskription. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47-Zeichenfolge angibt. Die Ausgabe umfasst Folgendes:
- Audiotranskription: ein Transkript des gesprochenen Texts mit Zeitstempeln. Es werden mehrere Sprachen unterstützt, die automatische Spracherkennung und Sprecherdiarisierung sind aber nicht Bestandteil des Modus.
- Schlüsselwörter: aus der Audiotranskription extrahierte Schlüsselbegriffe
VideoAnalyzerPreset
Die Voreinstellung ermöglicht Ihnen, mehrere Audio- und Videoinformationen aus einer Videodatei zu extrahieren. Die Ausgabe enthält eine JSON-Datei (mit allen Informationen), eine VTT-Datei für die Videotranskription und eine Sammlung von Miniaturbildern. Diese Voreinstellung akzeptiert auch eine BCP47-Zeichenfolge (die die Sprache des Videos darstellt) als Eigenschaft. Die Videoinformationen umfassen alle oben genannten Audioinformationen sowie die folgenden zusätzlichen Elemente:
- Gesichtsverfolgung: die Zeit, während der Gesichter im Video zu sehen sind. Jedes Gesicht weist eine Gesichts-ID und eine entsprechende Sammlung von Miniaturbildern auf.
- Sicherbarer Text: der Text, der über optische Zeichenerkennung ermittelt wird. Der Text ist mit einem Zeitstempel versehen und wird auch zum Extrahieren von Stichwörtern verwendet (zusätzlich zum Audiotranskript).
- Keyframes: eine Sammlung von Keyframes, die aus dem Video extrahiert werden
- Moderation visueller Inhalte: der Teil der Videos, der als nicht jugendfrei oder anstößig gekennzeichnet wird
- Anmerkung: das Ergebnis der Kommentierung der Videos anhand eines vordefinierten Objektmodells
Elemente in „insights.json“
Die Ausgabe umfasst eine JSON-Datei (insights.json) mit allen Informationen, die in der Video- oder Audiodatei gefunden wurden. Die JSON-Datei kann die folgenden Elemente enthalten:
Transkript
Name | BESCHREIBUNG |
---|---|
id | Die Zeilen-ID. |
text | Das Transkript selbst. |
language | Die Sprache des Transkripts. Vorgesehen zur Unterstützung von Transkripts, bei denen jede Zeile eine andere Sprache enthalten kann. |
instances | Eine Liste der Zeitbereiche, in denen diese Zeile angezeigt wurde. Wenn die Instanz „transcript“ lautet, ist nur eine Instanz vorhanden. |
Beispiel:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
ocr
Name | BESCHREIBUNG |
---|---|
id | Die OCR-Zeilen-ID. |
text | Der OCR-Text. |
confidence | Die Zuverlässigkeit der Erkennung. |
language | Die OCR-Sprache. |
instances | Eine Liste der Zeitbereiche, in denen diese OCR angezeigt wurde (die gleiche OCR kann mehrfach vorkommen). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
faces
Name | BESCHREIBUNG |
---|---|
id | Die Gesichts-ID. |
name | Der Name des Gesichts. Möglich sind „Unknown #0“, ein identifizierter Prominenter oder eine vom Kunden trainierte Person. |
confidence | Die Zuverlässigkeit der Gesichtsidentifikation. |
description | Eine Beschreibung des Prominenten. |
thumbnailId | Die ID der Miniaturansicht dieses Gesichts. |
knownPersonId | Die interne ID (bei einer bekannten Person) |
referenceId | Die Bing-ID (wenn es sich um einen Bing-Prominenten handelt) |
referenceType | Zurzeit nur Bing. |
title | Der Titel (z. B. „CEO von Microsoft“ bei einem Prominenten) |
imageUrl | Die Bild-URL, wenn es sich um einen Prominenten handelt |
instances | Instanzen, in denen das Gesicht in einem bestimmten Zeitraum zu sehen war Jedes Vorkommen hat auch eine Miniaturbild-ID. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
shots
Name | BESCHREIBUNG |
---|---|
id | Die ID der Aufnahme. |
keyFrames | Eine Liste mit Keyframes innerhalb der Aufnahme (jede verfügt über eine ID und eine Liste der Zeitbereiche der Vorkommen). Keyframeinstanzen weisen ein Feld „thumbnailId“ mit der keyFrame-Miniaturansicht-ID auf. |
instances | Eine Liste der Zeitbereiche dieser Aufnahme (Aufnahmen kommen nur einmal vor). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistics
Name | BESCHREIBUNG |
---|---|
CorrespondenceCount | Anzahl von Korrespondenzen im Video. |
WordCount | Die Anzahl von Wörtern pro Sprecher. |
SpeakerNumberOfFragments | Die Anzahl von Fragmenten, über die ein Sprecher im Video verfügt. |
SpeakerLongestMonolog | Der längste Monolog des Sprechers. Falls der Sprecher bei seinem Monolog Sprechpausen einlegt, ist diese Zeit mit enthalten. Die Ruhephasen am Anfang und Ende des Monologs werden entfernt. |
SpeakerTalkToListenRatio | Die Berechnung basiert auf der Zeit für den Monolog des Sprechers (ohne Sprechpausen) geteilt durch die Gesamtzeit des Videos. Der Zeitwert wird auf die dritte Dezimalstelle gerundet. |
Bezeichnungen
Name | BESCHREIBUNG |
---|---|
id | Die Bezeichnungs-ID. |
name | Der Bezeichnungsname (z. B. „Computer“, „TV“). |
language | Die Sprache des Bezeichnungsnamens (sofern übersetzt). BCP-47 |
instances | Eine Liste der Zeitbereiche, in denen diese Bezeichnung angezeigt wurde (eine Bezeichnung kann mehrfach vorkommen). Jedes Vorkommen weist ein Zuverlässigkeitsfeld auf. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
keywords
Name | BESCHREIBUNG |
---|---|
id | Die Stichwort-ID. |
text | Der Stichworttext. |
confidence | Die Zuverlässigkeit der Erkennung des Stichworts. |
language | Die Sprache des Stichworts (sofern übersetzt). |
instances | Eine Liste der Zeitbereiche, in denen dieses Stichwort angezeigt wurde (ein Stichwort kann mehrfach vorkommen). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Der visualContentModeration-Block enthält Zeitbereiche, für die von Video Indexer Inhalt ermittelt wurde, der unter Umständen nur für Erwachsene geeignet ist. Wenn „visualContentModeration“ leer ist, wurde kein Inhalt als nicht jugendfrei identifiziert.
Videos, für die nicht jugendfreier bzw. freizügiger Inhalt ermittelt wird, sind unter Umständen nur für die private Wiedergabe verfügbar. Benutzer können die Überprüfung des Inhalts durch einen Menschen anfordern. In diesem Fall enthält das Attribut IsAdult
das Ergebnis der Überprüfung durch den Menschen.
Name | BESCHREIBUNG |
---|---|
id | Die ID für die Moderation des visuellen Inhalts. |
adultScore | Die Bewertung für nicht jugendfreien Inhalt (von Content Moderator). |
racyScore | Die Bewertung für Freizügigkeit (von Content Moderator). |
instances | Eine Liste mit Zeitbereichen, in denen diese visuelle Inhaltsmoderation durchgeführt wurde. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Anfordern von Hilfe und Support
Sie können Media Services mit Fragen kontaktieren oder unsere Updates mit einer der folgenden Methoden verfolgen:
- Q & A
- Stack Overflow. Markieren Sie Fragen mit
azure-media-services
. - @MSFTAzureMedia oder verwenden Sie @AzureSupport , um Support anzufordern.
- Öffnen Sie ein Supportticket über die Azure-Portal.