Analysera video- och ljudfiler med Azure Media Services

Artikel
01/22/2024

Varning

Azure Media Services dras tillbaka den 30 juni 2024. Mer information finns i AMS Pensionsguide.

Viktigt

Som Microsofts ansvarsfulla AI-standarder beskriver är Microsoft engagerat i rättvisa, sekretess, säkerhet och transparens när det gäller AI-system. För att följa dessa standarder drar Azure Media Services tillbaka förinställningen Video Analyzer den 14 september 2023. Med den här förinställningen kan du extrahera flera video- och ljudinsikter från en videofil. Kunder kan ersätta sina aktuella arbetsflöden med hjälp av den mer avancerade funktionsuppsättningen som erbjuds av Azure Video Indexer.

Med Media Services kan du extrahera insikter från dina video- och ljudfiler med hjälp av förinställningarna för ljud- och videoanalys. I den här artikeln beskrivs de förinställningar för analysverktyg som används för att extrahera insikter. Om du vill ha mer detaljerade insikter från dina videor använder du Azure Video Indexer-tjänsten. Om du vill förstå när du ska använda Förinställningar för Video Indexer jämfört med Media Services-analysverktyg kan du läsa jämförelsedokumentet.

Det finns två lägen för förinställningen Audio Analyzer, basic och standard. Se beskrivningen av skillnaderna i tabellen nedan.

Om du vill analysera ditt innehåll med Media Services v3-förinställningar skapar du en transformering och skickar ett jobb som använder någon av dessa förinställningar: VideoAnalyzerPreset eller AudioAnalyzerPreset.

Anteckning

AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.

Efterlevnad, sekretess och säkerhet

Du måste följa alla tillämpliga lagar i din användning av Video Indexer, och du får inte använda Video Indexer eller någon annan Azure-tjänst på ett sätt som kränker andras rättigheter eller kan vara skadligt för andra. Innan du laddar upp några videor, inklusive biometriska data, till Video Indexer-tjänsten för bearbetning och lagring måste du ha alla rätt rättigheter, inklusive alla lämpliga medgivanden, från individerna i videon. Om du vill veta mer om efterlevnad, sekretess och säkerhet i Video Indexer, villkoren för Azure Cognitive Services. Information om Microsofts sekretessskyldigheter och hantering av dina data finns i Microsofts sekretesspolicy, villkoren för onlinetjänster ("OST") och tillägget för databearbetning ("DPA"). Mer sekretessinformation, inklusive om datakvarhållning, borttagning/destruktion, finns i OST. Genom att använda Video Indexer samtycker du till att vara bunden av Cognitive Services-villkoren, OST, DPA och sekretesspolicyn.

Inbyggda förinställningar

Media Services stöder för närvarande följande inbyggda analysförinställningar:

Förinställt namn	Scenario/läge	Information
AudioAnalyzerPreset	Analysera ljudstandardläge	Förinställningen tillämpar en fördefinierad uppsättning AI-baserade analysåtgärder, inklusive talranskription. För närvarande stöder förinställningen bearbetning av innehåll med ett enda ljudspår som innehåller tal på ett enda språk. Ange språket för ljudnyttolasten i indata med BCP-47-formatet för "language tag-region". Se listan med språk som stöds nedan för tillgängliga språkkoder. Den automatiska språkidentifieringen väljer det första språk som identifieras och fortsätter med det valda språket för hela filen om det inte har angetts eller angetts till null. Funktionen för automatisk språkidentifiering stöder för närvarande: engelska, kinesiska, franska, tyska, italienska, japanska, spanska, ryska och brasilianska portugisiska. Det stöder inte dynamisk växling mellan språk när det första språket har identifierats. Funktionen för automatisk språkidentifiering fungerar bäst med ljudinspelningar med tydligt urskiljbart tal. Om automatisk språkidentifiering inte kan hitta språket återgår transkriptionen till engelska.
AudioAnalyzerPreset	Analysera grundläggande ljudläge	Det här förinställda läget utför tal-till-text-transkription och generering av en VTT-undertext/bildtext fil. Utdata från det här läget innehåller en Insights JSON-fil som endast innehåller nyckelord, transkription och tidsinformation. Automatisk språkidentifiering och talardiarisering ingår inte i det här läget. Listan över språk som stöds är identisk med standardläget ovan.
VideoAnalyzerPreset	Analysera ljud och video	Extraherar insikter (omfattande metadata) från både ljud och video och matar ut en JSON-formatfil. Du kan ange om du bara vill extrahera ljudinsikter när du bearbetar en videofil.
FaceDetectorPreset	Identifiera ansikten som finns i videon	Beskriver de inställningar som ska användas när du analyserar en video för att identifiera alla ansikten som finns.

Anteckning

AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.

Språk som stöds

Arabiska ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" och "ar-SY")
Portugisiska (pt-BR)
Kinesiska ('zh-CN')
Danska('da-DK')
Engelska ("en-US", "en-GB" och "en-AU")
Finska (fi-FI)
Franska (fr-FR och fr-CA)
Tyska ("de-DE")
Hebreiska (hebreiska(he-IL)
Hindi (hi-IN), koreanska ("ko-KR")
Italienska ('it-IT')
Japanska ("ja-JP")
Norska ('nb-NO')
Persiska ('fa-IR')
Portugal portugisiska ("pt-PT")
Ryska ("ru-RU")
Spanska ("es-ES" och "es-MX")
Svenska (sv-SE)
Thailändska ('th-TH')
Turkiska ('tr-TR')

Anteckning

AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.

AudioAnalyzerPreset standardläge

Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.

Utdata innehåller en JSON-fil (med alla insikter) och en VTT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket för indatafilen i form av en BCP47-sträng . Ljudinsikterna omfattar:

Ljudavskrift: En transkription av de talade orden med tidsstämplar. Flera språk stöds.
Nyckelord: Nyckelord som extraheras från ljudavskriften.

AudioAnalyzerPreset – grundläggande läge

Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.

Utdata innehåller en JSON-fil och en VTT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket för indatafilen i form av en BCP47-sträng . Utdata omfattar:

Ljudavskrift: En transkription av de talade orden med tidsstämplar. Flera språk stöds, men automatisk språkidentifiering och talardiarisering ingår inte.
Nyckelord: Nyckelord som extraheras från ljudavskriften.

VideoAnalyzerPreset

Med förinställningen kan du extrahera flera ljud- och videoinsikter från en videofil. Utdata innehåller en JSON-fil (med alla insikter), en VTT-fil för videoavskriften och en samling miniatyrbilder. Den här förinställningen accepterar också en BCP47-sträng (som representerar videons språk) som en egenskap. Videoinsikterna innehåller alla ljudinsikter som nämns ovan och följande extra objekt:

Ansiktsspårning: Tiden då ansikten finns i videon. Varje ansikte har ett ansikts-ID och en motsvarande samling miniatyrbilder.
Visuell text: Den text som identifieras via optisk teckenläsning. Texten är tidsstämplad och används även för att extrahera nyckelord (utöver ljudavskriften).
Nyckelrutor: En samling nyckelramar som extraherats från videon.
Moderering av visuellt innehåll: Den del av videorna som flaggats som vuxna eller olämpliga till sin natur.
Kommentar: Ett resultat av att kommentera videorna baserat på en fördefinierad objektmodell

insights.json element

Utdata innehåller en JSON-fil (insights.json) med alla insikter som finns i videon eller ljudet. JSON kan innehålla följande element:

Utskrift

Name	Beskrivning
id	Rad-ID: t.
text	Själva avskriften.
language	Avskriftsspråket. Avsedd att stödja avskrift där varje rad kan ha olika språk.
Instanser	En lista över tidsintervall där den här raden visades. Om instansen är avskrift har den bara en instans.

Exempel:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Name	Beskrivning
id	OCR-rad-ID: t.
text	OCR-texten.
konfidensbedömning	Erkännandets förtroende.
language	OCR-språket.
Instanser	En lista över tidsintervall där denna OCR visades (samma OCR kan visas flera gånger).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Ansikten

Name	Beskrivning
id	Ansikts-ID: t.
name	Ansiktsnamnet. Det kan vara "Unknown #0", en identifierad kändis eller en kundutbildad person.
konfidensbedömning	Ansiktsigenkänningens konfidens.
beskrivning	En beskrivning av kändisen.
thumbnailId	ID:t för miniatyrbilden av det ansiktet.
knownPersonId	Det interna ID:t (om det är en känd person).
referenceId	Bing-ID :t (om det är en Bing-kändis).
referenceType	För närvarande är det bara Bing.
title	Rubriken (om det är en kändis, till exempel "Microsofts VD").
imageUrl	Bild-URL:en, om det är en kändis.
Instanser	Instanser där ansiktet uppträdde inom det angivna tidsintervallet. Varje instans har också ett thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Skott

Name	Beskrivning
id	Skott-ID:t.
Nyckelrutor	En lista över nyckelramar i bilden (var och en har ett ID och en lista över instansernas tidsintervall). Nyckelbildruteinstanser har ett thumbnailId-fält med keyFrames miniatyr-ID.
Instanser	En lista över tidsintervall för det här skottet (skott har bara en instans).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistik

Name	Beskrivning
CorrespondenceCount	Antal korrespondenser i videon.
WordCount	Antal ord per talare.
SpeakerNumberOfFragments	Mängden fragment som talaren har i en video.
SpeakerLongestMonolog	Talarens längsta monolog. Om talaren har tystnader inuti monologen ingår den. Tystnad i början och slutet av monologen tas bort.
SpeakerTalkToListenRatio	Beräkningen baseras på den tid som ägnas åt talarens monolog (utan tystnaden däremellan) dividerat med videons totala tid. Tiden avrundas till den tredje decimalpunkten.

Etiketter

Name	Beskrivning
id	Etikett-ID.
name	Etikettnamnet (till exempel "Dator", "TV").
language	Etikettnamnspråket (när det översätts). BCP-47
Instanser	En lista över tidsintervall där den här etiketten visades (en etikett kan visas flera gånger). Varje instans har ett konfidensfält.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

nyckelord

Name	Beskrivning
id	Nyckelords-ID:t.
text	Nyckelordstexten.
konfidensbedömning	Nyckelordets igenkänningsförtroende.
language	Nyckelordsspråket (när det översätts).
Instanser	En lista över tidsintervall där det här nyckelordet visades (ett nyckelord kan visas flera gånger).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

VisualContentModeration-blocket innehåller tidsintervall som Video Indexer upptäckte potentiellt har vuxet innehåll. Om visualContentModeration är tomt finns det inget vuxet innehåll som har identifierats.

Videor som visar sig innehålla olämpligt innehåll eller olämpligt innehåll kan endast vara tillgängliga för privat visning. Användare kan skicka en begäran om en mänsklig granskning av innehållet, i vilket fall IsAdult attributet kommer att innehålla resultatet av den mänskliga granskningen.

Name	Beskrivning
id	Det visuella innehållsmodererings-ID:t.
adultScore	Vuxenpoängen (från content moderator).
racyScore	Den vågade poängen (från innehållsmoderering).
Instanser	En lista över tidsintervall där den här visuella innehållsmodereringen visades.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Få hjälp och support

Du kan kontakta Media Services med frågor eller följa våra uppdateringar med någon av följande metoder:

Q & A
Stack Overflow. Tagga frågor med azure-media-services.
@MSFTAzureMedia eller använd @AzureSupport för att begära support.
Öppna en supportbegäran via Azure Portal.

Analysera video- och ljudfiler med Azure Media Services

Efterlevnad, sekretess och säkerhet

Inbyggda förinställningar

Språk som stöds

AudioAnalyzerPreset standardläge

AudioAnalyzerPreset – grundläggande läge

VideoAnalyzerPreset

insights.json element

Utskrift

Ocr

Ansikten

Skott

Statistik

Etiketter

nyckelord

visualContentModeration

Få hjälp och support

Ytterligare resurser