Analysera video- och ljudfiler med Azure Media Services

Media Services-logotyp v3


Varning

Azure Media Services dras tillbaka den 30 juni 2024. Mer information finns i AMS Pensionsguide.

Viktigt

Som Microsofts ansvarsfulla AI-standarder beskriver är Microsoft engagerat i rättvisa, sekretess, säkerhet och transparens när det gäller AI-system. För att följa dessa standarder drar Azure Media Services tillbaka förinställningen Video Analyzer den 14 september 2023. Med den här förinställningen kan du extrahera flera video- och ljudinsikter från en videofil. Kunder kan ersätta sina aktuella arbetsflöden med hjälp av den mer avancerade funktionsuppsättningen som erbjuds av Azure Video Indexer.

Med Media Services kan du extrahera insikter från dina video- och ljudfiler med hjälp av förinställningarna för ljud- och videoanalys. I den här artikeln beskrivs de förinställningar för analysverktyg som används för att extrahera insikter. Om du vill ha mer detaljerade insikter från dina videor använder du Azure Video Indexer-tjänsten. Om du vill förstå när du ska använda Förinställningar för Video Indexer jämfört med Media Services-analysverktyg kan du läsa jämförelsedokumentet.

Det finns två lägen för förinställningen Audio Analyzer, basic och standard. Se beskrivningen av skillnaderna i tabellen nedan.

Om du vill analysera ditt innehåll med Media Services v3-förinställningar skapar du en transformering och skickar ett jobb som använder någon av dessa förinställningar: VideoAnalyzerPreset eller AudioAnalyzerPreset.

Anteckning

AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.

Efterlevnad, sekretess och säkerhet

Du måste följa alla tillämpliga lagar i din användning av Video Indexer, och du får inte använda Video Indexer eller någon annan Azure-tjänst på ett sätt som kränker andras rättigheter eller kan vara skadligt för andra. Innan du laddar upp några videor, inklusive biometriska data, till Video Indexer-tjänsten för bearbetning och lagring måste du ha alla rätt rättigheter, inklusive alla lämpliga medgivanden, från individerna i videon. Om du vill veta mer om efterlevnad, sekretess och säkerhet i Video Indexer, villkoren för Azure Cognitive Services. Information om Microsofts sekretessskyldigheter och hantering av dina data finns i Microsofts sekretesspolicy, villkoren för onlinetjänster ("OST") och tillägget för databearbetning ("DPA"). Mer sekretessinformation, inklusive om datakvarhållning, borttagning/destruktion, finns i OST. Genom att använda Video Indexer samtycker du till att vara bunden av Cognitive Services-villkoren, OST, DPA och sekretesspolicyn.

Inbyggda förinställningar

Media Services stöder för närvarande följande inbyggda analysförinställningar:

Förinställt namn Scenario/läge Information
AudioAnalyzerPreset Analysera ljudstandardläge Förinställningen tillämpar en fördefinierad uppsättning AI-baserade analysåtgärder, inklusive talranskription. För närvarande stöder förinställningen bearbetning av innehåll med ett enda ljudspår som innehåller tal på ett enda språk. Ange språket för ljudnyttolasten i indata med BCP-47-formatet för "language tag-region". Se listan med språk som stöds nedan för tillgängliga språkkoder. Den automatiska språkidentifieringen väljer det första språk som identifieras och fortsätter med det valda språket för hela filen om det inte har angetts eller angetts till null. Funktionen för automatisk språkidentifiering stöder för närvarande: engelska, kinesiska, franska, tyska, italienska, japanska, spanska, ryska och brasilianska portugisiska. Det stöder inte dynamisk växling mellan språk när det första språket har identifierats. Funktionen för automatisk språkidentifiering fungerar bäst med ljudinspelningar med tydligt urskiljbart tal. Om automatisk språkidentifiering inte kan hitta språket återgår transkriptionen till engelska.
AudioAnalyzerPreset Analysera grundläggande ljudläge Det här förinställda läget utför tal-till-text-transkription och generering av en VTT-undertext/bildtext fil. Utdata från det här läget innehåller en Insights JSON-fil som endast innehåller nyckelord, transkription och tidsinformation. Automatisk språkidentifiering och talardiarisering ingår inte i det här läget. Listan över språk som stöds är identisk med standardläget ovan.
VideoAnalyzerPreset Analysera ljud och video Extraherar insikter (omfattande metadata) från både ljud och video och matar ut en JSON-formatfil. Du kan ange om du bara vill extrahera ljudinsikter när du bearbetar en videofil.
FaceDetectorPreset Identifiera ansikten som finns i videon Beskriver de inställningar som ska användas när du analyserar en video för att identifiera alla ansikten som finns.

Anteckning

AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.

Språk som stöds

  • Arabiska ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" och "ar-SY")
  • Portugisiska (pt-BR)
  • Kinesiska ('zh-CN')
  • Danska('da-DK')
  • Engelska ("en-US", "en-GB" och "en-AU")
  • Finska (fi-FI)
  • Franska (fr-FR och fr-CA)
  • Tyska ("de-DE")
  • Hebreiska (hebreiska(he-IL)
  • Hindi (hi-IN), koreanska ("ko-KR")
  • Italienska ('it-IT')
  • Japanska ("ja-JP")
  • Norska ('nb-NO')
  • Persiska ('fa-IR')
  • Portugal portugisiska ("pt-PT")
  • Ryska ("ru-RU")
  • Spanska ("es-ES" och "es-MX")
  • Svenska (sv-SE)
  • Thailändska ('th-TH')
  • Turkiska ('tr-TR')

Anteckning

AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.

AudioAnalyzerPreset standardläge

Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.

Utdata innehåller en JSON-fil (med alla insikter) och en VTT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket för indatafilen i form av en BCP47-sträng . Ljudinsikterna omfattar:

  • Ljudavskrift: En transkription av de talade orden med tidsstämplar. Flera språk stöds.
  • Nyckelord: Nyckelord som extraheras från ljudavskriften.

AudioAnalyzerPreset – grundläggande läge

Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.

Utdata innehåller en JSON-fil och en VTT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket för indatafilen i form av en BCP47-sträng . Utdata omfattar:

  • Ljudavskrift: En transkription av de talade orden med tidsstämplar. Flera språk stöds, men automatisk språkidentifiering och talardiarisering ingår inte.
  • Nyckelord: Nyckelord som extraheras från ljudavskriften.

VideoAnalyzerPreset

Med förinställningen kan du extrahera flera ljud- och videoinsikter från en videofil. Utdata innehåller en JSON-fil (med alla insikter), en VTT-fil för videoavskriften och en samling miniatyrbilder. Den här förinställningen accepterar också en BCP47-sträng (som representerar videons språk) som en egenskap. Videoinsikterna innehåller alla ljudinsikter som nämns ovan och följande extra objekt:

  • Ansiktsspårning: Tiden då ansikten finns i videon. Varje ansikte har ett ansikts-ID och en motsvarande samling miniatyrbilder.
  • Visuell text: Den text som identifieras via optisk teckenläsning. Texten är tidsstämplad och används även för att extrahera nyckelord (utöver ljudavskriften).
  • Nyckelrutor: En samling nyckelramar som extraherats från videon.
  • Moderering av visuellt innehåll: Den del av videorna som flaggats som vuxna eller olämpliga till sin natur.
  • Kommentar: Ett resultat av att kommentera videorna baserat på en fördefinierad objektmodell

insights.json element

Utdata innehåller en JSON-fil (insights.json) med alla insikter som finns i videon eller ljudet. JSON kan innehålla följande element:

Utskrift

Name Beskrivning
id Rad-ID: t.
text Själva avskriften.
language Avskriftsspråket. Avsedd att stödja avskrift där varje rad kan ha olika språk.
Instanser En lista över tidsintervall där den här raden visades. Om instansen är avskrift har den bara en instans.

Exempel:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Name Beskrivning
id OCR-rad-ID: t.
text OCR-texten.
konfidensbedömning Erkännandets förtroende.
language OCR-språket.
Instanser En lista över tidsintervall där denna OCR visades (samma OCR kan visas flera gånger).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Ansikten

Name Beskrivning
id Ansikts-ID: t.
name Ansiktsnamnet. Det kan vara "Unknown #0", en identifierad kändis eller en kundutbildad person.
konfidensbedömning Ansiktsigenkänningens konfidens.
beskrivning En beskrivning av kändisen.
thumbnailId ID:t för miniatyrbilden av det ansiktet.
knownPersonId Det interna ID:t (om det är en känd person).
referenceId Bing-ID :t (om det är en Bing-kändis).
referenceType För närvarande är det bara Bing.
title Rubriken (om det är en kändis, till exempel "Microsofts VD").
imageUrl Bild-URL:en, om det är en kändis.
Instanser Instanser där ansiktet uppträdde inom det angivna tidsintervallet. Varje instans har också ett thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Skott

Name Beskrivning
id Skott-ID:t.
Nyckelrutor En lista över nyckelramar i bilden (var och en har ett ID och en lista över instansernas tidsintervall). Nyckelbildruteinstanser har ett thumbnailId-fält med keyFrames miniatyr-ID.
Instanser En lista över tidsintervall för det här skottet (skott har bara en instans).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistik

Name Beskrivning
CorrespondenceCount Antal korrespondenser i videon.
WordCount Antal ord per talare.
SpeakerNumberOfFragments Mängden fragment som talaren har i en video.
SpeakerLongestMonolog Talarens längsta monolog. Om talaren har tystnader inuti monologen ingår den. Tystnad i början och slutet av monologen tas bort.
SpeakerTalkToListenRatio Beräkningen baseras på den tid som ägnas åt talarens monolog (utan tystnaden däremellan) dividerat med videons totala tid. Tiden avrundas till den tredje decimalpunkten.

Etiketter

Name Beskrivning
id Etikett-ID.
name Etikettnamnet (till exempel "Dator", "TV").
language Etikettnamnspråket (när det översätts). BCP-47
Instanser En lista över tidsintervall där den här etiketten visades (en etikett kan visas flera gånger). Varje instans har ett konfidensfält.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

nyckelord

Name Beskrivning
id Nyckelords-ID:t.
text Nyckelordstexten.
konfidensbedömning Nyckelordets igenkänningsförtroende.
language Nyckelordsspråket (när det översätts).
Instanser En lista över tidsintervall där det här nyckelordet visades (ett nyckelord kan visas flera gånger).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

VisualContentModeration-blocket innehåller tidsintervall som Video Indexer upptäckte potentiellt har vuxet innehåll. Om visualContentModeration är tomt finns det inget vuxet innehåll som har identifierats.

Videor som visar sig innehålla olämpligt innehåll eller olämpligt innehåll kan endast vara tillgängliga för privat visning. Användare kan skicka en begäran om en mänsklig granskning av innehållet, i vilket fall IsAdult attributet kommer att innehålla resultatet av den mänskliga granskningen.

Name Beskrivning
id Det visuella innehållsmodererings-ID:t.
adultScore Vuxenpoängen (från content moderator).
racyScore Den vågade poängen (från innehållsmoderering).
Instanser En lista över tidsintervall där den här visuella innehållsmodereringen visades.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Få hjälp och support

Du kan kontakta Media Services med frågor eller följa våra uppdateringar med någon av följande metoder: