Analysera video- och ljudfiler med Azure Media Services

Varning

Den 11 juni 2020 meddelade Microsoft att de inte kommer att sälja teknik för ansiktsigenkänning till polismyndigheter i USA förrän starka föreskrifter som rör användningen av dessa tekniker och som bygger på de mänskliga rättigheterna har införts. Därför kan kunder inte använda funktioner för ansiktsigenkänning som ingår i Azure Video Analyze, till exempel Ansiktsigenkänning eller Azure Video Analyzer för media (tidigare Video Indexer), om en kund är eller tillåter användning av sådana tjänster av eller för en polisavdelning på USA.

media services-logotyp v3


Letar du efter Media Services v2-dokumentation?

Azure Media Services v3 kan du extrahera insikter från video- och ljudfiler med Azure Video Analyzer for Media (tidigare Video Indexer). I den här artikeln beskrivs Media Services v3-analysverktygsförinställningar som används för att extrahera dessa insikter. Om du vill ha mer detaljerad information kan du använda Video Analyzer för media direkt. Information om när du ska använda Video Analyzer för media kontra Media Services förinställningar för analysverktyg finns i jämförelsedokumentet.

Det finns två lägen för förinställningen Audio Analyzer, Basic och Standard. Se beskrivningen av skillnaderna i tabellen nedan.

Om du vill analysera ditt innehåll med Media Services v3-förinställningar skapar du en transformering och skickar ett jobb som använder någon av dessa förinställningar: VideoAnalyzerPreset eller AudioAnalyzerPreset. En självstudiekurs som visar hur du använder VideoAnalyzerPreset finns i Analysera videor med Azure Media Services.

Efterlevnad, sekretess och säkerhet

Som en viktig påminnelse måste du följa alla tillämpliga lagar i din användning av Video Analyzer för media, och du får inte använda Video Analyzer för media eller någon annan Azure-tjänst på ett sätt som strider mot andras rättigheter eller kan vara skadligt för andra. Innan du laddar upp videor, inklusive biometriska data, till Video Analyzer for Media-tjänsten för bearbetning och lagring, måste du ha rätt rättigheter, inklusive alla lämpliga medgivanden, från personen i videon. Information om efterlevnad, sekretess och säkerhet i Video Analyzer for Media finns i Azure Cognitive Services villkor. Microsofts sekretesskrav och hantering av dina data finns i Microsofts sekretesspolicy, Villkor för Onlinetjänster ("OST") och tillägget för databehandling ("DPA"). Ytterligare sekretessinformation, inklusive om datalagring, borttagning/destruktion, finns i OST och här. Genom att använda Video Analyzer för media samtycker du till att vara bunden Cognitive Services villkor, OST, DPA och sekretesspolicyn.

Inbyggda förinställningar

Media Services stöder för närvarande följande inbyggda analysförinställningar:

Förinställt namn Scenario/läge Information
AudioAnalyzerPreset Analysera ljud, standardläge Förinställningen tillämpar en fördefinierad uppsättning AI-baserade analysåtgärder, inklusive taltranskriskription. För närvarande stöder förinställningen bearbetning av innehåll med ett enda ljudspår som innehåller tal på ett enda språk. Du kan ange språket för ljudnyttolasten i indata med BCP-47-formatet "language tag-region". Språk som stöds är engelska ('en-US', 'en-GB' och 'en-AU'), spanska ('es-ES' och 'es-MX'), franska ('fr-FR' och 'fr-CA'), italienska ('it-IT'), japanska ('ja-JP'), portugisiska ('pt-BR'), kinesiska ('zh-CN'), tyska ('de-DE'), arabiska ('ar-JPG', "ar-EG", "ar-IQ", "ar-JO", "ar-HP", "ar-LB", "ar-OM", "ar-QA", "ar-SA" och "ar-SY"), ryska ('ru-RU'), hindi ('hi-IN) '), koreanska ('ko-KR'), danska('da-DK'), norska('nb-NO'), svenska('sv-SE'), finska ('fi-FI'), thailändska('th-TH') och turkiska( "tr-TR").

Om språket inte anges eller är inställt på null, väljer automatisk språkidentifiering det första språket som identifierats och fortsätter med det valda språket under filens varaktighet. Funktionen för automatisk språkidentifiering stöder för närvarande engelska, kinesiska, franska, tyska, italienska, japanska, spanska, ryska och portugisiska. Det stöder inte dynamisk växling mellan språk när det första språket har identifierats. Funktionen för automatisk språkidentifiering fungerar bäst med ljudinspelningar med tydligt läsbart tal. Om automatisk språkidentifiering inte kan hitta språket, faller transkriptionen tillbaka till engelska.
AudioAnalyzerPreset Analysera grundläggande ljudläge Det här förinställda läget utför tal-till-text-transkription och generering av en UNDERtextfil FÖRT-TILL-TEXT. Utdata från det här läget innehåller Insights JSON-fil som endast innehåller nyckelord, transkription och tidsinformation. Automatisk språkidentifiering och talardiarisering ingår inte i det här läget. Listan över språk som stöds är identisk med standardläget ovan.
VideoAnalyzerPreset Analysera ljud och video Extraherar insikter (omfattande metadata) från både ljud och video och matar ut en JSON-formatfil. Du kan ange om du bara vill extrahera ljudinsikter när du bearbetar en videofil. Mer information finns i Analysera video.
FaceDetectorPreset Identifiera ansikten som finns i videon Beskriver de inställningar som ska användas när du analyserar en video för att identifiera alla ansikten som finns.

AudioAnalyzerFörbered standardläge

Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.

Utdata innehåller en JSON-fil (med alla insikter) och ENT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket i indatafilen i form av en BCP47-sträng. Ljudinsikterna omfattar:

  • Ljudtranskriskription: En avskrift av talade ord med tidsstämplar. Flera språk stöds.
  • Talarindexering: En mappning av talarna och motsvarande talade ord.
  • Talsentimentanalys: Utdata från attitydanalys som utförs på ljudtranskriskriptionen.
  • Nyckelord: Nyckelord som extraheras från ljudtranskriskriptionen.

AudioAnalyzerFörbered grundläggande läge

Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.

Utdata innehåller en JSON-fil och ENT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket i indatafilen i form av en BCP47-sträng. Utdata innehåller:

  • Ljudtranskriskription: En avskrift av talade ord med tidsstämplar. Flera språk stöds, men automatisk språkidentifiering och talardiarisering ingår inte.
  • Nyckelord: Nyckelord som extraheras från ljudtranskriskriptionen.

VideoAnalyzerPreset

Med förinställningen kan du extrahera flera ljud- och videoinsikter från en videofil. Utdata innehåller en JSON-fil (med alla insikter), en JPT-fil för videoavskriften och en samling miniatyrer. Den här förinställningen accepterar också en BCP47-sträng (som representerar språket i videon) som en egenskap. Videoinsikterna innehåller alla ljudinsikter som nämns ovan och följande ytterligare objekt:

  • Ansiktsspårning: Den tid då ansikten finns i videon. Varje ansikte har ett ansikts-ID och en motsvarande samling miniatyrbilder.
  • Visuell text: Den text som identifieras via optisk teckenläsning. Texten är tidsstämplad och används även för att extrahera nyckelord (förutom ljudavskriften).
  • Nyckeldatorer: En samling nyckelbildrutor som extraherats från videon.
  • Moderering av visuellt innehåll: Den del av videorna som flaggats som vuxet eller racy i naturen.
  • Anteckning: Ett resultat av att kommentera videor baserat på en fördefinierad objektmodell

insights.json-element

Utdata innehåller en JSON-fil (insights.json) med alla insikter som finns i videon eller ljudet. JSON kan innehålla följande element:

Utskrift

Name Beskrivning
id Rad-ID: t.
text Själva avskriften.
language Avskriftsspråket. Avsedd att stödja avskrift där varje rad kan ha olika språk.
Instanser En lista över tidsintervall där den här raden visades. Om instansen är avskrift har den bara 1 instans.

Exempel:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
] 

Ocr

Name Beskrivning
id OCR-rad-ID.
text OCR-texten.
konfidensbedömning Igenkänningsförtroende.
language Språket OCR.
Instanser En lista över tidsintervall där ocr visas (samma OCR kan visas flera gånger).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Ansikten

Name Beskrivning
id Ansikts-ID:t.
name Ansiktsnamnet. Det kan vara "Okänd #0", en identifierad kändis eller en kundtränad person.
konfidensbedömning Ansiktsidentifieringsförtroende.
beskrivning En beskrivning av kändisen.
thumbnailId ID för miniatyrbilden för det ansiktet.
knownPersonId Det interna ID:t (om det är en känd person).
referenceId Det Bing ID:t (om det är en Bing kändis).
referenceType För närvarande är det bara Bing.
title Titeln (om det är en kändis, till exempel "Microsofts VD").
imageUrl Bild-URL:en, om det är en kändis.
Instanser Instanser där ansiktet visades inom det angivna tidsperioden. Varje instans har också ett thumbnailsId.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

Skott

Name Beskrivning
id Bild-ID:t.
Nyckelrutor En lista över nyckelbildrutor i bilden (var och en har ett ID och en lista över tidsintervall för instanser). Instanser av nyckelbildrutor har ett thumbnailId-fält med keyFrames miniatyr-ID.
Instanser En lista över tidsintervall för den här bilden (bilder har bara 1 instans).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
            "thumbnailId": "00000000-0000-0000-0000-000000000000",  
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",      
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistik

Name Beskrivning
CorrespondenceCount Antal överensstämmelsen i videon.
WordCount Antalet ord per talare.
SpeakerNumberOfFragments Mängden fragment som talaren har i en video.
SpeakerLongestMonolog Talarens längsta monolog. Om talaren har tystnad i monologen inkluderas den. Tystnad i början och slutet av monologen tas bort.
SpeakerTalkToListenRatio Beräkningen baseras på den tid som ägnats åt talarens monolog (utan tystnad mittemellan) dividerat med videons totala tid. Tiden avrundas till det tredje decimaltecknet.

Känslor

Sentiment aggregeras med fältet sentimentType (positiv/neutral/negativ). Till exempel 0-0.1, 0.1-0.2.

Name Beskrivning
id Sentiment-ID: t.
averageScore Medelvärdet av alla poäng för alla instanser av den sentimenttypen – positiv/neutral/negativ
Instanser En lista över tidsintervall där den här attityden visades.
sentimentType Typen kan vara "positiv", "neutral" eller "negativ".
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

Etiketter

Name Beskrivning
id Etikett-ID: t.
name Etikettnamnet (till exempel "Dator", "TV").
language Etikettnamnets språk (när det översätts). BCP-47
Instanser En lista över tidsintervall där etiketten visades (en etikett kan visas flera gånger). Varje instans har ett konfidensfält.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

nyckelord

Name Beskrivning
id Nyckelords-ID: t.
text Nyckelordstexten.
konfidensbedömning Nyckelordets konfidens för igenkänning.
language Nyckelordsspråket (när det översätts).
Instanser En lista över tidsintervall där det här nyckelordet visas (ett nyckelord kan visas flera gånger).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
] 

visualContentModeration

VisualContentModeration-blocket innehåller tidsintervall som Video Analyzer for Media har visat sig potentiellt ha vuxet innehåll. Om visualContentModeration är tomt finns det inget vuxet innehåll som har identifierats.

Videor som visar sig innehålla vuxet eller ojämnt innehåll kan vara tillgängliga endast för privat vy. Användare kan skicka en begäran om mänsklig granskning av innehållet, vilket innebär IsAdult att attributet innehåller resultatet av den mänskliga granskningen.

Name Beskrivning
id Det visuella innehållsmodererings-ID:t.
adultScore Poängen för vuxna (från Content Moderator).
racyScore Poängen (från innehållsmoderering).
Instanser En lista över tidsintervall där innehållsmodereringen för det visuella objektet visades.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

Nästa steg

Självstudier: Analysera videor med Azure Media Services