Analýza videosouborů a zvukových souborů pomocí Azure Media Services

Upozornění

  1. června 2020 Microsoft oznámil, že nebude prodávat technologii rozpoznávání tváří policejním oddělením v USA, dokud nebude zavedena přísná regulace založená na lidských právech. Zákazníci tak nebudou moci používat funkce rozpoznávání obličeje nebo funkce, které jsou součástí služby Azure video analyze, jako je například Face nebo Azure video Analyzer pro média (dříve Video Indexer), pokud je zákazník nebo pokud je tato služba v rámci USA povolená, nebo pro, policejní oddělení.

logo Media Services verze 3


hledáte dokumentaci k Media Services v2?

Azure Media Services v3 umožňuje extrakci přehledů z vašich videosouborů a zvukových souborů pomocí služby Azure video Analyzer pro média (dřív Video Indexer). tento článek popisuje předvolby analyzátoru Media Services v3 použité k extrakci těchto přehledů. Pokud potřebujete podrobnější přehled, použijte k přímému navýšení videa video Analyzer. chcete-li zjistit, kdy použít analyzátor videa pro předvolby Media vs. Media Services analyzer, projděte si dokument porovnání.

Existují dva režimy předvolby zvukového analyzátoru, Basic a Standard. Podívejte se na popis rozdílů v následující tabulce.

chcete-li analyzovat obsah pomocí přednastavených Media Services v3, vytvořte transformaci a odešlete úlohu , která používá jedno z těchto přednastavení: VideoAnalyzerPreset nebo AudioAnalyzerPreset. Kurz demonstrující použití VideoAnalyzerPreset najdete v tématu analýza videí pomocí Azure Media Services.

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Jako důležité připomenutí musíte dodržovat všechny použitelné zákony v používání analyzátoru videa pro média a nemůžete používat video Analyzer pro multimédia ani jinou službu Azure způsobem, který porušuje práva ostatních nebo můžou být škodlivá jiným uživatelům. Před nahráním videí, včetně jakýchkoli biometrických dat, do analyzátoru videa pro službu Media Service pro zpracování a ukládání, musíte mít všechna patřičná práva, včetně všech příslušných souhlasů, od jednotlivých jednotlivců ve videu. Pokud se chcete dozvědět o dodržování předpisů, ochraně osobních údajů a zabezpečení v analyzátoru videa pro média, Cognitive Services podmínkyAzure. Pro závazky ochrany osobních údajů Microsoftu a jejich zpracování si přečtěte prohlášení o zásadách ochrany osobních údajůod Microsoftu, podmínky online služeb ("OST") a doplněk pro zpracování dat (DPA). Další informace o ochraně osobních údajů, včetně uchovávání, odstranění nebo zničení dat, jsou k dispozici v OST a zde. Pomocí nástroje video Analyzer pro média souhlasíte s tím, že budete vázáni Cognitive Services podmínkami, OST, DPA a prohlášením o zásadách ochrany osobních údajů.

Vestavěná přednastavení

Media Services aktuálně podporuje následující předdefinované předvolby analyzátoru:

Název předvolby Scénář nebo režim Podrobnosti
AudioAnalyzerPreset Analyzuje se standardní režim zvuku. Přednastavení používá předdefinovanou sadu operací analýzy založených na AI, včetně přepisu řeči. V současné době přednastavení podporuje zpracování obsahu pomocí jedné zvukové stopy, která obsahuje řeč v jednom jazyce. Jazyk pro datovou část zvuku ve vstupu můžete určit pomocí formátu BCP-47 pro ' Language tag-region '. podporované jazyky jsou angličtina (' en-US ', ' en-GB ' a ' en-AU '), španělština (' es-es ' a ' es-MX '), francouzština (' fr-fr ' a ' fr-CA '), italština (' it-it '), japonština (' ja-JP '), portugalština (' pt-BR '), čínština (' zh-CN '), němčina (' de-de '), arabština (' ar-BH ', ' ar-EG ', ' ar-sweetiq ', ' ar-JO ', ar-KW ', ' ar-9,1 ', ' ar-OM ', ' ar-QA ', ' ar-SA ' a ' ar-SY '), ruština (' ru-ru '), hindština (' hi-IN '), korejština ("ko-KR"), dánština (' da-DK '), norština (' sv-NO '), švédština (' sv-SE '), finština (' fi-fi '), thajština (' th-th ') a turečtina ( tr-TR.

Pokud jazyk není zadán nebo je nastaven na hodnotu null, automatické rozpoznávání jazyka zvolí první nalezený jazyk a pokračuje s vybraným jazykem po dobu trvání souboru. Funkce automatického rozpoznávání jazyka aktuálně podporuje angličtinu, čínštinu, francouzštinu, němčinu, italštinu, japonštinu, španělštinu, ruštinu a portugalštinu. Po zjištění prvního jazyka nepodporuje dynamické přepínání mezi jazyky. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovým záznamem, který má jasně discernible řeč. Pokud automatické zjišování jazyka nenajde jazyk, přepis se vrátí do angličtiny.
AudioAnalyzerPreset Analýza základního režimu zvuku Tento režim přednastaveného provádí přepis textu a generování VTT souboru titulků a titulků. výstup tohoto režimu zahrnuje Přehledy soubor JSON, včetně informací o klíčových slovech, přepisu a časování. V tomto režimu nejsou zahrnuté automatické rozpoznávání jazyka a diarizationy mluvčího. Seznam podporovaných jazyků je stejný jako standardní režim výše.
VideoAnalyzerPreset Analýza zvuku a videa Extrahuje přehledy (bohatá metadata) z zvukového i videa a vytvoří výstup souboru formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru jenom extrahovat zvukové poznatky. Další informace najdete v tématu Analýza videa.
FaceDetectorPreset Zjištění plošek přítomných ve videu Popisuje nastavení, která se mají použít při analýze videa pro detekci všech plošek přítomných.

Standardní režim AudioAnalyzerPreset

Přednastavení umožňuje extrahovat z zvukového nebo videosouboru více zvukových přehledů.

Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězce. Mezi zvukové poznatky patří:

  • Přepis zvuku: přepis mluvených slov s časovými razítky. Podporuje se několik jazyků.
  • Indexování mluvčího: mapování mluvčích a odpovídajících mluveného slova.
  • Analýza mínění řeči: výstup analýzy mínění provedených na přepisu zvuku.
  • Klíčová slova: klíčová slova, která jsou extrahována ze zvukového přepisu.

Základní režim AudioAnalyzerPreset

Přednastavení umožňuje extrahovat z zvukového nebo videosouboru více zvukových přehledů.

Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězce. Výstup obsahuje:

  • Přepis zvuku: přepis mluvených slov s časovými razítky. Podporuje se víc jazyků, ale nezahrnují se automatické rozpoznávání jazyka a mluvčí diarization.
  • Klíčová slova: klíčová slova, která jsou extrahována ze zvukového přepisu.

VideoAnalyzerPreset

Přednastavení umožňuje extrahovat z videosouboru více zvukových a vizuálních přehledů. Výstup obsahuje soubor JSON (se všemi poznatky), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba také přijímá řetězec BCP47 (představující jazyk videa) jako vlastnost. Video přehledy obsahují všechny výše uvedené zvukové poznatky a následující další položky:

  • Sledování obličeje: čas, během kterého se ve videu nacházejí obličeje. Každá ploška má ID obličeje a odpovídající kolekci miniatur.
  • Vizuální text: text, který se detekuje pomocí optického rozpoznávání znaků. Text je v časovém razítku a používá se také k extrakci klíčových slov (kromě zvukového přepisu).
  • Klíčové snímky: kolekce klíčových snímků extrahovaných z videa.
  • Moderování vizuálního obsahu: část videí označená jako dospělý nebo pikantní.
  • Anotace: výsledek přidávání poznámek k videím na základě předem definovaného objektového modelu

Insights. JSON – elementy

Výstup obsahuje soubor JSON (Insights. JSON) se všemi přehledy, které najdete ve videu nebo ve zvukovém souboru. JSON může obsahovat následující prvky:

záznamy

Název Popis
id ID řádku
text Samotný přepis.
language Jazyk přepisu. Má sloužit k podpoře přepisu, kde každý řádek může mít jiný jazyk.
instance Seznam časových rozsahů, ve kterých se zobrazil tento řádek Pokud je instance přepisu, bude mít pouze jednu instanci.

Příklad:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
] 

OCR

Název Popis
id ID řádku OCR
text Text OCR
spolehlivost Spolehlivost rozpoznávání.
language Jazyk OCR.
instance Seznam časových rozsahů, ve kterých se zobrazilo toto optické rozpoznávání znaků (stejné optické rozpoznávání znaků se může několikrát zobrazit).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

emotikon

Název Popis
id ID obličeje
name Název obličeje Může to být neznámý #0, identifikovaný celebrit nebo osoba školená zákazníkem.
spolehlivost Spolehlivost identifikace obličeje.
description Popis celebrit.
thumbnailId ID miniatury této plochy.
knownPersonId Interní ID (Pokud se jedná o známého uživatele).
referenceId ID Bing (pokud se jedná o Bing celebrit).
Hodnota ReferenceType Momentálně pouze Bing.
title Název (Pokud se jedná o celebrit, například "generální ředitel společnosti Microsoft").
imageUrl Adresa URL obrázku, pokud se jedná o celebrit.
instance Instance, u kterých se v zadaném časovém rozsahu objevila plocha Každá instance má také thumbnailsId.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

řizování

Název Popis
id ID snímku
Klíčové snímky Seznam klíčových snímků v rámci tohoto snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového snímku.
instance Seznam časových rozsahů tohoto snímku (snímky mají pouze 1 instanci).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
            "thumbnailId": "00000000-0000-0000-0000-000000000000",  
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",      
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

týkají

Název Popis
CorrespondenceCount Počet korespondencí ve videu.
WordCount Počet slov na mluvčí.
SpeakerNumberOfFragments Množství fragmentů, které má mluvčí ve videu.
SpeakerLongestMonolog Nejdelší monolog mluvčího. Pokud mluvčí obsahuje tiché v monolog, je součástí této části. Odstraní se tiché na začátku a na konci monolog.
SpeakerTalkToListenRatio Výpočet vychází z doby strávené monologem mluvčího (bez ticha v mezi) dělený celkovým časem videa. Čas se zaokrouhluje na třetí desetinnou čárku.

zabarvení

Zabarvení jsou agregované podle jejich sentimentType pole (kladné/neutrální/záporné). Například 0-0,1, 0,1-0,2.

Název Popis
id ID mínění
averageScore Průměr všech skóre všech instancí tohoto typu mínění-kladný/neutrální/záporný
instance Seznam časových rozsahů, ve kterých se tento mínění objevil.
sentimentType Typ může být "pozitivní", "neutrální" nebo "negativní".
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

popisky

Název Popis
id ID popisku
name Název popisku (například "Computer", "TV").
language Název jazyka popisku (při překladu). BCP – 47
instance Seznam časových rozsahů, ve kterých se tento popisek objevil (popisek se může zobrazit víckrát). Každá instance má pole s jistotou.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

klíčová slova

Název Popis
id ID klíčového slova.
text Text klíčového slova
spolehlivost Spolehlivost rozpoznávání klíčového slova
language Jazyk klíčového slova (při překladu).
instance Seznam časových rozsahů, ve kterých se toto klíčové slovo objevilo (klíčové slovo se může zobrazit víckrát).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
] 

visualContentModeration

Blok visualContentModeration obsahuje časové rozsahy, u kterých analyzátor videa pro média zjistil, že může mít obsah pro dospělé. Pokud je visualContentModeration prázdné, nebyl zjištěn žádný obsah pro dospělé.

Videa, která obsahují obsah pro dospělé nebo neschůdný obsah, můžou být k dispozici pouze pro soukromé zobrazení. Uživatelé mohou odeslat žádost o lidskou recenzi obsahu. V takovém případě atribut bude obsahovat výsledek IsAdult lidské revize.

Název Popis
id ID moderování obsahu vizuálu.
adultScore Skóre pro dospělé (z content moderatoru).
racyScore Skóre rasy (z moderování obsahu).
Instance Seznam časových rozsahů, ve kterých se toto moderování vizuálního obsahu objevilo.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

Další kroky

Kurz: Analýza videa pomocí služby Azure Media Services