Analýza videosouborů a zvukových souborů pomocí Služby Azure Media Services

Logo Media Services v3


Upozornění

Služba Azure Media Services bude vyřazena 30. června 2024. Další informace najdete v průvodci vyřazením AMS.

Důležité

Jak nastíňují standardy Odpovědné AI společnosti Microsoft, společnost Microsoft se zavázala k spravedlnosti, ochraně osobních údajů, zabezpečení a transparentnosti ve vztahu k systémům AI. V souladu s těmito standardy azure Media Services 14. září 2023 vyřazuje předvolbu Analyzátoru videa. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí, kterou nabízí Azure Video Indexer.

Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru používané k extrakci přehledů. Pokud potřebujete podrobnější přehledy ze svých videí, použijte službu Azure Video Indexer. Pokud chcete zjistit, kdy použít předvolby analyzátoru Video Indexer a Media Services, projděte si dokument o porovnání.

Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní. Projděte si popis rozdílů v následující tabulce.

Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvořte transformaci a odešlete úlohu , která používá jednu z těchto předvoleb: VideoAnalyzerPreset nebo AudioAnalyzerPreset.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Při používání Video Indexeru musíte dodržovat všechny platné zákony a nesmíte Video Indexer ani žádnou jinou službu Azure používat způsobem, který porušuje práva ostatních nebo může být pro ostatní škodlivé. Před nahráním jakýchkoli videí, včetně jakýchkoli biometrických údajů, do služby Video Indexer pro zpracování a uložení, musíte mít všechna příslušná práva, včetně všech příslušných souhlasů, od jednotlivců ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve Video Indexeru najdete v podmínkách služby Azure Cognitive Services. V případě povinností společnosti Microsoft ohledně ochrany osobních údajů a zpracování vašich údajů si projděte prohlášení společnosti Microsoft o zásadách ochrany osobních údajů, podmínky pro online služby ("OST") a dodatek o zpracování dat ("DPA"). Další informace o ochraně osobních údajů, včetně informací o uchovávání, odstranění nebo zničení dat, jsou k dispozici v podmínkách ochrany osobních údajů. Používáním Video Indexeru souhlasíte s tím, že budete vázáni podmínkami služeb Cognitive Services, ost, DPA a Prohlášením o zásadách ochrany osobních údajů.

Předdefinované předvolby

Služba Media Services v současné době podporuje následující předdefinované předvolby analyzátorů:

Název předvolby Scénář nebo režim Podrobnosti
AudioAnalyzerPreset Analýza standardního režimu zvuku Předvolba použije předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době předvolba podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 'language tag-region'. Dostupné kódy jazyků najdete v seznamu podporovaných jazyků níže. Automatické rozpoznávání jazyka zvolí první zjištěný jazyk a pokračuje vybraným jazykem pro celý soubor, pokud není nastavený nebo nastavený na hodnotu null. Funkce automatického rozpoznávání jazyka v současné době podporuje angličtinu, čínštinu, francouzštinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými záznamy s jasně rozpoznatelnou řečí. Pokud se automatickému rozpoznávání jazyka nepodaří jazyk najít, přepis se vrátí do angličtiny.
AudioAnalyzerPreset Analýza zvuku v režimu Basic Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků nebo popis VTT. Výstup tohoto režimu obsahuje soubor JSON přehledů, který obsahuje pouze klíčová slova, přepis a informace o načasování. Automatický rozpoznávání jazyka a diarizace mluvčího nejsou v tomto režimu zahrnuty. Seznam podporovaných jazyků je shodný s výše uvedeným standardním režimem.
VideoAnalyzerPreset Analýza zvuku a videa Extrahuje přehledy (bohatá metadata) ze zvuku i videa a vypíše soubor ve formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru extrahovat jenom zvukové přehledy.
FaceDetectorPreset Rozpoznávání tváří přítomných ve videu Popisuje nastavení, která se mají použít při analýze videa k detekci všech přítomných tváří.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.

Podporované jazyky

  • Arabština ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" a "ar-SY")
  • Brazilská portugalština (pt-BR)
  • Čínština ("zh-CN")
  • Dánština(da-DK)
  • Angličtina ("en-US", "en-GB" a "en-AU"))
  • Finština ("fi-FI")
  • Francouzština (fr-FR a fr-CA)
  • Němčina ("de-DE")
  • Hebrejština (he-IL)
  • Hindština (hi-IN), korejština (ko-KR)
  • Italština (it-IT)
  • Japonština (ja-JP)
  • Norština ("nb-NO")
  • Perština ("fa-IR")
  • Portugalština v Portugalsku ("pt-PT")
  • Ruština (ru-RU)
  • Španělština ("es-ES" a "es-MX")
  • Švédština ("sv-SE")
  • Thajština ("th-TH")
  • Turečtina ("tr-TR")

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá veřejný síťový přístup.

Standardní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.

Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTT pro zvukový přepis. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Mezi přehledy zvuku patří:

  • Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
  • Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.

Základní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat více zvukových přehledů ze zvukového souboru nebo videosouboru.

Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě řetězce BCP47 . Výstup zahrnuje:

  • Přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuty.
  • Klíčová slova: Klíčová slova, která se extrahují z přepisu zvuku.

VideoAnalyzerPreset

Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba přijímá jako vlastnost také řetězec BCP47 (představující jazyk videa). Přehledy videa zahrnují všechny výše uvedené zvukové přehledy a následující dodatečné položky:

  • Sledování tváře: Doba, po kterou se ve videu zobrazují tváře. Každá tvář má ID tváře a odpovídající kolekci miniatur.
  • Vizuální text: Text rozpoznaný pomocí optického rozpoznávání znaků. Text je opatřen časovým razítkem a používá se také k extrahování klíčových slov (kromě přepisu zvuku).
  • Klíčové snímky: Kolekce klíčových snímků extrahovaných z videa.
  • Moderování vizuálního obsahu: Část videí označená jako pro dospělé nebo nesměšná v přírodě.
  • Anotace: Výsledek přidávání poznámek k videím na základě předdefinovaného objektového modelu

insights.json elementy

Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:

Přepis

Název Description
id ID řádku.
text Samotný přepis.
language Jazyk přepisu. Účelem je podpora přepisu, kde každý řádek může mít jiný jazyk.
Instance Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít pouze jednu instanci.

Příklad:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Název Description
id ID řádku OCR.
text Text OCR.
spolehlivost Jistota uznání.
language Jazyk OCR.
Instance Seznam časových rozsahů, ve kterých se tento OCR objevil (stejné OCR se může zobrazit vícekrát).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Tváře

Název Description
id ID tváře.
name Jméno tváře. Může to být Neznámý č. 0, identifikovaná celebrita nebo osoba vyškolená zákazníkem.
spolehlivost Jistota identifikace tváře.
description Popis celebrity.
thumbnailId ID miniatury této tváře.
polePersonId Interní ID (pokud se jedná o známou osobu).
id odkazu ID Bingu (pokud se jedná o celebritu Bingu).
referenční typ V současné době jenom Bing.
title Název (pokud se jedná o celebritu – například "generální ředitel Microsoftu").
Imageurl Adresa URL obrázku, pokud se jedná o celebritu.
Instance Instance, ve kterých se tvář objevila v daném časovém rozsahu. Každá instance má také thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Záběry

Název Description
id ID záběru.
Klíčových snímků Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového rámce.
Instance Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistiky

Název Description
KorespondenceCount Počet korespondencí ve videu
WordCount Počet slov na mluvčího.
SpeakerNumberOfFragments Množství fragmentů, které má mluvčí ve videu.
SpeakerLongestMonolog Mluvčí je nejdelší monolog. Pokud má reproduktor ticho uvnitř monologu, je součástí. Ticho na začátku a konci monologa je odstraněno.
SpeakerTalkToListenRatio Výpočet je založen na času stráveném na monologu mluvčího (bez mlčení mezi) vydělený celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku.

Popisky

Název Description
id ID popisku.
name Název popisku (například "Počítač", "TV").
language Jazyk názvu popisku (při překladu) BCP-47
Instance Seznam časových rozsahů, ve kterých se tento popisek objevil (popisek se může zobrazit vícekrát). Každá instance má pole spolehlivosti.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

klíčová slova

Název Description
id ID klíčového slova.
text Text klíčového slova.
spolehlivost Spolehlivost rozpoznávání klíčového slova
language Jazyk klíčových slov (při překladu)
Instance Seznam časových rozsahů, ve kterých se toto klíčové slovo objevilo (klíčové slovo se může zobrazit vícekrát).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration obsahuje časové rozsahy, u kterých video indexer zjistil, že potenciálně obsahují obsah pro dospělé. Pokud je visualContentModeration prázdný, není k dispozici žádný identifikovaný obsah pro dospělé.

Videa, která obsahují obsah pro dospělé nebo nesměšný obsah, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé mohou odeslat žádost o lidskou kontrolu obsahu. V takovém případě IsAdult atribut bude obsahovat výsledek kontroly člověkem.

Název Description
id ID moderování vizuálního obsahu
adultScore Skóre pro dospělé (z content moderatoru)
racyScore Skóre neracy (z moderování obsahu).
Instance Seznam časových rozsahů, ve kterých se toto moderování vizuálního obsahu objevilo.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Získání nápovědy a podpory

Media Services můžete kontaktovat s dotazy nebo sledovat naše aktualizace jedním z následujících způsobů: