Examinar a saída do Indexador de Vídeo de IA do Azure

Importante

Devido ao anúncio da desativação dos Serviços de Mídia do Azure, o Indexador de Vídeo de IA do Azure anuncia ajustes de recursos do Indexador de Vídeo de IA do Azure. Consulte Alterações relacionadas à desativação do AMS (Serviço de Mídia do Azure) para entender o que isso significa para sua conta do Indexador de Vídeo de IA do Azure. Consulte o Guia de atualização e migração Preparando para a aposentadoria do AMS: VI.

Quando um vídeo é indexado, o Indexador de Vídeo de IA do Azure produz o conteúdo JSON que contém detalhes dos insights de vídeo especificados. Os insights incluem transcrições, elementos de OCR (reconhecimento óptico de caracteres), rostos, tópicos, blocos e detalhes semelhantes. Cada tipo de insight inclui instâncias de intervalos de tempo que mostram quando o insight aparece no vídeo.

Para obter informações, consulte Azure AI Video Indexer insights.

Elementos raiz dos insights

Nome Descrição
accountId ID da conta VI da lista de reprodução.
id ID. da lista de reprodução.
name Nome da lista de reprodução.
description Descrição da lista de reprodução.
userName O nome do usuário que criou a lista de reprodução.
created Hora de criação da lista de reprodução.
privacyMode O modo de privacidade da playlist (Private ou Public).
state O estado da playlist (Uploaded, Processing, Processed, Failed ou Quarantined).
isOwned Indica se o usuário atual criou a playlist.
isEditable Indica se o usuário atual está autorizado a editar a lista de reprodução.
isBase Indica se a lista de reprodução é uma lista de reprodução básica (um vídeo) ou uma lista de reprodução de outros vídeos (derivados).
durationInSeconds A duração total da lista de reprodução.
summarizedInsights A saída JSON produzida contém os elementos Insights e SummarizedInsights. É recomendável usar Insights e não usar SummarizedInsights (que está presente para compatibilidade com versões anteriores).
videos Uma lista dos vídeos que compõem a playlist.
Se esta lista de reprodução for construída com intervalos de tempo de outros vídeos (derivados), os vídeos nesta lista conterão apenas dados dos intervalos de tempo incluídos.
{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Dica

A saída JSON produzida contém os elementos Insights e SummarizedInsights. É altamente recomendável usar Insights e não usar SummarizedInsights (o que está presente para compatibilidade com versões anteriores).

Resumo dos insights

Esta seção mostra um resumo dos insights.

Atributo Descrição
name O nome do vídeo. Por exemplo: Azure Monitor.
id A ID do vídeo. Por exemplo: 63c6d532ff.
privacyMode Seu detalhamento pode ter um dos seguintes modos: um vídeo Public é visível para todos em sua conta e qualquer pessoa que tenha um link para o vídeo. Um vídeo Private é visível para todos em sua conta.
duration A hora em que ocorreu um insight, em segundos.
thumbnailVideoId A ID do vídeo da qual a miniatura foi tirada.
thumbnailId A ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe sua thumbnailVideoId e thumbnailId.
faces Contém zero ou mais rostos. Para obter mais informações, consulte rostos.
keywords Contém zero ou mais palavras-chave. Para obter mais informações, consulte palavras-chave.
sentiments Contém zero ou mais sentimentos. Para obter mais informações, consulte sentimentos.
audioEffects Contém zero ou mais efeitos de áudio. Para obter mais informações, consulte Efeitos de áudio.
labels Contém zero ou mais etiquetas. Para obter mais informações, consulte etiquetas.
brands Contém zero ou mais marcas. Para obter mais informações, consulte marcas.
statistics Para obter mais informações, consulte estatísticas.
emotions Contém zero ou mais emoções. Para obter mais informações, consulte emoções.
topics Contém zero ou mais tópicos. Para obter mais informações, consulte tópicos

vídeos

Nome Descrição
accountId A ID da conta VI do vídeo.
id ID do vídeo.
name Nome do vídeo.
state O estado do vídeo (Uploaded, Processing, Processed, Failedou Quarantined).
processingProgress O progresso durante o processamento. Por exemplo: 20%.
failureCode O código da falha se o processamento do vídeo tiver falhado. Por exemplo: UnsupportedFileType.
failureMessage A mensagem da falha se o processamento do vídeo tiver falhado.
externalId A ID externa do vídeo (se o usuário especificar uma).
externalUrl A URL externa do vídeo (se o usuário especificar uma).
metadata Os metadados externos do vídeo (se o usuário especificar um).
isAdult Indica se o vídeo foi revisado manualmente e identificado como um vídeo adulto.
insights O objeto de insights. Para obter mais informações, consulte insights.
thumbnailId A ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe sua ID do vídeo e ID de miniatura.
publishedUrl Uma URL para transmitir o vídeo.
publishedUrlProxy Uma URL para transmitir o vídeo em dispositivos Apple.
viewToken Um token de visualização de curta duração para transmitir o vídeo.
sourceLanguage O idioma de origem do vídeo.
language O idioma real do vídeo (tradução).
indexingPreset A predefinição usada para indexar o vídeo.
streamingPreset A predefinição usada para publicar o vídeo.
linguisticModelId O modelo de personalização de transcrição (CRIS) usado para transcrever o vídeo.
statistics Para obter mais informações, consulte estatísticas.
{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

insights

Cada insight (por exemplo, linhas de transcrição, rostos ou marcas) contém uma lista de elementos exclusivos (por exemplo, face1, face2, face3). Cada elemento tem seus próprios metadados e uma lista de suas instâncias, que são intervalos de tempo com metadados adicionais.

Um rosto pode ter um ID, um nome, uma miniatura, outros metadados e uma lista de suas instâncias temporais (por exemplo, 00:00:05 – 00:00:10, 00:01:00 - 00:02:30e 00:41:21 – 00:41:49). Cada instância temporal pode ter metadados adicionais. Por exemplo, os metadados podem incluir as coordenadas de retângulo do rosto (20,230,60,60).

Versão A versão do código
sourceLanguage O idioma de origem do vídeo (supondo um idioma mestre), na forma de uma cadeia de caracteres BCP-47.
language O idioma de insights (traduzido do idioma de origem), na forma de uma cadeia de caracteres BCP-47.
transcript O insight transcript.
ocr O insight OCR.
keywords O insight keywords.
transcripts Pode conter uma ou mais transcrições.
faces Os rostos insight.
labels O insight labels.
shots O insight shots.
brands O insight brands.
audioEffects O insight audioEffects.
sentiments O insight sentiments.
visualContentModeration O insight visualContentModeration.
textualContentModeration O insight textualContentModeration.
emotions O insight emotions.
topics O insight topics.
speakers O insight speakers.

Exemplo:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

transcript

Nome Descrição
id A ID da linha.
text A própria transcrição.
confidence O nível de confiança para precisão da transcrição.
speakerId A ID do locutor.
language O idioma da transcrição. Tem o objetivo dar suporte às transcrições na qual cada linha pode ter um idioma diferente.
instances Uma lista com os intervalos de tempo nos quais essa linha apareceu. Se a instância estiver em uma transcrição, ela terá apenas uma instância.

Exemplo:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

ocr

Nome Descrição
id A ID da linha do OCR.
text O texto do OCR.
confidence A confiança do reconhecimento.
language O idioma do OCR.
instances Uma lista com os intervalos de tempo nos quais esse OCR apareceu. (O mesmo OCR pode aparecer várias vezes.)
height A altura do retângulo do OCR.
top O local acima, em pixels.
left O local à esquerda, em pixels.
width A largura do retângulo do OCR.
angle O ângulo do retângulo do OCR, de -180 a 180. Um valor de 0 significa horizontal da esquerda para a direita. Um valor de 90 significa vertical de cima para baixo. Um valor de 180 significa horizontal da direita para a esquerda. Um valor de -90 significa vertical de baixo para cima. Um valor de 30 significa da esquerda superior para a direita inferior.
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

palavras-chave

Nome Descrição
id A ID da palavra-chave.
text O texto da palavra-chave.
confidence A confiança do reconhecimento na palavra-chave.
language O idioma da palavra-chave (quando traduzida).
instances Uma lista de intervalos de tempo em que essa palavra-chave apareceu. (Uma palavra-chave pode aparecer várias vezes.)
{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

faces

Se os rostos estiverem presentes, o Indexador de Vídeo de IA do Azure usará a API Face em todos os quadros do vídeo para detectar rostos e celebridades.

Nome Descrição
id A ID do rosto.
name O nome da face. Pode ser Unknown #0, uma celebridade identificada ou uma pessoa treinada pelo cliente.
confidence O nível de confiança na identificação facial.
description Uma descrição da celebridade.
thumbnailId O ID da miniatura da face.
knownPersonId A ID interna, se for uma pessoa conhecida.
referenceId A ID do Bing, se for uma celebridade do Bing.
referenceType No momento, apenas Bing.
title Se for uma celebridade, o título da pessoa. Por exemplo: Microsoft's CEO.
imageUrl A URL da imagem, se for uma celebridade.
instances Instâncias de onde o rosto apareceu no intervalo de tempo. Cada instância também tem um valor thumbnailsIds.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

rótulos

Nome Descrição
id A ID do rótulo.
name O nome do rótulo. Por exemplo: Computer ou TV.
language O idioma do nome do rótulo (quando traduzido), na forma de uma cadeia de caracteres BCP-47.
instances Uma lista com os intervalos de tempo em que esse rótulo apareceu. (Um rótulo pode aparecer várias vezes.) Cada instância tem um campo de confiança.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

scenes

Nome Descrição
id A ID da cena.
instances Uma lista de intervalos de tempo desta cena. (Uma cena pode ter apenas uma instância.)
"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

shots

Nome Descrição
id A ID do shot.
keyFrames Uma lista de keyframes dentro do shot. Cada um tem uma ID e uma lista de intervalos de tempo de instância. Cada instância de keyframe tem um campo thumbnailId, que contém a ID da miniatura de keyframe.
instances Uma lista de intervalos de tempo deste shot. (Um shot pode ter apenas uma instância.)
"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

marcas

O Indexador de Vídeo de IA do Azure detecta nomes de marcas comerciais e de produtos na transcrição de fala para texto e/ou OCR de vídeo. Essas informações não incluem reconhecimento visual de marcas ou detecção de logotipo.

Nome Descrição
id A ID da marca.
name O nome da marca.
referenceId O sufixo do URL da Wikipédia da marca. Por exemplo, Target_Corporation é o sufixo de https://en.wikipedia.org/wiki/Target_Corporation.
referenceUrl A URL da Wikipédia da marca, se houver. Por exemplo: https://en.wikipedia.org/wiki/Target_Corporation.
description A descrição da marca.
tags Uma lista de tags predefinidas associadas a essa marca.
confidence O valor de confiança do detector de marca do Indexador de Vídeo de IA do Azure (0-1).
instances Uma lista de intervalos de tempo desta marca. Cada instância tem um valor brandType, que indica se essa marca apareceu na transcrição ou em um OCR.
"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

estatísticas

Nome Descrição
CorrespondenceCount O número de correspondências no vídeo.
SpeakerWordCount O número de palavras por alto-falante.
SpeakerNumberOfFragments O número de fragmentos que o locutor tem em um vídeo.
SpeakerLongestMonolog O mais longo monólogo do orador. Se o locutor tiver silêncio dentro do monólogo, ele será incluído. O silêncio no início e no final do monólogo é removido.
SpeakerTalkToListenRatio O cálculo é baseado no tempo gasto no monólogo do locutor (sem o silêncio intermediário) dividido pelo tempo total do vídeo. A hora é arredondada para o terceiro ponto decimal.

audioEffects (versão prévia)

Nome Descrição
id A ID do efeito de áudio.
type O tipo do efeito de áudio.
name O tipo do efeito de áudio no idioma em que o JSON foi indexado.
instances Uma lista com os intervalos de tempo nos quais esse efeito de áudio apareceu. Cada instância tem um campo de confiança.
start + end O intervalo de tempo no vídeo original.
adjustedStart + adjustedEnd Intervalo de tempo versus intervalo de tempo ajustado.
audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentiments

Os sentimentos são agregados por seu sentimentType campo (Positive, Neutralou Negative). Por exemplo, 0-0.1, 0.1-0.2.

Nome Descrição
id A ID do sentimento.
averageScore A média de todas as pontuações de todas as instâncias desse tipo de sentimento.
instances Uma lista com os intervalos de tempo nos quais esse sentimento apareceu.
sentimentType O tipo pode ser Positive, Neutral ou Negative.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

A visualContentModeration transcrição contém intervalos de tempo que o Indexador de Vídeo de IA do Azure descobriu ter conteúdo adulto. Se visualContentModeration estiver vazio, nenhum conteúdo para adultos foi identificado.

Os vídeos que contêm conteúdo para adultos ou atraente podem estar disponíveis apenas para visualização privada. Os usuários podem enviar uma solicitação para uma revisão humana do conteúdo. Nesse caso, o IsAdult atributo contém o resultado da revisão humana.

Nome Descrição
id A ID de moderação de conteúdo visual.
adultScore A pontuação de conteúdo para adultos (da moderação de conteúdo).
racyScore A pontuação racista (de moderação de conteúdo).
instances Uma lista de intervalos de tempo em que apareceu esse visual moderação de conteúdo.

Saiba mais sobre visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

textualContentModeration

Nome Descrição
id A ID de moderação do conteúdo textual.
bannedWordsCount O número de palavras proibidas.
bannedWordsRatio A proporção de palavras banidas em relação ao número total de palavras.
Saiba mais sobre textualContentModeration

emotions

O Indexador de Vídeo de IA do Azure identifica emoções com base em sinais de fala e áudio.

Nome Descrição
id A ID da emoção.
type O tipo de uma emoção identificada: Joy, Sadness, Anger ou Fear.
instances Uma lista de intervalos de tempo nos quais essa emoção apareceu.
"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

topics

O Indexador de Vídeo de IA do Azure faz uma inferência dos tópicos principais das transcrições. Quando possível, a taxonomia de IPTC de segundo nível é incluída.

Nome Descrição
id A ID do tópico.
name O nome do tópico. Por exemplo: Pharmaceuticals.
referenceId Navegações estruturais que refletem a hierarquia do tópico. Por exemplo: HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS.
confidence A pontuação de confiança no intervalo 0-1. Um valor mais alto indica maior confiança.
language O idioma usado no tópico.
iptcName O nome do código de mídia IPTC se detectado.
instances Atualmente, o Indexador de Vídeo de IA do Azure não indexa um tópico a intervalos de tempo. O vídeo inteiro é usado como o intervalo.
"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

falantes

Nome Descrição
id A ID do locutor.
name O nome do locutor na forma de Speaker #<number>. Por exemplo: Speaker #1.
instances Uma lista de intervalos de tempo na qual esse locutor apareceu.
"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},