Examinar a saída do Indexador de Vídeo de IA do Azure

Artigo
03/22/2024

Importante

Devido ao anúncio da desativação dos Serviços de Mídia do Azure, o Indexador de Vídeo de IA do Azure anuncia ajustes de recursos do Indexador de Vídeo de IA do Azure. Consulte Alterações relacionadas à desativação do AMS (Serviço de Mídia do Azure) para entender o que isso significa para sua conta do Indexador de Vídeo de IA do Azure. Consulte o Guia de atualização e migração Preparando para a aposentadoria do AMS: VI.

Quando um vídeo é indexado, o Indexador de Vídeo de IA do Azure produz o conteúdo JSON que contém detalhes dos insights de vídeo especificados. Os insights incluem transcrições, elementos de OCR (reconhecimento óptico de caracteres), rostos, tópicos, blocos e detalhes semelhantes. Cada tipo de insight inclui instâncias de intervalos de tempo que mostram quando o insight aparece no vídeo.

Para obter informações, consulte Azure AI Video Indexer insights.

Elementos raiz dos insights

Nome	Descrição
`accountId`	ID da conta VI da lista de reprodução.
`id`	ID. da lista de reprodução.
`name`	Nome da lista de reprodução.
`description`	Descrição da lista de reprodução.
`userName`	O nome do usuário que criou a lista de reprodução.
`created`	Hora de criação da lista de reprodução.
`privacyMode`	O modo de privacidade da playlist (`Private` ou `Public`).
`state`	O estado da playlist (`Uploaded`, `Processing`, `Processed`, `Failed` ou `Quarantined`).
`isOwned`	Indica se o usuário atual criou a playlist.
`isEditable`	Indica se o usuário atual está autorizado a editar a lista de reprodução.
`isBase`	Indica se a lista de reprodução é uma lista de reprodução básica (um vídeo) ou uma lista de reprodução de outros vídeos (derivados).
`durationInSeconds`	A duração total da lista de reprodução.
`summarizedInsights`	A saída JSON produzida contém os elementos `Insights` e `SummarizedInsights`. É recomendável usar `Insights` e não usar `SummarizedInsights` (que está presente para compatibilidade com versões anteriores).
`videos`	Uma lista dos vídeos que compõem a playlist. Se esta lista de reprodução for construída com intervalos de tempo de outros vídeos (derivados), os vídeos nesta lista conterão apenas dados dos intervalos de tempo incluídos.

{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

Dica

A saída JSON produzida contém os elementos Insights e SummarizedInsights. É altamente recomendável usar Insights e não usar SummarizedInsights (o que está presente para compatibilidade com versões anteriores).

Resumo dos insights

Esta seção mostra um resumo dos insights.

Atributo	Descrição
`name`	O nome do vídeo. Por exemplo: `Azure Monitor`.
`id`	A ID do vídeo. Por exemplo: `63c6d532ff`.
`privacyMode`	Seu detalhamento pode ter um dos seguintes modos: um vídeo `Public` é visível para todos em sua conta e qualquer pessoa que tenha um link para o vídeo. Um vídeo `Private` é visível para todos em sua conta.
`duration`	A hora em que ocorreu um insight, em segundos.
`thumbnailVideoId`	A ID do vídeo da qual a miniatura foi tirada.
`thumbnailId`	A ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe sua `thumbnailVideoId` e `thumbnailId`.
`faces`	Contém zero ou mais rostos. Para obter mais informações, consulte rostos.
`keywords`	Contém zero ou mais palavras-chave. Para obter mais informações, consulte palavras-chave.
`sentiments`	Contém zero ou mais sentimentos. Para obter mais informações, consulte sentimentos.
`audioEffects`	Contém zero ou mais efeitos de áudio. Para obter mais informações, consulte Efeitos de áudio.
`labels`	Contém zero ou mais etiquetas. Para obter mais informações, consulte etiquetas.
`brands`	Contém zero ou mais marcas. Para obter mais informações, consulte marcas.
`statistics`	Para obter mais informações, consulte estatísticas.
`emotions`	Contém zero ou mais emoções. Para obter mais informações, consulte emoções.
`topics`	Contém zero ou mais tópicos. Para obter mais informações, consulte tópicos

vídeos

Nome	Descrição
`accountId`	A ID da conta VI do vídeo.
`id`	ID do vídeo.
`name`	Nome do vídeo.
`state`	O estado do vídeo (`Uploaded`, `Processing`, `Processed`, `Failed`ou `Quarantined`).
`processingProgress`	O progresso durante o processamento. Por exemplo: `20%`.
`failureCode`	O código da falha se o processamento do vídeo tiver falhado. Por exemplo: `UnsupportedFileType`.
`failureMessage`	A mensagem da falha se o processamento do vídeo tiver falhado.
`externalId`	A ID externa do vídeo (se o usuário especificar uma).
`externalUrl`	A URL externa do vídeo (se o usuário especificar uma).
`metadata`	Os metadados externos do vídeo (se o usuário especificar um).
`isAdult`	Indica se o vídeo foi revisado manualmente e identificado como um vídeo adulto.
`insights`	O objeto de insights. Para obter mais informações, consulte insights.
`thumbnailId`	A ID da miniatura do vídeo. Para obter a miniatura real, chame Get-Thumbnail e passe sua ID do vídeo e ID de miniatura.
`publishedUrl`	Uma URL para transmitir o vídeo.
`publishedUrlProxy`	Uma URL para transmitir o vídeo em dispositivos Apple.
`viewToken`	Um token de visualização de curta duração para transmitir o vídeo.
`sourceLanguage`	O idioma de origem do vídeo.
`language`	O idioma real do vídeo (tradução).
`indexingPreset`	A predefinição usada para indexar o vídeo.
`streamingPreset`	A predefinição usada para publicar o vídeo.
`linguisticModelId`	O modelo de personalização de transcrição (CRIS) usado para transcrever o vídeo.
`statistics`	Para obter mais informações, consulte estatísticas.

{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

insights

Cada insight (por exemplo, linhas de transcrição, rostos ou marcas) contém uma lista de elementos exclusivos (por exemplo, face1, face2, face3). Cada elemento tem seus próprios metadados e uma lista de suas instâncias, que são intervalos de tempo com metadados adicionais.

Um rosto pode ter um ID, um nome, uma miniatura, outros metadados e uma lista de suas instâncias temporais (por exemplo, 00:00:05 – 00:00:10, 00:01:00 - 00:02:30e 00:41:21 – 00:41:49). Cada instância temporal pode ter metadados adicionais. Por exemplo, os metadados podem incluir as coordenadas de retângulo do rosto (20,230,60,60).

Versão	A versão do código
`sourceLanguage`	O idioma de origem do vídeo (supondo um idioma mestre), na forma de uma cadeia de caracteres BCP-47.
`language`	O idioma de insights (traduzido do idioma de origem), na forma de uma cadeia de caracteres BCP-47.
`transcript`	O insight transcript.
`ocr`	O insight OCR.
`keywords`	O insight keywords.
`transcripts`	Pode conter uma ou mais transcrições.
`faces`	Os rostos insight.
`labels`	O insight labels.
`shots`	O insight shots.
`brands`	O insight brands.
`audioEffects`	O insight audioEffects.
`sentiments`	O insight sentiments.
`visualContentModeration`	O insight visualContentModeration.
`textualContentModeration`	O insight textualContentModeration.
`emotions`	O insight emotions.
`topics`	O insight topics.
`speakers`	O insight speakers.

Exemplo:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

transcript

Nome	Descrição
`id`	A ID da linha.
`text`	A própria transcrição.
`confidence`	O nível de confiança para precisão da transcrição.
`speakerId`	A ID do locutor.
`language`	O idioma da transcrição. Tem o objetivo dar suporte às transcrições na qual cada linha pode ter um idioma diferente.
`instances`	Uma lista com os intervalos de tempo nos quais essa linha apareceu. Se a instância estiver em uma transcrição, ela terá apenas uma instância.

Exemplo:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

ocr

Nome	Descrição
`id`	A ID da linha do OCR.
`text`	O texto do OCR.
`confidence`	A confiança do reconhecimento.
`language`	O idioma do OCR.
`instances`	Uma lista com os intervalos de tempo nos quais esse OCR apareceu. (O mesmo OCR pode aparecer várias vezes.)
`height`	A altura do retângulo do OCR.
`top`	O local acima, em pixels.
`left`	O local à esquerda, em pixels.
`width`	A largura do retângulo do OCR.
`angle`	O ângulo do retângulo do OCR, de `-180` a `180`. Um valor de `0` significa horizontal da esquerda para a direita. Um valor de `90` significa vertical de cima para baixo. Um valor de `180` significa horizontal da direita para a esquerda. Um valor de `-90` significa vertical de baixo para cima. Um valor de `30` significa da esquerda superior para a direita inferior.

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

palavras-chave

Nome	Descrição
`id`	A ID da palavra-chave.
`text`	O texto da palavra-chave.
`confidence`	A confiança do reconhecimento na palavra-chave.
`language`	O idioma da palavra-chave (quando traduzida).
`instances`	Uma lista de intervalos de tempo em que essa palavra-chave apareceu. (Uma palavra-chave pode aparecer várias vezes.)

{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

faces

Se os rostos estiverem presentes, o Indexador de Vídeo de IA do Azure usará a API Face em todos os quadros do vídeo para detectar rostos e celebridades.

Nome	Descrição
`id`	A ID do rosto.
`name`	O nome da face. Pode ser `Unknown #0`, uma celebridade identificada ou uma pessoa treinada pelo cliente.
`confidence`	O nível de confiança na identificação facial.
`description`	Uma descrição da celebridade.
`thumbnailId`	O ID da miniatura da face.
`knownPersonId`	A ID interna, se for uma pessoa conhecida.
`referenceId`	A ID do Bing, se for uma celebridade do Bing.
`referenceType`	No momento, apenas Bing.
`title`	Se for uma celebridade, o título da pessoa. Por exemplo: `Microsoft's CEO`.
`imageUrl`	A URL da imagem, se for uma celebridade.
`instances`	Instâncias de onde o rosto apareceu no intervalo de tempo. Cada instância também tem um valor `thumbnailsIds`.

"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

rótulos

Nome	Descrição
`id`	A ID do rótulo.
`name`	O nome do rótulo. Por exemplo: `Computer` ou `TV`.
`language`	O idioma do nome do rótulo (quando traduzido), na forma de uma cadeia de caracteres BCP-47.
`instances`	Uma lista com os intervalos de tempo em que esse rótulo apareceu. (Um rótulo pode aparecer várias vezes.) Cada instância tem um campo de confiança.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

scenes

Nome	Descrição
`id`	A ID da cena.
`instances`	Uma lista de intervalos de tempo desta cena. (Uma cena pode ter apenas uma instância.)

"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

shots

Nome	Descrição
`id`	A ID do shot.
`keyFrames`	Uma lista de keyframes dentro do shot. Cada um tem uma ID e uma lista de intervalos de tempo de instância. Cada instância de keyframe tem um campo `thumbnailId`, que contém a ID da miniatura de keyframe.
`instances`	Uma lista de intervalos de tempo deste shot. (Um shot pode ter apenas uma instância.)

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

marcas

O Indexador de Vídeo de IA do Azure detecta nomes de marcas comerciais e de produtos na transcrição de fala para texto e/ou OCR de vídeo. Essas informações não incluem reconhecimento visual de marcas ou detecção de logotipo.

Nome	Descrição
`id`	A ID da marca.
`name`	O nome da marca.
`referenceId`	O sufixo do URL da Wikipédia da marca. Por exemplo, `Target_Corporation` é o sufixo de https://en.wikipedia.org/wiki/Target_Corporation.
`referenceUrl`	A URL da Wikipédia da marca, se houver. Por exemplo: https://en.wikipedia.org/wiki/Target_Corporation.
`description`	A descrição da marca.
`tags`	Uma lista de tags predefinidas associadas a essa marca.
`confidence`	O valor de confiança do detector de marca do Indexador de Vídeo de IA do Azure (`0`-`1`).
`instances`	Uma lista de intervalos de tempo desta marca. Cada instância tem um valor `brandType`, que indica se essa marca apareceu na transcrição ou em um OCR.

"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

estatísticas

Nome	Descrição
`CorrespondenceCount`	O número de correspondências no vídeo.
`SpeakerWordCount`	O número de palavras por alto-falante.
`SpeakerNumberOfFragments`	O número de fragmentos que o locutor tem em um vídeo.
`SpeakerLongestMonolog`	O mais longo monólogo do orador. Se o locutor tiver silêncio dentro do monólogo, ele será incluído. O silêncio no início e no final do monólogo é removido.
`SpeakerTalkToListenRatio`	O cálculo é baseado no tempo gasto no monólogo do locutor (sem o silêncio intermediário) dividido pelo tempo total do vídeo. A hora é arredondada para o terceiro ponto decimal.

audioEffects (versão prévia)

Nome	Descrição
`id`	A ID do efeito de áudio.
`type`	O tipo do efeito de áudio.
`name`	O tipo do efeito de áudio no idioma em que o JSON foi indexado.
`instances`	Uma lista com os intervalos de tempo nos quais esse efeito de áudio apareceu. Cada instância tem um campo de confiança.
`start` + `end`	O intervalo de tempo no vídeo original.
`adjustedStart` + `adjustedEnd`	Intervalo de tempo versus intervalo de tempo ajustado.

audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

sentiments

Os sentimentos são agregados por seu sentimentType campo (Positive, Neutralou Negative). Por exemplo, 0-0.1, 0.1-0.2.

Nome	Descrição
`id`	A ID do sentimento.
`averageScore`	A média de todas as pontuações de todas as instâncias desse tipo de sentimento.
`instances`	Uma lista com os intervalos de tempo nos quais esse sentimento apareceu.
`sentimentType`	O tipo pode ser `Positive`, `Neutral` ou `Negative`.

"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

A visualContentModeration transcrição contém intervalos de tempo que o Indexador de Vídeo de IA do Azure descobriu ter conteúdo adulto. Se visualContentModeration estiver vazio, nenhum conteúdo para adultos foi identificado.

Os vídeos que contêm conteúdo para adultos ou atraente podem estar disponíveis apenas para visualização privada. Os usuários podem enviar uma solicitação para uma revisão humana do conteúdo. Nesse caso, o IsAdult atributo contém o resultado da revisão humana.

Nome	Descrição
`id`	A ID de moderação de conteúdo visual.
`adultScore`	A pontuação de conteúdo para adultos (da moderação de conteúdo).
`racyScore`	A pontuação racista (de moderação de conteúdo).
`instances`	Uma lista de intervalos de tempo em que apareceu esse visual moderação de conteúdo.

Saiba mais sobre visualContentModeration

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

textualContentModeration

Nome	Descrição
`id`	A ID de moderação do conteúdo textual.
`bannedWordsCount`	O número de palavras proibidas.
`bannedWordsRatio`	A proporção de palavras banidas em relação ao número total de palavras.

Saiba mais sobre textualContentModeration

emotions

O Indexador de Vídeo de IA do Azure identifica emoções com base em sinais de fala e áudio.

Nome	Descrição
`id`	A ID da emoção.
`type`	O tipo de uma emoção identificada: `Joy`, `Sadness`, `Anger` ou `Fear`.
`instances`	Uma lista de intervalos de tempo nos quais essa emoção apareceu.

"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

topics

O Indexador de Vídeo de IA do Azure faz uma inferência dos tópicos principais das transcrições. Quando possível, a taxonomia de IPTC de segundo nível é incluída.

Nome	Descrição
`id`	A ID do tópico.
`name`	O nome do tópico. Por exemplo: `Pharmaceuticals`.
`referenceId`	Navegações estruturais que refletem a hierarquia do tópico. Por exemplo: `HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS`.
`confidence`	A pontuação de confiança no intervalo `0`-`1`. Um valor mais alto indica maior confiança.
`language`	O idioma usado no tópico.
`iptcName`	O nome do código de mídia IPTC se detectado.
`instances`	Atualmente, o Indexador de Vídeo de IA do Azure não indexa um tópico a intervalos de tempo. O vídeo inteiro é usado como o intervalo.

"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

falantes

Nome	Descrição
`id`	A ID do locutor.
`name`	O nome do locutor na forma de `Speaker #<number>`. Por exemplo: `Speaker #1`.
`instances`	Uma lista de intervalos de tempo na qual esse locutor apareceu.

"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},