Identificar automaticamente o idioma falado com o modelo de identificação de idioma

O Analisador de Vídeo do Azure para Mídia (antigo Video Indexer) é compatível com um sistema de LID (identificação de idioma) automático, que é o processo de identificar de modo automático o conteúdo do idioma falado do áudio e enviar um arquivo de mídia para ser transcrito no idioma dominante identificado.

No momento, o sistema de LID é compatível com estes idiomas: inglês, espanhol, francês, alemão, italiano, chinês mandarim, japonês, russo e português (Brasil).

Lembre-se de examinar a seção Diretrizes e limitações mostrada abaixo.

Como escolher a identificação automática de idioma na indexação

Ao indexar ou reindexar um vídeo usando uma API, escolha a opção auto detect no parâmetro sourceLanguage.

Ao usar o portal, acesse Vídeos da conta na home page do Analisador de Vídeo do para Mídia e passe o mouse sobre o nome do vídeo que você deseja reindexar. No canto inferior direito da página, clique no botão Reindexar. Na caixa de diálogo Reindexar vídeo, escolha a opção Detecção automática na caixa suspensa Idioma de origem do vídeo.

Detecção automática

Saída do modelo

O Analisador de Vídeo para Mídia transcreve o vídeo de acordo com o idioma mais provável caso a pontuação de confiança para esse idioma seja > 0.6. Caso o idioma não seja identificado com uma pontuação de confiança, o Analisador de Vídeo do Azure para Mídia vai supor que o idioma falado é o inglês.

O idioma dominante do modelo está disponível em insights JSON como o atributo sourceLanguage (na opção raiz/vídeos/insights). Uma pontuação de confiança correspondente também está disponível no atributo sourceLanguageConfidence.

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      },

Diretrizes e limitações

  • O sistema de LID (identificação de idioma) automático é compatível com os seguintes idiomas:

    Inglês, espanhol, francês, alemão, italiano, chinês mandarim, japonês, russo e português (Brasil).

  • Embora o Analisador de Vídeo para Mídia seja compatível com os idiomas árabe (padrão moderno e levantino), híndi e coreano, eles não são compatíveis com o sistema de LID.

  • Caso o áudio contenha idiomas diferentes da lista de idiomas compatíveis mostrada acima, o resultado será inesperado.

  • Caso o Analisador de Vídeo para Mídia não possa identificar o idioma com uma pontuação de confiança alta o suficiente (>0.6), o idioma de fallback será o inglês.

  • No momento, não há suporte para arquivos com áudio de idiomas mistos. Caso o áudio contenha idiomas mistos, o resultado será inesperado.

  • Um áudio de baixa qualidade poderá afetar os resultados do modelo.

  • O modelo exige que o áudio tenha pelo menos um minuto de fala.

  • O modelo foi projetado para reconhecer uma fala de conversa espontânea (em vez de comandos de voz, canções etc.).

Próximas etapas