Analyser des fichiers vidéo et audio avec Azure Media ServicesAnalyze video and audio files with Azure Media Services

Azure Media Services v3 vous permet d’extraire les insights de vos fichiers vidéo et audio avec Video Indexer.Azure Media Services v3 lets you extract insights from your video and audio files with Video Indexer. Cet article décrit les présélections de l’analyseur Media Services V3 utilisées pour extraire ces Insights.This article describes the Media Services v3 analyzer presets used to extract those insights. Si vous souhaitez des informations plus détaillées, utilisez directement Video Indexer.If you want more detailed insights, use Video Indexer directly. Pour comprendre à quel moment utiliser Video Indexer plutôt que les présélections de l’analyseur de Media Services, consultez le document de comparaison.To understand when to use Video Indexer vs. Media Services analyzer presets, check out the comparison document.

Pour analyser votre contenu à l’aide des préréglages Media Services v3, vous créez une transformation et envoyez un travail qui utilise l’un de ces préréglages : VideoAnalyzerPreset ou AudioAnalyzerPreset.To analyze your content using Media Services v3 presets, you create a Transform and submit a Job that uses one of these presets: VideoAnalyzerPreset or AudioAnalyzerPreset. Pour un didacticiel présentant comment utiliser VideoAnalyzerPreset, consultez Analyser des vidéos avec Azure Media Services.For a tutorial demonstrating how to use VideoAnalyzerPreset, see Analyze videos with Azure Media Services.

Notes

Lorsque vous utilisez des présélections pour l’analyseur vidéo ou audio, utilisez le Portail Azure pour paramétrer votre compte de sorte à ce qu’il dispose de 10 unités réservées Multimédia S3.When using a Video or Audio Analyzer presets, use the Azure portal to set your account to have 10 S3 Media Reserved Units. Pour plus d’informations, consultez Vue d’ensemble de la mise à l’échelle du traitement multimédia.For more information, see Scale media processing.

Conformité, confidentialité et sécuritéCompliance, Privacy and Security

Il est important de vous rappeler que vous devez vous conformer à toutes les lois applicables dans le cadre de votre utilisation de Video Indexer, et que vous n’êtes pas autorisé à utiliser Video Indexer ou tout autre service Azure d’une façon qui porte atteinte aux droits d’autrui ou qui soit préjudiciable à autrui.As an important reminder, you must comply with all applicable laws in your use of Video Indexer, and you may not use Video Indexer or any other Azure service in a manner that violates the rights of others or may be harmful to others. Avant de charger des vidéos, y compris des données biométriques, vers le service Video Indexer à des fins de traitement et de stockage, Vous devez disposer de tous les droits appropriés sur les vidéos, y compris avoir obtenu le consentement de chaque personne apparaissant dans les vidéos.Before uploading any videos, including any biometric data, to the Video Indexer service for processing and storage, You must have all the proper rights, including all appropriate consents, from the individual(s) in the video. Pour en savoir plus sur la conformité, la confidentialité et la sécurité dans Video Indexer, consultez les Conditions générales d’utilisation de Microsoft Cognitive Services.To learn about compliance, privacy and security in Video Indexer, the Microsoft Cognitive Services Terms. Pour connaître les obligations de Microsoft en matière de confidentialité et de traitement de vos données, consultez la Déclaration de confidentialité, les Conditions d’utilisation des services en ligne (« OST ») et l’Addenda au traitement des données (« DPA ») de Microsoft.For Microsoft’s privacy obligations and handling of your data, please review Microsoft’s Privacy Statement, the Online Services Terms (“OST”) and Data Processing Addendum (“DPA”). Des informations complémentaires sur la confidentialité, notamment sur la conservation, la suppression et la destruction des données, sont disponibles dans l’OST et ici.Additional privacy information, including on data retention, deletion/destruction, is available in the OST and here. En utilisant Video Indexer, vous acceptez de vous conformer aux Conditions d’utilisation de Cognitive Services, à l’OST, au DPA et à la Déclaration de confidentialité.By using Video Indexer, you agree to be bound by the Cognitive Services Terms, the OST, DPA and the Privacy Statement.

Préréglages intégrésBuilt-in presets

Actuellement, Media Services prend en charge les préréglages d’analyseur intégrés suivants :Media Services currently supports the following built-in analyzer presets:

Nom du préréglagePreset name ScénarioScenario DétailsDetails
AudioAnalyzerPresetAudioAnalyzerPreset Analyse de contenu audioAnalyzing audio Ce préréglage applique un ensemble prédéfini d’opérations d’analyse basée sur l’IA, notamment la transcription de la parole.The preset applies a predefined set of AI-based analysis operations, including speech transcription. Actuellement, le préréglage prend en charge le traitement du contenu avec une seule piste audio qui inclut la reconnaissance vocale dans une seule langue.Currently, the preset supports processing content with a single audio track that contains speech in a single language. Vous pouvez spécifier la langue de la charge utile audio de l’entrée en utilisant le format BCP-47 « balise de langue-région ».You can specify the language for the audio payload in the input using the BCP-47 format of 'language tag-region'. Les langues prises en charge sont l’anglais (« en-US » et « en-GB »), l’espagnol (« es-ES » et « es-MX »), le français (« fr-FR »), l’italien (« it-IT »), le japonais (« ja-JP »), le portugais (« pt-BR »), le chinois (« zh-CN »), l’allemand (« de-DE »), l’arabe (« ar-EG » et « ar-SY »), le russe (« ru-RU »), l’hindi (« hi-IN ») et le coréen (« ko-KR »).Supported languages are English ('en-US' and 'en-GB'), Spanish ('es-ES' and 'es-MX'), French ('fr-FR'), Italian ('it-IT'), Japanese ('ja-JP'), Portuguese ('pt-BR'), Chinese ('zh-CN'), German ('de-DE'), Arabic ('ar-EG' and 'ar-SY'), Russian ('ru-RU'), Hindi ('hi-IN'), and Korean ('ko-KR').

Si la langue n’est pas spécifiée ou a la valeur Null, la fonctionnalité de détection automatique de la langue choisit la première langue détectée et continue avec cette langue pendant la durée de traitement du fichier.If the language isn't specified or set to null, automatic language detection chooses the first language detected and continues with the selected language for the duration of the file. Cette fonctionnalité prend actuellement en charge les langues suivantes : allemand, anglais, chinois, espagnol, français, italien, japonais, portugais et russe.The automatic language detection feature currently supports English, Chinese, French, German, Italian, Japanese, Spanish, Russian, and Portuguese. Elle ne prend pas en charge le basculement dynamique d’une langue à l’autre après la détection de la première langue.It doesn't support dynamically switching between languages after the first language is detected. La fonctionnalité de détection automatique de la langue fonctionne mieux sur des enregistrements audio avec des voix clairement identifiables.The automatic language detection feature works best with audio recordings with clearly discernible speech. Si la détection automatique de la langue ne parvient pas à trouver la langue, la transcription utilise l’anglais.If automatic language detection fails to find the language, the transcription falls back to English.
VideoAnalyzerPresetVideoAnalyzerPreset Analyse de contenu audio et vidéoAnalyzing audio and video Extrait des insights (métadonnées enrichies) des contenus audio et vidéo, et génère en sortie un fichier au format JSON.Extracts insights (rich metadata) from both audio and video, and outputs a JSON format file. Vous pouvez spécifier si vous voulez extraire seulement des insights audio lors du traitement d’un fichier vidéo.You can specify whether you only want to extract audio insights when processing a video file. Pour plus d’informations, consultez Analyser un contenu vidéo.For more information, see Analyze video.
FaceDetectorPresetFaceDetectorPreset Détection des visages présents dans la vidéoDetecting faces present in video Décrit les paramètres à utiliser lors de l’analyse d’une vidéo pour détecter les visages qui y figurent.Describes the settings to be used when analyzing a video to detect all the faces present.

AudioAnalyzerPresetAudioAnalyzerPreset

Le préréglage vous permet d’extraire plusieurs insights audio d’un fichier audio ou vidéo.The preset enables you to extract multiple audio insights from an audio or video file. La sortie inclut un fichier JSON (avec tous les insights) et un fichier VTT pour la transcription audio.The output includes a JSON file (with all the insights) and VTT file for the audio transcript. Ce paramètre accepte une propriété qui spécifie la langue du fichier d’entrée sous la forme d’une chaîne BCP47.This preset accepts a property that specifies the language of the input file in the form of a BCP47 string. Les analyses audio sont les suivantes :The audio insights include:

  • Transcription audio : transcription des mots prononcés avec horodatages.Audio transcription: A transcript of the spoken words with timestamps. Plusieurs langues sont prises en charge.Multiple languages are supported.
  • Indexation de l'orateur : mappage des orateurs et des mots prononcés correspondants.Speaker indexing: A mapping of the speakers and the corresponding spoken words.
  • Analyse des sentiments dans du texte : sortie de l’analyse des sentiments effectuée sur la transcription audio.Speech sentiment analysis: The output of sentiment analysis performed on the audio transcription.
  • Mots clés : mots clés extraits de la transcription audio.Keywords: Keywords that are extracted from the audio transcription.

VideoAnalyzerPresetVideoAnalyzerPreset

Ce préréglage vous permet d’extraire plusieurs insights audio et vidéo à partir d’un fichier vidéo.The preset enables you to extract multiple audio and video insights from a video file. La sortie inclut un fichier JSON (avec tous les insights), un fichier VTT pour la transcription audio et une collection de miniatures.The output includes a JSON file (with all the insights), a VTT file for the video transcript, and a collection of thumbnails. Ce paramètre accepte également une chaîne BCP47 (représentant la langue de la vidéo) en tant que propriété.This preset also accepts a BCP47 string (representing the language of the video) as a property. Les insights vidéo incluent tous les insights audio mentionnés ci-dessus en complément des éléments suivants :The video insights include all the audio insights mentioned above and the following additional items:

  • Suivi du visage : durée pendant laquelle des visages sont présentes dans la vidéo.Face tracking: The time during which faces are present in the video. Chaque visage est associé à un identifiant de visage et à une collection de miniatures correspondante.Each face has a face ID and a corresponding collection of thumbnails.
  • Texte visuel : texte détecté par la reconnaissance optique des caractères.Visual text: The text that's detected via optical character recognition. Le texte est horodaté et également utilisé pour extraire des mots clés (en plus de la transcription audio).The text is time stamped and also used to extract keywords (in addition to the audio transcript).
  • Images clés : une collection d’images clés extraites de la vidéo.Keyframes: A collection of keyframes extracted from the video.
  • Modération du contenu visuel : La partie des vidéos marquée comme adulte ou osé par nature.Visual content moderation: The portion of the videos flagged as adult or racy in nature.
  • Annotation : résultat de l’annotation des vidéos sur la base d’un modèle d’objet prédéfiniAnnotation: A result of annotating the videos based on a pre-defined object model

Éléments insights.jsoninsights.json elements

La sortie inclut un fichier JSON (insights.json) contenant tous les insights trouvés dans le contenu vidéo ou audio.The output includes a JSON file (insights.json) with all the insights found in the video or audio. Ce fichier JSON peut contenir les éléments suivants :The JSON may contain the following elements:

transcriptiontranscript

NomName DescriptionDescription
idid ID de la ligne.The line ID.
texttext La transcription proprement dite.The transcript itself.
langagelanguage La langue de la transcription.The transcript language. Permet de prendre en charge la transcription lorsque chaque ligne peut avoir une langue différente.Intended to support transcript where each line can have a different language.
instancesinstances Liste des intervalles de temps pendant lesquels cette ligne est apparue.A list of time ranges where this line appeared. Si l’instance est un attribut transcript, il n’y a qu’une seule instance.If the instance is transcript, it will have only 1 instance.

Exemple :Example:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
] 

ocrocr

NomName DescriptionDescription
idid ID de la ligne ROC.The OCR line ID.
texttext Texte de l’OCR.The OCR text.
confidenceconfidence Degré de confiance de la reconnaissance.The recognition confidence.
langagelanguage Langue de l’OCR.The OCR language.
instancesinstances Liste des intervalles de temps au cours desquels cette OCR est apparue (la même OCR peut apparaître plusieurs fois).A list of time ranges where this OCR appeared (the same OCR can appear multiple times).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

visagesfaces

NomName DescriptionDescription
idid ID du visage.The face ID.
namename Nom du visage.The face name. Il peut s'agir de la valeur « Unknown #0 », d’une célébrité identifiée ou d'une personne formée par le client.It can be ‘Unknown #0’, an identified celebrity, or a customer trained person.
confidenceconfidence Degré de confiance de l’identification du visage.The face identification confidence.
descriptiondescription Description de la célébrité.A description of the celebrity.
thumbnailIdthumbnailId ID de la miniature de ce visage.The ID of the thumbnail of that face.
knownPersonIdknownPersonId ID interne (s’il s’agit d’une personne connue).The internal ID (if it's a known person).
referenceIdreferenceId ID Bing (s’il s’agit d’une célébrité Bing).The Bing ID (if it's a Bing celebrity).
referenceTypereferenceType Bing uniquement (pour le moment).Currently just Bing.
titletitle Poste (dans le cas d’une célébrité, par exemple « PDG de Microsoft »).The title (if it's a celebrity—for example, "Microsoft's CEO").
imageUrlimageUrl URL de l’image, s’il s’agit d’une célébrité.The image URL, if it's a celebrity.
instancesinstances Instances où le visage est apparu dans l’intervalle de temps donné.Instances where the face appeared in the given time range. Chaque instance possède également un thumbnailsId.Each instance also has a thumbnailsId.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

capturesshots

NomName DescriptionDescription
idid ID de la capture.The shot ID.
keyFrameskeyFrames Liste des images clés au sein de la capture (chacune possède un ID et une liste d’intervalles de temps d’instances).A list of key frames within the shot (each has an ID and a list of instances time ranges). Les instances des images clés comptent un champ thumbnailId pourvu de l’ID de miniature de l’élément keyFrame.Key frames instances have a thumbnailId field with the keyFrame’s thumbnail ID.
instancesinstances Liste des intervalles de temps de cette capture (les captures n’ont qu’1 seule instance).A list of time ranges of this shot (shots have only 1 instance).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
            "thumbnailId": "00000000-0000-0000-0000-000000000000",  
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",      
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
      "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistiquesstatistics

NomName DescriptionDescription
CorrespondenceCountCorrespondenceCount Nombre de correspondances contenues dans la vidéo.Number of correspondences in the video.
WordCountWordCount Nombre de mots par intervenant.The number of words per speaker.
SpeakerNumberOfFragmentsSpeakerNumberOfFragments Quantité de fragments de l’intervenant dans une vidéo.The amount of fragments the speaker has in a video.
SpeakerLongestMonologSpeakerLongestMonolog Monologue le plus long de l’intervenant.The speaker's longest monolog. Si le monologue de l’intervenant comporte des silences, ils sont inclus.If the speaker has silences inside the monolog it's included. Les silences du début et de la fin du monologue sont supprimés.Silence at the beginning and the end of the monolog is removed.
SpeakerTalkToListenRatioSpeakerTalkToListenRatio Le calcul est basé sur le temps passé sur le monologue de l’intervenant (sans les silences intermédiaires) divisé par la durée totale de la vidéo.The calculation is based on the time spent on the speaker's monolog (without the silence in between) divided by the total time of the video. L’heure est arrondie à la troisième décimale.The time is rounded to the third decimal point.

sentimentssentiments

Les sentiments sont regroupés par leur champ sentimentType (neutre/positif/négatif).Sentiments are aggregated by their sentimentType field (Positive/Neutral/Negative). Par exemple, 0-0.1, 0.1-0.2.For example, 0-0.1, 0.1-0.2.

NomName DescriptionDescription
idid ID du sentiment.The sentiment ID.
averageScoreaverageScore Moyenne de tous les résultats obtenus pour toutes les instances de ce type de sentiment : neutre/positif/négatifThe average of all scores of all instances of that sentiment type - Positive/Neutral/Negative
instancesinstances Liste des intervalles de temps au cours desquels ce sentiment est apparu.A list of time ranges where this sentiment appeared.
sentimentTypesentimentType Le type peut être « Positive », « Neutral » ou «Negative ».The type can be 'Positive', 'Neutral', or 'Negative'.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

étiquetteslabels

NomName DescriptionDescription
idid ID de l’étiquette.The label ID.
namename Nom de l’étiquette (par exemple, « ordinateur », « TV »).The label name (for example, 'Computer', 'TV').
langagelanguage Langue du nom de l’étiquette (si traduction).The label name language (when translated). BCP-47BCP-47
instancesinstances Liste des intervalles de temps au cours desquels cette étiquette est apparue (une étiquette peut apparaître plusieurs fois).A list of time ranges where this label appeared (a label can appear multiple times). Chaque instance possède un champ de confiance.Each instance has a confidence field.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

mots cléskeywords

NomName DescriptionDescription
idid ID du mot clé.The keyword ID.
texttext Texte du mot clé.The keyword text.
confidenceconfidence Degré de confiance de la reconnaissance du mot clé.The keyword's recognition confidence.
langagelanguage Langue du mot clé (si traduction).The keyword language (when translated).
instancesinstances Liste des intervalles de temps pendant lesquels ce mot clé est apparu (un mot clé peut apparaître plusieurs fois).A list of time ranges where this keyword appeared (a keyword can appear multiple times).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
] 

visualContentModerationvisualContentModeration

Le bloc visualContentModeration contient des intervalles de temps qui sont susceptibles de contenir des éléments pour adultes selon Video Indexer.The visualContentModeration block contains time ranges which Video Indexer found to potentially have adult content. Si ce bloc est vide, aucun contenu pour adultes n’a donc été identifié.If visualContentModeration is empty, there's no adult content that was identified.

Les vidéos trouvées qui contiennent des éléments pour adultes ou choquants peuvent être disponibles pour un affichage privé uniquement.Videos that are found to contain adult or racy content might be available for private view only. Les utilisateurs peuvent soumettre une demande de révision manuelle du contenu, auquel cas l’attribut IsAdult contient le résultat de la révision manuelle.Users can submit a request for a human review of the content, in which case the IsAdult attribute will contain the result of the human review.

NomName DescriptionDescription
idid ID de modération du contenu visuel.The visual content moderation ID.
adultScoreadultScore Degré du contenu pour adultes (d’après Content Moderator).The adult score (from content moderator).
racyScoreracyScore Degré du contenu choquant (d’après Content Moderator).The racy score (from content moderation).
instancesinstances Liste des intervalles de temps où cette modération du contenu visuel est affichée.A list of time ranges where this visual content moderation appeared.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

Étapes suivantesNext steps

Tutoriel : Analyser des vidéos avec Azure Media ServicesTutorial: Analyze videos with Azure Media Services