Qu’est-ce qu’Azure Media Services Video Indexer ?What is Azure Media Services Video Indexer?

Video Indexer (VI) est la solution IA Azure Media Services. Elle fait partie de la marque Azure Cognitive Services.Video Indexer (VI) is the Azure Media Services AI solution and part of the Azure Cognitive Services brand. Video Indexer permet d’extraire des insights détaillés (sans avoir besoin de compétences en matière d’analyse des données ou de programmation) à l’aide de modèles Machine Learning basés sur plusieurs canaux (voix, visuel).Video Indexer provides ability to extract deep insights (with no need for data analysis or coding skills) using machine learning models based on multiple channels (voice, vocals, visual). Vous pouvez affiner la personnalisation et l’entraînement des modèles.You can further customize and train the models. Le service permet d’effectuer une recherche détaillée, réduit les coûts d’exploitation, offre de nouvelles opportunités de monétisation et crée de nouvelles expériences utilisateur sur un grand nombre de vidéos archivées (avec de faibles barrières d’entrée).The service enables deep search, reduces operational costs, enables new monetization opportunities, and creates new user experiences on large archives of videos (with low entry barriers).

Pour commencer à extraire des insights avec Video Indexer, vous devez créer un compte et charger des vidéos.To start extracting insights with Video Indexer, you need to create an account and upload videos. Quand vous chargez vos vidéos dans Video Indexer, il analyse les éléments audio-visuels en exécutant différents modèles d’IA.When you upload your videos to Video Indexer, it analyses both visuals and audio by running different AI models. À mesure que Video Indexer analyse votre vidéo, les insights sont extraits par les modèles IA.As Video Indexer analyzes your video, the insights that are extracted by the AI models.

Le diagramme suivant est une illustration et non une explication technique de la façon dont Video Indexer fonctionne dans le back-end.The following diagram is an illustration and not a technical explanation of how Video Indexer works in the backend.

Diagramme de flux Azure Media Services Video Indexer

Conformité, confidentialité et sécuritéCompliance, Privacy and Security

Il est important de vous rappeler que vous devez vous conformer à toutes les lois applicables dans le cadre de votre utilisation du service Video Indexer, et que vous n’êtes pas autorisé à utiliser celui-ci ou tout autre service Azure d’une façon qui porte atteinte aux droits d’autrui ou qui soit préjudiciable pour autrui.As an important reminder, you must comply with all applicable laws in your use of Video Indexer, and you may not use Video Indexer or any Azure service in a manner that violates the rights of others, or that may be harmful to others.

Avant de charger une vidéo ou une image vers le service Video Indexer, vous devez disposer de tous les droits appropriés pour utiliser la vidéo ou l’image, y compris, lorsque cela est requis par la Loi, avoir obtenu tous les consentements nécessaires de chaque personne (le cas échéant) apparaissant dans la vidéo ou l’image, pour autoriser l’utilisation, le traitement et le stockage de leurs données dans le service Video Indexer et Azure.Before uploading any video/image to Video Indexer, You must have all the proper rights to use the video/image, including, where required by law, all the necessary consents from individuals (if any) in the video/image, for the use, processing, and storage of their data in Video Indexer and Azure. Certaines juridictions peuvent imposer des obligations légales spéciales pour la collecte, le traitement en ligne et le stockage de catégories de données particulières, comme des données biométriques.Some jurisdictions may impose special legal requirements for the collection, online processing and storage of certain categories of data, such as biometric data. Avant d’utiliser le service Video Indexer et Azure pour le traitement et le stockage de données soumises à des obligations légales spéciales, vous devez vous assurer que vous vous conformez à tous les obligations légales applicables.Before using Video Indexer and Azure for the processing and storage of any data subject to special legal requirements, You must ensure compliance with any such legal requirements that may apply to You.

Pour en savoir plus sur la conformité, la confidentialité et la sécurité dans le service Video Indexer, visitez le Centre de confidentialité Microsoft.To learn about compliance, privacy and security in Video Indexer please visit the Microsoft Trust Center. Pour connaître les obligations de Microsoft en matière de confidentialité et les bonnes pratiques de gestion et de conservation de vos données, consultez la Déclaration de confidentialité, les Conditions d’utilisation des services en ligne (« OST ») et l’Addenda au traitement des données (« DPA ») de Microsoft.For Microsoft’s privacy obligations, data handling and retention practices, including how to delete your data, please review Microsoft’s Privacy Statement, the Online Services Terms (“OST”) and Data Processing Addendum (“DPA”). En utilisant le service Video Indexer, vous consentez à être lié par les dispositions de l’OST, du DPA et de la Déclaration de confidentialité.By using Video Indexer, you agree to be bound by the OST, DPA and the Privacy Statement.

Que puis-je faire avec Video Indexer ?What can I do with Video Indexer?

Les insights de Video Indexer peuvent être appliqués à de nombreux scénarios, parmi lesquels :Video Indexer's insights can be applied to many scenarios, among them are:

  • Recherche profonde : Utilisez les insights extraits de la vidéo pour améliorer l’expérience de recherche au sein d’une bibliothèque vidéo.Deep search: Use the insights extracted from the video to enhance the search experience across a video library. Par exemple, l’indexation des visages et des mots prononcés peut permettre de trouver les moments spécifiques d’une vidéo où une personne a prononcé certains mots ou le moment où deux personnes se sont vues.For example, indexing spoken words and faces can enable the search experience of finding moments in a video where a person spoke certain words or when two people were seen together. La recherche basée sur de tels aperçus de vidéos s’applique aux agences de presse, aux instituts de formation, aux diffuseurs, aux propriétaires de contenu de divertissement, aux LOB d’entreprise et d’une façon générale à n’importe quel secteur d’activité possédant une bibliothèque vidéo au sein de laquelle les utilisateurs doivent faire des recherches.Search based on such insights from videos is applicable to news agencies, educational institutes, broadcasters, entertainment content owners, enterprise LOB apps, and in general to any industry that has a video library that users need to search against.
  • Création de contenu : Créez des bandes-annonces, des séquences de meilleurs moments, du contenu de réseaux sociaux ou des clips d’actualité basés sur des insights Video Indexer extraits de votre contenu.Content creation: Create trailers, highlight reels, social media content, or news clips based on the insights Video Indexer extracts from your content. Les images clés, les marqueurs de scènes et les timestamps pour les apparences des étiquettes et des personnes rendent le processus de création beaucoup plus lisse et plus simple, et vous permettent d’accéder aux parties de la vidéo dont vous avez besoin pour le contenu que vous créez.Keyframes, scenes markers, and timestamps for the people and label appearances make the creation process much smoother and easier, and allows you to get to the parts of the video you need for the content you're creating.
  • Accessibilité : Si vous souhaitez que votre contenu soit disponible pour les personnes handicapées ou qu’il soit distribué dans différentes régions en différentes langues, vous pouvez utiliser la transcription et la traduction fournies par Video Indexer dans plusieurs langues.Accessibility: Whether you want to make your content available for people with disabilities or if you want your content to be distributed to different regions using different languages, you can use the transcription and translation provided by video indexer in multiple languages.
  • Monétisation : Video Indexer peut aider à augmenter la valeur des vidéos.Monetization: Video Indexer can help increase the value of videos. Par exemple, les secteurs d’activité s’appuyant sur le chiffre d’affaires publicitaire (es médias d’information, les médias sociaux, et ainsi de suite), peuvent fournir des publicités pertinentes en utilisant les insights extraits en tant que signaux supplémentaires pour le serveur publicitaire.For example, industries that rely on ad revenue (news media, social media, and so on) can deliver relevant ads by using the extracted insights as additional signals to the ad server.
  • Modération du contenu : Utilisez des modèles de modération de contenu textuel et visuel afin de protéger vos utilisateurs contre le contenu inapproprié et de vous assurer que le contenu que vous publiez correspond aux valeurs de votre organisation.Content moderation: Use textual and visual content moderation models to keep your users safe from inappropriate content and validate that the content you publish matches your organization’s values. Vous pouvez bloquer automatiquement certaines vidéos ou alerter vos utilisateurs au sujet du contenu.You can automatically block certain videos or alert your users about the content.
  • Suggestions : les insights vidéo peuvent être utilisés pour améliorer l’engagement utilisateur en soulignant les moments intéressants d’une vidéo.Recommendations: Video insights can be used to improve user engagement by highlighting the relevant video moments to users. En marquant chaque vidéo avec des métadonnées supplémentaires, vous pouvez recommander aux utilisateurs les vidéos les plus pertinentes et mettre en évidence la partie de la vidéo qui répondra à leurs besoins.By tagging each video with additional metadata, you can recommend to users the most relevant videos and highlight the parts of the video that will match their needs.

FonctionnalitésFeatures

La liste suivante présente les insights que vous pouvez récupérer à partir de vos vidéos à l’aide des modèles vidéo et audio de Video Indexer :The following list shows the insights you can retrieve from your videos using Video Indexer video and audio models:

Insights vidéoVideo insights

  • Détection de visage : Détecte et regroupe les visages qui apparaissent dans la vidéo.Face detection: Detects and groups faces appearing in the video.
  • Identification de célébrités : Video Indexer identifie automatiquement plus de 1 million de célébrités : dirigeants, acteurs et actrices, athlètes, chercheurs, dirigeants d’entreprise et spécialistes techniques du monde entier.Celebrity identification: Video Indexer automatically identifies over 1 million celebrities—like world leaders, actors, actresses, athletes, researchers, business, and tech leaders across the globe. Les données relatives à ces célébrités figurent également sur plusieurs sites Web (tels que IMDB, Wikipedia, etc.).The data about these celebrities can also be found on various websites (IMDB, Wikipedia, and so on).
  • Identification des visages basée sur le compte : Video Indexer effectue l’apprentissage d’un modèle pour un compte spécifique.Account-based face identification: Video Indexer trains a model for a specific account. Il reconnaît ensuite les visages dans la vidéo en fonction du modèle formé.It then recognizes faces in the video based on the trained model. Pour plus d’informations, consultez Personnaliser un modèle de personne depuis le site web Video Indexer et Personnaliser un modèle de personne avec l’API Video Indexer.For more information, see Customize a Person model from the Video Indexer website and Customize a Person model with the Video Indexer API.
  • Extraction de miniatures pour les visages (« meilleurs visages »)  : Identifie automatiquement le meilleur visage capturé dans chaque groupe de visages (en fonction de la qualité, de la taille et de la position frontale) et l’extrait en tant qu’actif d’image.Thumbnail extraction for faces ("best face"): Automatically identifies the best captured face in each group of faces (based on quality, size, and frontal position) and extracts it as an image asset.
  • Reconnaissance visuelle du texte (OCR) : Extrait le texte qui s’affiche visuellement dans la vidéo.Visual text recognition (OCR): Extracts text that's visually displayed in the video.
  • Modération du contenu visuel : Détecte les contenus choquants et/ou destinés aux adultes.Visual content moderation: Detects adult and/or racy visuals.
  • Identification des étiquettes : Identifie les objets visuels et les actions affichés.Labels identification: Identifies visual objects and actions displayed.
  • Segmentation de scène : Détermine quand une scène change dans la vidéo via des signaux visuels. Une scène représente un événement unique et est composée d’une série de captures consécutives, qui sont sémantiquement liées.Scene segmentation: Determines when a scene changes in video based on visual cues. A scene depicts a single event and it's composed by a series of consecutive shots, which are semantically related.
  • Détection de plan : Détermine quand un plan change dans la vidéo via des signaux visuels. Un plan est une série d’images prises par la même caméra.Shot detection: Determines when a shot changes in video based on visual cues. A shot is a series of frames taken from the same motion-picture camera. Pour plus d’informations, consultez Scènes, plans et images clés.For more information, see Scenes, shots, and keyframes.
  • Détection de cadre noir : Identifie les cadres noirs présents dans la vidéo.Black frame detection: Identifies black frames presented in the video.
  • Extraction d’images clés : Détecte les images clés stables dans une vidéo.Keyframe extraction: Detects stable keyframes in a video.
  • Déploiement de crédits : Identifie le début et la fin des crédits à la fin des émissions de télévision et des films.Rolling credits: Identifies the beginning and end of the rolling credits in the end of TV shows and movies.
  • Détection de personnages animés (préversion) : Détection, regroupement et reconnaissance de personnages dans le contenu animé via l’intégration avec Cognitive Services Custom Vision.Animated characters detection (preview): Detection, grouping, and recognition of characters in animated content via integration with Cognitive Services custom vision. Pour plus d’informations, consultez Détection de personnages animés.For more information, see Animated character detection.
  • Détection du type de plan éditorial : Marquage de plans en fonction de leur type (par exemple, plan large, plan moyen, gros plan, très gros plan, deux plans, plusieurs personnes, extérieur et intérieur, etc.).Editorial shot type detection: Tagging shots based on their type (like wide shot, medium shot, close up, extreme close up, two shot, multiple people, outdoor and indoor, and so on). Pour plus d’informations, consultez Détection du type de plan éditorial.For more information, see Editorial shot type detection.

Insights audioAudio insights

  • Transcription audio : Convertit la parole en texte dans 12 langues et autorise les extensions.Audio transcription: Converts speech to text in 12 languages and allows extensions. Les langues prises en charge incluent l’anglais, l’espagnol, le français, l’allemand, l’italien, le chinois (mandarin), le japonais, l’arabe, le russe, le portugais (Brésil), l’hindi et le coréen.Supported languages include English, Spanish, French, German, Italian, Mandarin Chinese, Japanese, Arabic, Russian, Brazilian Portuguese, Hindi, and Korean.
  • Détection de langue automatique : Identifie automatiquement la langue parlée dominante.Automatic language detection: Automatically identifies the dominant spoken language. Les langues prises en charge incluent l’anglais, l’espagnol, le français, l’allemand, l’italien, le chinois (mandarin), le japonais, le russe et le portugais (Brésil).Supported languages include English, Spanish, French, German, Italian, Mandarin Chinese, Japanese, Russian, and Brazilian Portuguese. Si la langue ne peut pas être identifiée en toute confiance, Video Indexer suppose que la langue parlée est l’anglais.If the language can't be identified with confidence, Video Indexer assumes the spoken language is English. Pour plus d'informations, voir Modèle d’identification de langues.For more information, see Language identification model.
  • Identification et transcription de discours en plusieurs langues (préversion) : Identifie automatiquement la langue parlée dans les segments différents de l’audio.Multi-language speech identification and transcription (preview): Automatically identifies the spoken language in different segments from audio. Il envoie chaque segment du fichier multimédia à transcrire, puis regroupe la transcription dans une transcription unifiée.It sends each segment of the media file to be transcribed and then combines the transcription back to one unified transcription. Pour plus d’informations, consultez Identifier et transcrire automatiquement un contenu multilingue.For more information, see Automatically identify and transcribe multi-language content.
  • Sous-titrage : Crée un sous-titrage dans trois formats : VTT, TTML, SRT.Closed captioning: Creates closed captioning in three formats: VTT, TTML, SRT.
  • Traitement en deux canaux : Détecte automatiquement, sépare la transcription et fusionne en une chronologie unique.Two channel processing: Auto detects separate transcript and merges to single timeline.
  • Réduction du bruit : Nettoie les enregistrements contenant du bruit ou de l’audio de téléphonie (en fonction des filtres Skype).Noise reduction: Clears up telephony audio or noisy recordings (based on Skype filters).
  • Personnalisation de la transcription (CRIS) : Entraîne des modèles de reconnaissance vocale personnalisés pour créer des transcriptions spécifiques au secteur.Transcript customization (CRIS): Trains custom speech to text models to create industry-specific transcripts. Pour plus d’informations, consultez Personnaliser un modèle de langue depuis le site web Video Indexer et Personnaliser un modèle de langue avec l’API Video Indexer.For more information, see Customize a Language model from the Video Indexer website and Customize a Language model with the Video Indexer APIs.
  • Énumération de l’orateur : Mappe et comprend quel orateur a prononcé tels mots et à quel moment.Speaker enumeration: Maps and understands which speaker spoke which words and when.
  • Statistiques de l’orateur : Fournit des statistiques concernant les ratios de parole des orateurs.Speaker statistics: Provides statistics for speakers' speech ratios.
  • Modération du contenu textuel : Détecte le texte explicite dans la transcription audio.Textual content moderation: Detects explicit text in the audio transcript.
  • Effets audio : Identifie les effets audio tels que les applaudissements, la parole et le silence.Audio effects: Identifies audio effects like hand claps, speech, and silence.
  • Détection d’émotions : Identifie des émotions en fonction de la voix (ce qui est dit) et de la tonalité (la façon de parler).Emotion detection: Identifies emotions based on speech (what's being said) and voice tonality (how it's being said). L’émotion peut être le bonheur, la tristesse, la colère ou la peur.The emotion could be joy, sadness, anger, or fear.
  • Traduction : Crée des traductions de la transcription audio en 54 langues différentes.Translation: Creates translations of the audio transcript to 54 different languages.

Insights audio et vidéo (plusieurs canaux)Audio and video insights (multi-channels)

Lors de l’indexation d’un canal, le résultat partiel pour ces modèles sera disponible.When indexing by one channel, partial result for those models will be available.

  • Extraction de mots-clés : Extrait les mots clés du texte visuel ou vocal.Keywords extraction: Extracts keywords from speech and visual text.
  • Extraction des entités nommées : extrait des marques, des emplacements et des personnes à partir de la reconnaissance vocale et du texte visuel via le traitement en langage naturel (NLP).Named entities extraction: Extracts brands, locations, and people from speech and visual text via natural language processing (NLP).
  • Inférence de la rubrique : Fait des inférences des principales rubriques à partir de transcriptions.Topic inference: Makes inference of main topics from transcripts. La taxonomie IPTC de second niveau est incluse.The 2nd-level IPTC taxonomy is included.
  • Artefacts : Extrait un ensemble complet d’artefacts d’un « niveau suivant de détails » pour chacun des modèles.Artifacts: Extracts rich set of "next level of details" artifacts for each of the models.
  • Analyse des sentiments : Identifie les sentiments positifs, négatifs et neutres à partir de la reconnaissance vocale et visuelle du texte.Sentiment analysis: Identifies positive, negative, and neutral sentiments from speech and visual text.

Comment bien démarrer avec Video Indexer ?How can I get started with Video Indexer?

Vous pouvez accéder aux fonctionnalités de Video Indexer de trois façons :You can access Video Indexer capabilities in three ways:

  • Portail Video Indexer : Une solution facile à utiliser qui vous permet d’évaluer le produit, de gérer le compte et de personnaliser les modèles.Video Indexer portal: An easy to use solution that lets you evaluate the product, manage the account, and customize models.

    Pour plus d’informations sur le portail, consultez le site web Bien démarrer avec Video Indexer.For more information about the portal, see Get started with the Video Indexer website.

  • Intégration d’API : Toutes les fonctionnalités de Video Indexer sont disponibles par le biais d’une API REST, qui vous permet d’intégrer la solution dans vos applications et votre infrastructure.API integration: All of Video Indexer’s capabilities are available through a REST API, which lets you integrate the solution into your apps and infrastructure.

    Pour bien démarrer en tant que développeur, consultez  Utiliser l’API REST Video Indexer.To get started as a developer, see Use Video Indexer REST API.

  • Widget incorporable : Vous permet d’incorporer les expériences d’insights, de lecteur et d’éditeur Video Indexer dans votre application.Embeddable widget: Lets you embed the Video Indexer insights, player, and editor experiences into your app.

    Pour plus d’informations, consultez  Incorporer des widgets Video Indexer dans vos applications.For more information, see Embed visual widgets in your application.

Si vous utilisez le site web, les insights sont ajoutés en tant que métadonnées et sont visibles dans le portail.If you're using the website, the insights are added as metadata and are visible in the portal. Si vous utilisez des API, les insights sont disponibles sous forme de fichier JSON.If you're using APIs, the insights are available as a JSON file.

Étapes suivantesNext steps

Vous êtes prêt à vous lancer avec Video Indexer.You're ready to get started with Video Indexer. Pour plus d’informations, consultez les articles suivants :For more information, see the following articles: