¿Qué es Video Indexer de Azure Media Services?What is Azure Media Services Video Indexer?

El 11 de junio de 2020 Microsoft anunció que no venderá tecnología de reconocimiento facial a los departamentos de policía de Estados Unidos hasta que se promulgue un reglamento estricto cimentado en los derechos humanos.

Video Indexer (VI) es la solución de IA de Azure Media Services y parte de la marca Azure Cognitive Services.Video Indexer (VI) is the Azure Media Services AI solution and part of the Azure Cognitive Services brand. Video Indexer proporciona la capacidad de extraer información profunda (sin necesidad de análisis de datos o conocimientos de codificación) mediante el uso de modelos de Machine Learning basados en varios canales (voz, voces y objeto visual).Video Indexer provides ability to extract deep insights (with no need for data analysis or coding skills) using machine learning models based on multiple channels (voice, vocals, visual). Los modelos se pueden personalizar y entrenar aún más.You can further customize and train the models. El servicio habilita la búsqueda profunda, reduce los costos operativos, permite nuevas oportunidades de monetización y crea nuevas experiencias de usuario en grandes archivos de vídeos (con barreras de entrada bajas).The service enables deep search, reduces operational costs, enables new monetization opportunities, and creates new user experiences on large archives of videos (with low entry barriers).

Para empezar a extraer información con Video Indexer, tiene que crear una cuenta y cargar vídeos.To start extracting insights with Video Indexer, you need to create an account and upload videos. Cuando se cargan vídeos en Video Indexer, este analiza los objetos visuales y el audio mediante la ejecución de diferentes modelos de IA.When you upload your videos to Video Indexer, it analyses both visuals and audio by running different AI models. A medida que Video Indexer analiza el vídeo, los modelos de IA extraen la información.As Video Indexer analyzes your video, the insights that are extracted by the AI models.

Cuando crea una cuenta de Video Indexer y la conecta a Media Services, los archivos multimedia y de metadatos se almacenan en la cuenta de almacenamiento de Azure asociada con esa cuenta de Media Services.When you create a Video Indexer account and connect it to Media Services, the media and metadata files are stored in the Azure storage account associated with that Media Services account. Obtenga información sobre cómo crear una cuenta de Video Indexer conectada a Azure.For more information, see Create a Video Indexer account connected to Azure.

El siguiente diagrama es una ilustración, no una explicación técnica, de cómo funciona Video Indexer en el back-end.The following diagram is an illustration and not a technical explanation of how Video Indexer works in the backend.

Diagrama de flujo de Video Indexer de Azure Media Services

Cumplimiento, privacidad y seguridadCompliance, Privacy and Security

Como recordatorio importante, debe cumplir todas las leyes aplicables al uso de Video Indexer y no puede utilizar este servicio de Azure ni ningún otro de forma que infrinja los derechos de otras personas o que pueda ser perjudicial para ellas.As an important reminder, you must comply with all applicable laws in your use of Video Indexer, and you may not use Video Indexer or any Azure service in a manner that violates the rights of others, or that may be harmful to others.

Antes de cargar un vídeo o una imagen en Video Indexer, debe tener todos los derechos adecuados para usar ese vídeo o imagen, incluidos (cuando lo exija la ley) todos los consentimientos necesarios de las personas (si las hay) que aparecen en ellos, para el uso, el procesamiento y el almacenamiento de sus datos en Video Indexer y Azure.Before uploading any video/image to Video Indexer, You must have all the proper rights to use the video/image, including, where required by law, all the necessary consents from individuals (if any) in the video/image, for the use, processing, and storage of their data in Video Indexer and Azure. Algunas jurisdicciones pueden imponer requisitos legales especiales sobre la recopilación, el procesamiento en línea y el almacenamiento de determinadas categorías de datos, como los datos biométricos.Some jurisdictions may impose special legal requirements for the collection, online processing and storage of certain categories of data, such as biometric data. Antes de usar Video Indexer y Azure para el procesamiento y el almacenamiento de datos sujetos a requisitos legales especiales, debe garantizar el cumplimiento de tales requisitos legales que puedan aplicarse en su caso.Before using Video Indexer and Azure for the processing and storage of any data subject to special legal requirements, You must ensure compliance with any such legal requirements that may apply to You.

Para información sobre el cumplimiento, la privacidad y la seguridad en Video Indexer, visite el Centro de confianza de Microsoft.To learn about compliance, privacy and security in Video Indexer please visit the Microsoft Trust Center. En lo que respecta a las obligaciones de privacidad y a las prácticas de retención y tratamiento de datos de Microsoft, entre las que se incluye la forma de eliminar los datos, lea la declaración de privacidad, los términos de Online Services ("OST") y el anexo de procesamiento de datos ("DPA") de Microsoft.For Microsoft's privacy obligations, data handling and retention practices, including how to delete your data, please review Microsoft's Privacy Statement, the Online Services Terms ("OST") and Data Processing Addendum ("DPA"). Con el uso de Video Indexer, acepta estar vinculado por el OST, el DPA y la declaración de privacidad.By using Video Indexer, you agree to be bound by the OST, DPA and the Privacy Statement.

¿Qué puedo hacer con Video Indexer?What can I do with Video Indexer?

La información de Video Indexer se puede aplicar a muchos escenarios, entre ellos:Video Indexer's insights can be applied to many scenarios, among them are:

  • Búsqueda profunda: use la información extraída del vídeo para mejorar la experiencia de búsqueda en una biblioteca de vídeos.Deep search: Use the insights extracted from the video to enhance the search experience across a video library. Por ejemplo, la indexación de palabras habladas y de caras, permite la experiencia de búsqueda de momentos en un vídeo en los que una persona ha pronunciado ciertas palabras o cuando se han visto juntas a dos personas.For example, indexing spoken words and faces can enable the search experience of finding moments in a video where a person spoke certain words or when two people were seen together. La búsqueda basada en esta información de los vídeos se puede aplicar a agencias de noticias, instituciones educativas, emisoras, propietarios de contenido de entretenimiento, aplicaciones de línea de negocio de empresas y, en general, a cualquier sector que tenga una biblioteca de vídeos en la que los usuarios necesiten buscar.Search based on such insights from videos is applicable to news agencies, educational institutes, broadcasters, entertainment content owners, enterprise LOB apps, and in general to any industry that has a video library that users need to search against.
  • Creación de contenido: cree clips finales, resalte momentos destacados, contenido de redes sociales o clips de noticias basados en la información que Video Indexer extrae del contenido.Content creation: Create trailers, highlight reels, social media content, or news clips based on the insights Video Indexer extracts from your content. Los fotogramas clave, los marcadores de escenas y las marcas de tiempo para las apariciones de personas y etiquetas hacen que el proceso de creación sea mucho más fluido y sencillo y le permiten ir a las partes del vídeo que necesita para el contenido que está creando.Keyframes, scenes markers, and timestamps for the people and label appearances make the creation process much smoother and easier, and allows you to get to the parts of the video you need for the content you're creating.
  • Accesibilidad: si quiere que el contenido esté disponible para personas con discapacidades o que se distribuya en distintas regiones con diferentes idiomas, puede usar la transcripción y traducción que proporciona Video Indexer en varios idiomas.Accessibility: Whether you want to make your content available for people with disabilities or if you want your content to be distributed to different regions using different languages, you can use the transcription and translation provided by video indexer in multiple languages.
  • Monetization: Video Indexer puede ayudar a aumentar el valor de los vídeos.Monetization: Video Indexer can help increase the value of videos. Por ejemplo, los sectores que dependen de los ingresos por publicidad (medios de comunicación, redes sociales, etc.), pueden entregar anuncios relevantes con la información extraída como señales adicionales al servidor de anuncios.For example, industries that rely on ad revenue (news media, social media, and so on) can deliver relevant ads by using the extracted insights as additional signals to the ad server.
  • Moderación de contenido: use modelos de moderación de contenido textual y visual para proteger a los usuarios del contenido inadecuado y asegúrese de que el contenido que publica coincide con los valores de la organización.Content moderation: Use textual and visual content moderation models to keep your users safe from inappropriate content and validate that the content you publish matches your organization's values. Puede bloquear automáticamente determinados vídeos o avisar a los usuarios sobre el contenido.You can automatically block certain videos or alert your users about the content.
  • Recomendaciones: La información de vídeo se puede usar para mejorar la interacción con los usuarios, resaltando los momentos de vídeo que les puedan resultar más pertinentes.Recommendations: Video insights can be used to improve user engagement by highlighting the relevant video moments to users. Al etiquetar cada vídeo con metadatos adicionales, puede recomendar a los usuarios los vídeos más importantes y resaltar las partes del vídeo que se adaptan mejor a sus necesidades.By tagging each video with additional metadata, you can recommend to users the most relevant videos and highlight the parts of the video that will match their needs.

CaracterísticasFeatures

En la siguiente lista se muestra la información que se puede recuperar de los vídeos mediante los modelos de audio y vídeo de Video Indexer:The following list shows the insights you can retrieve from your videos using Video Indexer video and audio models:

Información de los vídeosVideo insights

  • Detección de caras: detecta y agrupa las caras que aparecen en el vídeo.Face detection: Detects and groups faces appearing in the video.
  • Identificación de celebridades: Video Indexer identifica automáticamente a más de un millón de famosos (como líderes mundiales, actores y actrices, atletas, investigadores y líderes empresariales y tecnológicos de todo el mundo).Celebrity identification: Video Indexer automatically identifies over 1 million celebrities—like world leaders, actors, actresses, athletes, researchers, business, and tech leaders across the globe. Los datos sobre estos famosos también pueden encontrarse en diversos sitios web (IMDB, Wikipedia, etc.).The data about these celebrities can also be found on various websites (IMDB, Wikipedia, and so on).
  • Identificación facial basada en cuentas: Video Indexer entrena un modelo para una cuenta específica.Account-based face identification: Video Indexer trains a model for a specific account. A continuación reconoce las caras en el vídeo según el modelo entrenado.It then recognizes faces in the video based on the trained model. Para más información, consulte Customize a Person model from the Video Indexer website (Personalización de un modelo de persona desde el sitio web de Video Indexer) y Customize a Person model with the Video Indexer API (Personalización de un modelo de persona con Video Indexer API).For more information, see Customize a Person model from the Video Indexer website and Customize a Person model with the Video Indexer API.
  • Extracción de miniaturas de caras ("mejor cara"): identifica automáticamente la mejor cara capturada en cada grupo de caras (según la calidad, el tamaño y la posición frontal) y la extrae como un recurso de imagen.Thumbnail extraction for faces ("best face"): Automatically identifies the best captured face in each group of faces (based on quality, size, and frontal position) and extracts it as an image asset.
  • Reconocimiento de texto visual (OCR): extrae el texto que se muestra visualmente en el vídeo.Visual text recognition (OCR): Extracts text that's visually displayed in the video.
  • Moderación de contenido visual: Detecta los objetos visuales para adultos o subidos de tono.Visual content moderation: Detects adult and/or racy visuals.
  • Identificación de etiquetas: identifica los objetos visuales y las acciones que se muestran.Labels identification: Identifies visual objects and actions displayed.
  • Segmentación de escenas: determina cuándo cambia una escena en el vídeo en función de las indicaciones visuales. Una escena representa un evento único y se compone de una serie de cortes consecutivos que están semánticamente relacionados.Scene segmentation: Determines when a scene changes in video based on visual cues. A scene depicts a single event and it's composed by a series of consecutive shots, which are semantically related.
  • Detección de cortes: determina cuándo cambia un corte en el vídeo en función de las indicaciones visuales. Un corte es una serie de fotogramas tomados a partir de la misma cámara de imágenes en movimiento.Shot detection: Determines when a shot changes in video based on visual cues. A shot is a series of frames taken from the same motion-picture camera. Para más información, consulte Scenes, shots, and keyframes (Escenas, cortes y fotogramas clave).For more information, see Scenes, shots, and keyframes.
  • Detección de fotogramas negros: identifica los fotogramas negros presentados en el vídeo.Black frame detection: Identifies black frames presented in the video.
  • Extracción de fotogramas clave: detecta los fotogramas clave estables en un vídeo.Keyframe extraction: Detects stable keyframes in a video.
  • Créditos de rodaje: identifica el principio y el final de los créditos al final de las series de televisión y las películas.Rolling credits: Identifies the beginning and end of the rolling credits in the end of TV shows and movies.
  • Detección de personajes animados (versión preliminar): detección, agrupación y reconocimiento de personajes en contenido animado a través de la integración con la visión personalizada de Cognitive Services.Animated characters detection (preview): Detection, grouping, and recognition of characters in animated content via integration with Cognitive Services custom vision. Para más información, consulte Detección de personajes animados.For more information, see Animated character detection.
  • Detección del tipo de toma editorial: etiquetado de capturas basado en su tipo (como plano general, plano medio, primer plano, primerísimo primer plano, dos capturas, varias personas, exterior e interior, etc.).Editorial shot type detection: Tagging shots based on their type (like wide shot, medium shot, close up, extreme close up, two shot, multiple people, outdoor and indoor, and so on). Para más información, consulte Detección del tipo de toma editorial.For more information, see Editorial shot type detection.

Información de audioAudio insights

  • Transcripción de audio: convierte la voz en texto en 12 idiomas y permite extensiones.Audio transcription: Converts speech to text in 12 languages and allows extensions. Los idiomas admitidos son los siguientes: alemán, árabe, chino (mandarín), coreano, español, francés, hindi, inglés, italiano, japonés, portugués y ruso.Supported languages include English, Spanish, French, German, Italian, Mandarin Chinese, Japanese, Arabic, Russian, Portuguese, Hindi, and Korean.
  • Detección de idioma automática: identifica automáticamente el idioma hablado dominante.Automatic language detection: Automatically identifies the dominant spoken language. Los idiomas admitidos son los siguientes: alemán, chino (mandarín), español, francés, inglés, italiano, japonés, portugués y ruso.Supported languages include English, Spanish, French, German, Italian, Mandarin Chinese, Japanese, Russian, and Portuguese. Si el idioma hablado no se puede identificar con confianza, Video Indexer supone que es inglés.If the language can't be identified with confidence, Video Indexer assumes the spoken language is English. Para obtener más información, vea Modelo de identificación de idiomas.For more information, see Language identification model.
  • Identificación y transcripción de voz en varios idiomas: identifica automáticamente el idioma hablado en diferentes segmentos del audio.Multi-language speech identification and transcription: Automatically identifies the spoken language in different segments from audio. Envía cada segmento del archivo multimedia que se va a transcribir y luego combina la transcripción en una unificada.It sends each segment of the media file to be transcribed and then combines the transcription back to one unified transcription. Para más información, consulte Identificación y transcripción automáticas del contenido de varios idiomas.For more information, see Automatically identify and transcribe multi-language content.
  • Subtítulos (CC) : crea subtítulos en tres formatos: VTT, TTML y SRT.Closed captioning: Creates closed captioning in three formats: VTT, TTML, SRT.
  • Procesamiento de dos canales: detecta, separa la transcripción y se combina en una única escala de tiempo de forma automática.Two channel processing: Auto detects separate transcript and merges to single timeline.
  • Reducción de ruido: borra el audio telefónico o las grabaciones ruidosas (basado en los filtros de Skype).Noise reduction: Clears up telephony audio or noisy recordings (based on Skype filters).
  • Personalización de la transcripción (CRIS): entrena modelos personalizados de conversión de voz en texto para crear transcripciones específicas del sector.Transcript customization (CRIS): Trains custom speech to text models to create industry-specific transcripts. Para más información, consulte Customize a Language model from the Video Indexer website (Personalización de un modelo de lenguaje desde el sitio web de Video Indexer) y Customize a Language model with the Video Indexer API (Personalización de un modelo de lenguaje con Video Indexer API).For more information, see Customize a Language model from the Video Indexer website and Customize a Language model with the Video Indexer APIs.
  • Enumeración de altavoz: asigna y comprende las palabras que transmitió cada altavoz y cuándo.Speaker enumeration: Maps and understands which speaker spoke which words and when. Se pueden detectar dieciséis altavoces en un solo archivo de audio.Sixteen speakers can be detected in a single audio-file.
  • Estadísticas de altavoz: Proporciona las estadísticas de las relaciones de voz de los altavoces.Speaker statistics: Provides statistics for speakers' speech ratios.
  • Moderación de contenido textual: detecta texto explícito en la transcripción de audio.Textual content moderation: Detects explicit text in the audio transcript.
  • Efectos de audio (versión preliminar pública): detecta los siguientes efectos de audio en los segmentos del contenido que no son de voz: disparo de un arma, rotura de un cristal, alarma, sirena, explosión, ladridos, gritos, risas, reacciones de una multitud (júbilo, aplausos y abucheos) y silencio.Audio effects (public preview): Detects the following audio effects in the non-speech segments of the content: Gunshot, Glass shatter, Alarm, Siren, Explosion, Dog Bark, Screaming, Laughter, Crowd reactions (cheering, clapping, and booing) and Silence. Nota: El conjunto completo de eventos solo está disponible cuando se elige "Advanced Audio Analysis" (Análisis de audio avanzado) en Upload preset (Cargar valores predeterminados); de lo contrario, solo estarán disponibles los eventos de silencio y reacciones de una multitud.Note: the full set of events is available only when choosing ‘Advanced Audio Analysis’ in upload preset, otherwise only ‘Silence’ and ‘Crowd reaction’ will be available.
  • Detección de emociones: identifica emociones en función de la voz (lo que se dice) y el tono (cómo se dice).Emotion detection: Identifies emotions based on speech (what's being said) and voice tonality (how it's being said). La emoción podría ser felicidad, tristeza, ira o miedo.The emotion could be joy, sadness, anger, or fear.
  • Traducción: crea traducciones de la transcripción de audio en 54 idiomas diferentes.Translation: Creates translations of the audio transcript to 54 different languages.

Información de audio y vídeo (varios canales)Audio and video insights (multi-channels)

Al indexar por un canal, hay resultados parciales para esos modelos.When indexing by one channel, partial result for those models will be available.

  • Extracción de palabras clave: extrae palabras clave a partir de voz y texto visual.Keywords extraction: Extracts keywords from speech and visual text.
  • Extracción de entidades con nombre: extrae marcas, ubicaciones y personas del lenguaje hablado y del texto visual mediante el procesamiento de lenguaje natural (NLP).Named entities extraction: Extracts brands, locations, and people from speech and visual text via natural language processing (NLP).
  • Inferencia de tema: saca conclusiones de los temas principales a partir de las transcripciones.Topic inference: Makes inference of main topics from transcripts. Se incluye la taxonomía IPTC de segundo nivel.The 2nd-level IPTC taxonomy is included.
  • Artefactos: extrae una amplia variedad de artefactos de "detalles de siguiente nivel" para cada uno de los modelos.Artifacts: Extracts rich set of "next level of details" artifacts for each of the models.
  • Análisis de opiniones: identifica opiniones positivas, negativas y neutras a partir de voz y texto visual.Sentiment analysis: Identifies positive, negative, and neutral sentiments from speech and visual text.

¿Cómo puedo empezar a usar Video Indexer?How can I get started with Video Indexer?

Puede acceder a las funciones de Video Indexer de tres maneras:You can access Video Indexer capabilities in three ways:

  • Portal de Video Indexer: una solución fácil de usar que le permite evaluar el producto, administrar la cuenta y personalizar los modelos.Video Indexer portal: An easy to use solution that lets you evaluate the product, manage the account, and customize models.

    Para más información sobre el portal, consulte la Introducción al sitio web de Video Indexer.For more information about the portal, see Get started with the Video Indexer website.

  • Integración de API: todas las funcionalidades de Video Indexer están disponibles a través de una API REST para que pueda integrar la solución en las aplicaciones y la infraestructura.API integration: All of Video Indexer's capabilities are available through a REST API, which lets you integrate the solution into your apps and infrastructure.

    Para empezar a trabajar como desarrollador, consulte  Uso de la API REST de Video Indexer.To get started as a developer, see Use Video Indexer REST API.

  • Widget insertable: permite insertar las experiencias de información, reproductor y editor de Video Indexer en la aplicación.Embeddable widget: Lets you embed the Video Indexer insights, player, and editor experiences into your app.

    Para más información, consulte  Inserción de widgets de Video Indexer en las aplicaciones.For more information, see Embed visual widgets in your application.

Si usa el sitio web, la información se agrega como metadatos y es visible en el portal.If you're using the website, the insights are added as metadata and are visible in the portal. Si usa las API, la información está disponible como archivo JSON.If you're using APIs, the insights are available as a JSON file.

Exploradores compatiblesSupported browsers

En la lista siguiente se muestran los exploradores admitidos que puede usar para el sitio web de Video Indexer y para las aplicaciones que insertan los widgets.The following list shows the supported browsers that you can use for the Video Indexer website and for your apps that embed the widgets. La lista también muestra la versión mínima admitida del explorador:The list also shows the minimum supported browser version:

  • Edge, versión 16Edge, version: 16
  • Firefox, versión 54Firefox, version: 54
  • Chrome, versión 58Chrome, version: 58
  • Safari, versión 11Safari, version: 11
  • Opera, versión 44Opera, version: 44
  • Opera Mobile, versión 59Opera Mobile, version: 59
  • Explorador de Android, versión 81Android Browser, version: 81
  • Explorador de Samsung, versión 7Samsung Browser, version: 7
  • Chrome para Android, versión 87Chrome for Android, version: 87
  • Firefox para Android, versión 83Firefox for Android, version: 83

Pasos siguientesNext steps

Ya está listo para empezar a trabajar con Video Indexer.You're ready to get started with Video Indexer. Para más información, consulte los siguientes artículos.For more information, see the following articles: