Informazioni su Video IndexerWhat is Video Indexer?

Video Indexer (VI) è la soluzione di intelligenza artificiale di servizi multimediali di Azure e fa parte del marchio Servizi cognitivi di Azure.Video Indexer (VI) is the Azure Media Services AI solution and part of the Azure Cognitive Services brand. Video Indexer offre la possibilità di estrarre informazioni approfondite (senza necessità di analisi dei dati o competenze di codifica) usando modelli di apprendimento automatico basati su più canali (voce, vocals, Visual).Video Indexer provides ability to extract deep insights (with no need for data analysis or coding skills) using machine learning models based on multiple channels (voice, vocals, visual). È possibile personalizzare ulteriormente ed eseguire il training dei modelli.You can further customize and train the models. Il servizio consente la ricerca approfondita, riduce i costi operativi, Abilita nuove opportunità di monetizzazione e crea nuove esperienze utente su archivi di video di grandi dimensioni (con barriere di immissione minime).The service enables deep search, reduces operational costs, enables new monetization opportunities, and creates new user experiences on large archives of videos (with low entry barriers).

Per iniziare a estrarre informazioni dettagliate con Video Indexer, è necessario creare un account e caricare i video.To start extracting insights with Video Indexer, you need to create an account and upload videos. Quando si caricano i video in Video Indexer, analizza sia gli oggetti visivi che l'audio eseguendo diversi modelli di intelligenza artificiale.When you upload your videos to Video Indexer, it analyses both visuals and audio by running different AI models. Video Indexer analizza il video, le informazioni dettagliate estratte dai modelli di intelligenza artificiale.As Video Indexer analyzes your video, the insights that are extracted by the AI models.

Il diagramma seguente è un'illustrazione e non una spiegazione tecnica del funzionamento di Video Indexer nel back-end.The following diagram is an illustration and not a technical explanation of how Video Indexer works in the backend.

Diagramma di flusso Video Indexer di servizi multimediali di Azure

Quali operazioni si possono eseguire con Video Indexer?What can I do with Video Indexer?

Le informazioni dettagliate di Video Indexer possono essere applicate a molti scenari, tra cui:Video Indexer's insights can be applied to many scenarios, among them are:

  • Ricerca completa: usare le informazioni dettagliate estratte dal video per migliorare l'esperienza di ricerca in una raccolta video.Deep search: Use the insights extracted from the video to enhance the search experience across a video library. Ad esempio, l'indicizzazione di parole e visi è in grado di abilitare l'esperienza di ricerca di individuare i momenti in un video in cui una persona ha parlato di determinate parole o quando due persone sono state visualizzate insieme.For example, indexing spoken words and faces can enable the search experience of finding moments in a video where a person spoke certain words or when two people were seen together. La ricerca basata su tali informazioni dai video è applicabile a agenzie di notizie, istituti didattici, broadcaster, proprietari di contenuti di intrattenimento, app LOB aziendali e in generale a qualsiasi settore che disponga di una videoteca in cui gli utenti devono eseguire ricerche.Search based on such insights from videos is applicable to news agencies, educational institutes, broadcasters, entertainment content owners, enterprise LOB apps, and in general to any industry that has a video library that users need to search against.
  • Creazione di contenuto: creare trailer, evidenziare Reel, contenuto di social media o clip di notizie in base alle informazioni dettagliate video Indexer estratti dal contenuto.Content creation: Create trailers, highlight reels, social media content, or news clips based on the insights Video Indexer extracts from your content. I fotogrammi chiave, i marcatori di scene e i timestamp per le persone e l'aspetto delle etichette rendono il processo di creazione molto più semplice e veloce e consente di ottenere le parti del video necessarie per il contenuto che si sta creando.Keyframes, scenes markers, and timestamps for the people and label appearances make the creation process much smoother and easier, and allows you to get to the parts of the video you need for the content you're creating.
  • Accessibilità: se si vuole rendere disponibili i contenuti per gli utenti con particolari esigenze o se si vuole che il contenuto venga distribuito in aree diverse usando lingue diverse, è possibile usare la trascrizione e la traduzione fornite dal video indicizzatore in più lingue.Accessibility: Whether you want to make your content available for people with disabilities or if you want your content to be distributed to different regions using different languages, you can use the transcription and translation provided by video indexer in multiple languages.
  • Monetizzazione: video Indexer possono contribuire ad aumentare il valore dei video.Monetization: Video Indexer can help increase the value of videos. Ad esempio, le industrie che si basano sui ricavi ad (notizie, media e così via) possono fornire annunci rilevanti usando le informazioni dettagliate estratte come segnali aggiuntivi al server ad.For example, industries that rely on ad revenue (news media, social media, and so on) can deliver relevant ads by using the extracted insights as additional signals to the ad server.
  • Moderazione del contenuto: usare i modelli di moderazione del contenuto visivo e testuale per proteggere gli utenti dal contenuto inappropriato e verificare che i contenuti pubblicati corrispondano ai valori dell'organizzazione.Content moderation: Use textual and visual content moderation models to keep your users safe from inappropriate content and validate that the content you publish matches your organization’s values. È possibile bloccare automaticamente determinati video o avvisare gli utenti sul contenuto.You can automatically block certain videos or alert your users about the content.
  • Suggerimenti: le informazioni dettagliate sul video possono essere usate per migliorare il coinvolgimento degli utenti evidenziando i momenti video pertinenti agli utenti.Recommendations: Video insights can be used to improve user engagement by highlighting the relevant video moments to users. Contrassegnando ogni video con metadati aggiuntivi, è possibile consigliare agli utenti i video più rilevanti ed evidenziare le parti del video che soddisfano le proprie esigenze.By tagging each video with additional metadata, you can recommend to users the most relevant videos and highlight the parts of the video that will match their needs.

FunzionalitàFeatures

L'elenco seguente mostra le informazioni che è possibile recuperare dai video usando Video Indexer modelli video e audio:The following list shows the insights you can retrieve from your videos using Video Indexer video and audio models:

Informazioni dettagliate sui contenuti videoVideo insights

  • Rilevamento volto: rileva e raggruppa i visi visualizzati nel video.Face detection: Detects and groups faces appearing in the video.
  • Identificazione delle celebrità: video Indexer identifica automaticamente più di 1 milione celebrità, ad esempio leader mondiali, attori, attrici, atleti, ricercatori, aziende e leader della tecnologia in tutto il mondo.Celebrity identification: Video Indexer automatically identifies over 1 million celebrities—like world leaders, actors, actresses, athletes, researchers, business, and tech leaders across the globe. I dati relativi a queste celebrità sono disponibili anche in vari siti Web (IMDB, Wikipedia e così via).The data about these celebrities can also be found on various websites (IMDB, Wikipedia, and so on).
  • Identificazione viso basata sull'account: Video Indexer esegue il training di un modello per un account specifico.Account-based face identification: Video Indexer trains a model for a specific account. Riconosce quindi i visi nel video in base al modello sottoposto a training.It then recognizes faces in the video based on the trained model. Per altre informazioni, vedere personalizzare un modello di persona dal sito web video Indexer e personalizzare un modello di persona con l'API video Indexer.For more information, see Customize a Person model from the Video Indexer website and Customize a Person model with the Video Indexer API.
  • Estrazione di anteprime per visi ("Best Face"): identifica automaticamente il volto acquisito migliore in ogni gruppo di visi (in base alla qualità, alle dimensioni e alla posizione frontale) e lo estrae come asset di immagine.Thumbnail extraction for faces ("best face"): Automatically identifies the best captured face in each group of faces (based on quality, size, and frontal position) and extracts it as an image asset.
  • Riconoscimento del testo visivo (OCR): estrae il testo visualizzato visivamente nel video.Visual text recognition (OCR): Extracts text that's visually displayed in the video.
  • Moderazione del contenuto visivo: rileva contenuto visivo per adulti e/o razzista.Visual content moderation: Detects adult and/or racy visuals.
  • Identificazione delle etichette: identifica gli oggetti visivi e le azioni visualizzate.Labels identification: Identifies visual objects and actions displayed.
  • Segmentazione della scena: determina quando una scena cambia in video in base a segnali visivi. Una scena raffigura un singolo evento ed è costituita da una serie di scatti consecutivi, che sono semanticamente correlati.Scene segmentation: Determines when a scene changes in video based on visual cues. A scene depicts a single event and it's composed by a series of consecutive shots, which are semantically related.
  • Rilevamento shot: determina quando viene modificato il video in base ai segnali visivi. Un'immagine è una serie di frame ricavati dalla stessa fotocamera di movimento.Shot detection: Determines when a shot changes in video based on visual cues. A shot is a series of frames taken from the same motion-picture camera. Per altre informazioni, vedere scene, scatti e fotogrammi chiave.For more information, see Scenes, shots, and keyframes.
  • Rilevamento fotogramma nero: identifica i fotogrammi neri presentati nel video.Black frame detection: Identifies black frames presented in the video.
  • Estrazione di fotogrammi chiave: rileva i fotogrammi chiave stabili in un video.Keyframe extraction: Detects stable keyframes in a video.
  • Crediti in sequenza: identifica l'inizio e la fine dei crediti in sequenza alla fine della TV e dei film.Rolling credits: Identifies the beginning and end of the rolling credits in the end of TV shows and movies.
  • Rilevamento dei caratteri animati (anteprima): rilevamento, raggruppamento e riconoscimento di caratteri nel contenuto animato tramite l'integrazione con la visione personalizzata di servizi cognitivi.Animated characters detection (preview): Detection, grouping, and recognition of characters in animated content via integration with Cognitive Services custom vision. Per ulteriori informazioni, vedere rilevamento dei caratteri animati.For more information, see Animated character detection.
  • Rilevamento del tipo di ripresa editoriale: assegnazione di tag in base al tipo (ad esempio, wide shot, medium, close up, Extreme close up, two shot, multiple people, outdoor e indoor e così via).Editorial shot type detection: Tagging shots based on their type (like wide shot, medium shot, close up, extreme close up, two shot, multiple people, outdoor and indoor, and so on). Per ulteriori informazioni, vedere il rilevamento del tipo di ripresa editoriale.For more information, see Editorial shot type detection.

Informazioni dettagliate sui contenuti audioAudio insights

  • Rilevamento automatico della lingua: identifica automaticamente la lingua parlata dominante.Automatic language detection: Automatically identifies the dominant spoken language. Le lingue supportate sono inglese, spagnolo, francese, tedesco, italiano, cinese (semplificato), giapponese, russo e portoghese (Brasile).Supported languages include English, Spanish, French, German, Italian, Chinese (Simplified), Japanese, Russian, and Brazilian Portuguese. Se la lingua non può essere identificata in tutta sicurezza, Video Indexer presuppone che la lingua parlata sia l'inglese.If the language can't be identified with confidence, Video Indexer assumes the spoken language is English. Per altre informazioni, vedere modello di identificazione della lingua.For more information, see Language identification model.
  • Riconoscimento vocale e trascrizione in più lingue (anteprima): identifica automaticamente la lingua parlata in segmenti diversi dall'audio.Multi-language speech identification and transcription (preview): Automatically identifies the spoken language in different segments from audio. Invia ogni segmento del file multimediale da trascrivere, quindi combina nuovamente la trascrizione a una trascrizione unificata.It sends each segment of the media file to be transcribed and then combines the transcription back to one unified transcription. Per altre informazioni, vedere identificare e trascrivere automaticamente contenuti multilingue.For more information, see Automatically identify and transcribe multi-language content.
  • Trascrizione audio: converte la voce in testo in 12 lingue e consente le estensioni.Audio transcription: Converts speech to text in 12 languages and allows extensions. Le lingue supportate sono inglese, spagnolo, francese, tedesco, italiano, cinese (semplificato), giapponese, arabo, russo, Portoghese brasiliano, Hindi e coreano.Supported languages include English, Spanish, French, German, Italian, Chinese (Simplified), Japanese, Arabic, Russian, Brazilian Portuguese, Hindi, and Korean.
  • Sottotitoli codificati: consente di creare sottotitoli in tre formati: VTT, TTML, SRT.Closed captioning: Creates closed captioning in three formats: VTT, TTML, SRT.
  • Elaborazione di due canali: rileva automaticamente la trascrizione e le unioni separate a una singola sequenza temporale.Two channel processing: Auto detects separate transcript and merges to single timeline.
  • Riduzione del rumore: Cancella la telefonia audio o le registrazioni rumorose (basate sui filtri Skype).Noise reduction: Clears up telephony audio or noisy recordings (based on Skype filters).
  • Trascrizione (Cris): consente di eseguire il training di un riconoscimento vocale personalizzato nei modelli di testo per creare trascrizioni specifiche del settore.Transcript customization (CRIS): Trains custom speech to text models to create industry-specific transcripts. Per altre informazioni, vedere personalizzare un modello di linguaggio dal sito Web di video Indexer e personalizzare un modello di linguaggio con le API video Indexer.For more information, see Customize a Language model from the Video Indexer website and Customize a Language model with the Video Indexer APIs.
  • Speaker Enumeration (enumerazione altoparlante): esegue il mapping e riconosce quale altoparlante ha parlato di quali parole e quando.Speaker enumeration: Maps and understands which speaker spoke which words and when.
  • Statistiche del relatore: fornisce statistiche relative ai rapporti vocali degli altoparlanti.Speaker statistics: Provides statistics for speakers' speech ratios.
  • Moderazione del contenuto testuale: rileva testo esplicito nella trascrizione audio.Textual content moderation: Detects explicit text in the audio transcript.
  • Effetti audio: identifica gli effetti audio come gli applausi a mano, il riconoscimento vocale e il silenzio.Audio effects: Identifies audio effects like hand claps, speech, and silence.
  • Rilevamentoemozioni: identifica le emozioni in base al parlato (cosa viene detto) e alla tonalità vocale (come viene detto).Emotion detection: Identifies emotions based on speech (what's being said) and voice tonality (how it's being said). L'emozione può essere gioia, tristezza, rabbia o timore.The emotion could be joy, sadness, anger, or fear.
  • Traduzione: crea traduzioni della trascrizione audio in 54 lingue diverse.Translation: Creates translations of the audio transcript to 54 different languages.

Informazioni dettagliate audio e video (canali multicanale)Audio and video insights (multi-channels)

Quando si esegue l'indicizzazione in base a un canale, saranno disponibili risultati parziali per tali modelli.When indexing by one channel, partial result for those models will be available.

  • Parole chiave estrazione: estrae parole chiave da sintesi vocale e testo visivo.Keywords extraction: Extracts keywords from speech and visual text.
  • Estrazione di entità denominate: estrae marchi, posizioni e persone da testo vocale e visivo tramite l'elaborazione del linguaggio naturale (PNL).Named entities extraction: Extracts brands, locations, and people from speech and visual text via natural language processing (NLP).
  • Inferenza degli argomenti: deriva gli argomenti principali dalle trascrizioni.Topic inference: Makes inference of main topics from transcripts. È inclusa la tassonomia IPTC di secondo livello.The 2nd-level IPTC taxonomy is included.
  • Artefatti: estrae un ampio set di artefatti con "livello di dettaglio successivo" per ognuno dei modelli.Artifacts: Extracts rich set of "next level of details" artifacts for each of the models.
  • Analisi del sentiment: identifica sentiment positivi, negativi e neutri dal parlato e dal testo visivo.Sentiment analysis: Identifies positive, negative, and neutral sentiments from speech and visual text.

Come è possibile iniziare a usare Video Indexer?How can I get started with Video Indexer?

È possibile accedere alle funzionalità di Video Indexer in tre modi:You can access Video Indexer capabilities in three ways:

  • Portale di Video Indexer: soluzione facile da usare che consente di valutare il prodotto, gestire l'account e personalizzare i modelli.Video Indexer portal: An easy to use solution that lets you evaluate the product, manage the account, and customize models.

    Per ulteriori informazioni sul portale, vedere la pagina relativa all'introduzione al sito web video Indexer.For more information about the portal, see Get started with the Video Indexer website.

  • Integrazione dell'API: tutte le funzionalità di Video Indexer sono disponibili tramite un'API REST, che consente di integrare la soluzione nelle app e nell'infrastruttura.API integration: All of Video Indexer’s capabilities are available through a REST API, which lets you integrate the solution into your apps and infrastructure.

    Per iniziare a usare gli sviluppatori, vedere usare video INDEXER API REST.To get started as a developer, see Use Video Indexer REST API.

  • Widget incorporabile: consente di incorporare le esperienze Video Indexer Insights, Player ed editor nell'app.Embeddable widget: Lets you embed the Video Indexer insights, player, and editor experiences into your app.

    Per altre informazioni, vedere incorporare i widget visivi nell'applicazione.For more information, see Embed visual widgets in your application.

Se si usa il sito Web, le informazioni dettagliate vengono aggiunte come metadati e sono visibili nel portale.If you're using the website, the insights are added as metadata and are visible in the portal. Se si usano le API, le informazioni dettagliate sono disponibili come file JSON.If you're using APIs, the insights are available as a JSON file.

Passaggi successiviNext steps

È ora possibile iniziare a usare Video Indexer.You're ready to get started with Video Indexer. Per altre informazioni, vedere gli articoli seguenti:For more information, see the following articles: