Informazioni sulla Visione artificialeWhat is Computer Vision?

Il servizio Visione artificiale di Azure consente agli sviluppatori di accedere ad algoritmi avanzati che elaborano le immagini e restituiscono informazioni.Azure's Computer Vision service provides developers with access to advanced algorithms that process images and return information. Per analizzare un'immagine, è possibile caricare un'immagine o specificare un URL di immagine.To analyze an image, you can either upload an image or specify an image URL. Gli algoritmi di elaborazione immagini consentono di analizzare il contenuto in modi diversi, in base alle funzionalità visive rilevanti.The images processing algorithms can analyze content in several different ways, depending on the visual features you're interested in. Visione artificiale può ad esempio determinare se un'immagine include contenuto per adulti o audace o può individuare tutti i visi umani in un'immagine.For example, Computer Vision can determine if an image contains adult or racy content, or it can find all of the human faces in an image.

È possibile usare Visione artificiale nell'applicazione usando un SDK nativo oppure chiamando direttamente l'API REST.You can use Computer Vision in your application by using either a native SDK or invoking the REST API directly. Questa pagina illustra su vasta scala le operazioni eseguibili con Visione artificiale.This page broadly covers what you can do with Computer Vision.

Analizzare le immagini per ottenere informazioni dettagliateAnalyze images for insight

È possibile analizzare le immagini per rilevare e fornire informazioni dettagliate sugli elementi visivi e sulle caratteristiche.You can analyze images to detect and provide insights about their visual features and characteristics. Tutte le funzionalità nella tabella seguente vengono fornite dall'API Analyze Image (Analisi dell'immagine).All of the features in the table below are provided by the Analyze Image API.

AzioneAction DESCRIZIONEDescription
Assegnare tag agli elementi visiviTag visual features Identificare e assegnare tag agli elementi visivi di un'immagine in base a un set di migliaia di oggetti riconoscibili, esseri viventi, panorami e azioni.Identify and tag visual features in an image, from a set of thousands of recognizable objects, living things, scenery, and actions. Quando i tag sono ambigui o non di conoscenza comune, la risposta dell'API indica suggerimenti per chiarire il significato del tag nel contesto di uno scenario noto.When the tags are ambiguous or not common knowledge, the API response provides 'hints' to clarify the meaning of the tag in the context of a known setting. L'assegnazione di tag non è limitata al soggetto principale, ad esempio una persona in primo piano, ma include anche scenari (interni o esterni), arredamenti, strumenti, piante, animali, accessori, gadget e così via.Tagging isn't limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.
Rilevare gli oggettiDetect objects Il rilevamento di oggetti è simile all'assegnazione di tag, ma l'API restituisce le coordinate del rettangolo di selezione per ogni tag applicato.Object detection is similar to tagging, but the API returns the bounding box coordinates for each tag applied. Se, ad esempio, un'immagine contiene un cane, gatto e una persona, l'operazione di rilevamento elencherà tali oggetti insieme alle relative coordinate nell'immagine.For example, if an image contains a dog, cat and person, the Detect operation will list those objects together with their coordinates in the image. È possibile usare questa funzionalità per elaborare ulteriormente le relazioni tra gli oggetti in un'immagine.You can use this functionality to process further relationships between the objects in an image. Questa funzionalità consente anche di sapere quando sono presenti più istanze dello stesso tag in un'immagine.It also lets you know when there are multiple instances of the same tag in an image.
Rilevare i marchiDetect brands È possibile identificare i marchi commerciali in immagini o video da un database di migliaia di logo globali.Identify commercial brands in images or videos from a database of thousands of global logos. È ad esempio possibile usare questa funzionalità per individuare i marchi più popolari sui social media o quelli più prevalenti nel posizionamento dei prodotti multimediali.You can use this feature, for example, to discover which brands are most popular on social media or most prevalent in media product placement.
Classificare un'immagineCategorize an image È possibile identificare e classificare un'intera immagine usando una tassonomia di categorie con gerarchie ereditarie di tipo padre/figlio.Identify and categorize an entire image, using a category taxonomy with parent/child hereditary hierarchies. Le categorie possono essere usate singolarmente o con i nuovi modelli di assegnazione di tag.Categories can be used alone, or with our new tagging models.
L'inglese è attualmente l'unica lingua supportata per l'assegnazione di tag e la classificazione di immagini.Currently, English is the only supported language for tagging and categorizing images.
Descrivere un'immagineDescribe an image È possibile generare una descrizione di un'intera immagine in un linguaggio leggibile dall'utente, con frasi complete.Generate a description of an entire image in human-readable language, using complete sentences. Gli algoritmi di Visione artificiale generano descrizioni diverse in base agli oggetti identificati nell'immagine.Computer Vision's algorithms generate various descriptions based on the objects identified in the image. Tutte le descrizioni vengono valutate e per ognuna viene generato un punteggio di attendibilità.The descriptions are each evaluated and a confidence score generated. Viene quindi restituito un elenco dei punteggi di attendibilità in ordine decrescente.A list is then returned ordered from highest confidence score to lowest.
Rilevare visiDetect faces È possibile rilevare visi in un'immagine e fornire informazioni su ogni viso rilevato.Detect faces in an image and provide information about each detected face. Visione artificiale restituisce le coordinate, un rettangolo, il sesso e l'età per ogni viso rilevato.Computer Vision returns the coordinates, rectangle, gender, and age for each detected face.
Visione artificiale fornisce un sottoinsieme delle funzionalità disponibili in Viso ed è possibile usare il servizio Viso per ottenere analisi più dettagliate, ad esempio l'identificazione dei visi e il rilevamento della posa.Computer Vision provides a subset of the functionality that can be found in Face, and you can use the Face service for more detailed analysis, such as facial identification and pose detection.
Rilevare i tipi di immagineDetect image types È possibile rilevare le caratteristiche di un'immagine, ad esempio per determinare se un'immagine è un disegno a linee o per ottenere la probabilità che un'immagine sia ClipArt.Detect characteristics about an image, such as whether an image is a line drawing or the likelihood of whether an image is clip art.
Rilevare contenuti specifici del dominioDetect domain-specific content È possibile usare modelli di dominio per rilevare e identificare contenuti specifici del dominio in un'immagine, ad esempio celebrità e luoghi di interesse.Use domain models to detect and identify domain-specific content in an image, such as celebrities and landmarks. Se ad esempio un'immagine contiene persone, Visione artificiale può usare un modello di dominio per le celebrità incluso nel servizio per determinare se le persone rilevate nell'immagine corrispondono a celebrità note.For example, if an image contains people, Computer Vision can use a domain model for celebrities included with the service to determine if the people detected in the image match known celebrities.
Rilevare la combinazione di coloriDetect the color scheme È possibile analizzare l'utilizzo dei colori in un'immagine.Analyze color usage within an image. Visione artificiale può determinare se un'immagine è in bianco e nero o a colori e nel caso delle immagini a colore può identificare il colore dominante e i colori in primo piano.Computer Vision can determine whether an image is black & white or color and, for color images, identify the dominant and accent colors.
Generare un'anteprimaGenerate a thumbnail È possibile analizzare i contenuti di un'immagine per generare un'anteprima appropriata per tale immagine.Analyze the contents of an image to generate an appropriate thumbnail for that image. Visione artificiale genera prima di tutto un'anteprima di qualità elevata e quindi analizza gli oggetti inclusi nell'immagine per determinare l'area di interesse.Computer Vision first generates a high-quality thumbnail and then analyzes the objects within the image to determine the area of interest. L'immagine viene quindi ritagliata per soddisfare i requisiti dell'area di interesse.Computer Vision then crops the image to fit the requirements of the area of interest. L'anteprima generata può essere visualizzata con proporzioni diverse da quelle dell'immagine originale, in base alle esigenze specifiche.The generated thumbnail can be presented using an aspect ratio that is different from the aspect ratio of the original image, depending on your needs.
Ottenere l'area di interesseGet the area of interest Analizzare il contenuto di un'immagine per restituire le coordinate dell'area di interesse.Analyze the contents of an image to return the coordinates of the area of interest. Questa funzione corrisponde a quella usata per generare un'anteprima, ma invece di ritagliare l'immagine Visione artificiale restituisce le coordinate del rettangolo di selezione dell'area, in modo che l'applicazione chiamante possa modificare l'immagine originale in base alle esigenze.This is the same function that is used to generate a thumbnail, but instead of cropping the image, Computer Vision returns the bounding box coordinates of the region, so the calling application can modify the original image as desired.

Estrarre testo dalle immaginiExtract text from images

È possibile usare Visione artificiale per estrarre testo da un'immagine in un flusso di caratteri leggibili dal computer con il riconoscimento ottico dei caratteri (OCR).You can use Computer Vision to extract text from an image into a machine-readable character stream using optical character recognition (OCR). Se necessario, la funzione OCR corregge la rotazione del testo riconosciuto e fornisce le coordinate del frame per ogni parola.If needed, OCR corrects the rotation of the recognized text and provides the frame coordinates of each word. La funzione OCR supporta 25 lingue e rileva automaticamente la lingua del testo riconosciuto.OCR supports 25 languages and automatically detects the language of the recognized text.

È anche possibile usare l'API di lettura per estrarre testo, scritto a mano o stampato, da immagini e documenti con grandi quantità di testo.You can also use the Read API to extract both printed and handwritten text from images and text-heavy documents. L'API di lettura usa modelli aggiornati e funziona per un'ampia varietà di oggetti con diverse superfici e sfondi, ad esempio ricevute, poster, biglietti da visita, lettere e lavagne.The Read API uses updated models and works for a variety objects with different surfaces and backgrounds, such as receipts, posters, business cards, letters, and whiteboards. Attualmente, l'API di lettura è disponibile in anteprima e l'unica lingua supportata è l'inglese.Currently, the Read API is in preview, and English is the only supported language.

Moderare i contenuti nelle immaginiModerate content in images

È possibile usare Visione artificiale per rilevare i contenuti per adulti e spinti in un'immagine e restituire un punteggio di attendibilità per entrambi i tipi di contenuto.You can use Computer Vision to detect adult and racy content in an image and return a confidence score for both. Il filtro per il rilevamento del contenuto audace e per adulti può essere impostato tramite un indicatore di scorrimento in base alle preferenze dell'utente.The filter for adult and racy content detection can be set on a sliding scale to accommodate your preferences.

Usare i contenitoriUse containers

Usare i contenitori di Visione artificiale per riconoscere il testo stampato e scritto a mano in locale installando un contenitore Docker standardizzato più vicino ai dati.Use Computer Vision containers to recognize printed and handwritten text locally by installing a standardized Docker container closer to your data.

Requisiti dell'immagineImage requirements

Visione artificiale può analizzare immagini che rispettano i requisiti seguenti:Computer Vision can analyze images that meet the following requirements:

  • L'immagine deve essere presentata in formato JPEG, PNG, GIF o BMPThe image must be presented in JPEG, PNG, GIF, or BMP format
  • Le dimensioni del file dell'immagine devono essere minori di 4 megabyte (MB)The file size of the image must be less than 4 megabytes (MB)
  • Le dimensioni dell'immagine devono essere superiori a 50 x 50 pixelThe dimensions of the image must be greater than 50 x 50 pixels
    • Per l'OCR, le dimensioni dell'immagine devono essere comprese tra 50 x 50 e 4200 x 4200 pixelFor OCR, the dimensions of the image must be between 50 x 50 and 4200 x 4200 pixels

Sicurezza e privacy dei datiData privacy and security

Come con tutti i Servizi cognitivi, gli sviluppatori che usano il servizio Visione artificiale devono conoscere i criteri di Microsoft sui dati dei clienti.As with all of the Cognitive Services, developers using the Computer Vision service should be aware of Microsoft's policies on customer data. Per altre informazioni, vedere la pagina sui Servizi cognitivi nel Centro protezione di Microsoft.See the Cognitive Services page on the Microsoft Trust Center to learn more.

Passaggi successiviNext steps

Per un'introduzione a Visione artificiale, seguire una guida introduttiva:Get started with Computer Vision by following a quickstart guide: