Descripción de imágenes con lenguaje natural

Computer Vision puede analizar una imagen y generar una frase inteligible que describa su contenido. El algoritmo realmente devuelve varias descripciones según diferentes características visuales y cada descripción tiene una puntuación de confianza. El resultado final es una lista de descripciones ordenadas de mayor a menor confianza.

Ejemplo de descripción de imagen

La siguiente respuesta JSON muestra lo que devuelve Computer Vision al describir la imagen de ejemplo según sus características visuales.

Una imagen en blanco y negro de edificios en Manhattan

{
    "description": {
        "tags": ["outdoor", "building", "photo", "city", "white", "black", "large", "sitting", "old", "water", "skyscraper", "many", "boat", "river", "group", "street", "people", "field", "tall", "bird", "standing"],
        "captions": [
            {
                "text": "a black and white photo of a city",
                "confidence": 0.95301952483304808
            },
            {
                "text": "a black and white photo of a large city",
                "confidence": 0.94085190563213816
            },
            {
                "text": "a large white building in a city",
                "confidence": 0.93108362931954824
            }
        ]
    },
    "requestId": "b20bfc83-fb25-4b8d-a3f8-b2a1f084b159",
    "metadata": {
        "height": 300,
        "width": 239,
        "format": "Jpeg"
    }
}

Uso de la API

La característica de descripción de imágenes forma parte de la API Analyze Image. Puede llamar a esta API mediante una SDK nativa o con llamadas a REST. Incluya Description en el parámetro de consulta visualFeatures. Después, cuando llegue la respuesta JSON completa, simplemente analice la cadena con el contenido de la sección "description".

Pasos siguientes

Conozca los conceptos relacionados de etiquetado de imágenes y de categorización de imágenes.