Usar GPT-4 Turbo con Visión

Artículo
05/06/2024

GPT-4 Turbo con Visión es un modelo multimodal grande (LMM) desarrollado por OpenAI que puede analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Incorpora tanto el procesamiento del lenguaje natural como la comprensión visual.

El modelo GPT-4 Turbo con Visión responde preguntas generales sobre lo que está presente en las imágenes. También puede mostrar el vídeo si usa la Mejora de Visión.

Sugerencia

Para usar GPT-4 Turbo con Visión, llame a la API de finalización de chat en un modelo GPT-4 Turbo con Visión que haya implementado. Si no está familiarizado con API Chat Completion, consulte la guía paso a paso de GPT-4 Turbo y GPT-4.

Actualización del modelo GPT-4 Turbo

La versión más reciente de disponibilidad general de GPT-4 Turbo es:

gpt-4Versiónturbo-2024-04-09:

Este es el reemplazo de los siguientes modelos en versión preliminar:

gpt-4Versión1106-Preview:
gpt-4Versión0125-Preview:
gpt-4Versiónvision-preview:

Diferencias entre los modelos de disponibilidad general OpenAI y Azure OpenAI GPT-4 Turbo

La versión de OpenAI del último modelo turbo 0409 admite el modo JSON y la llamada a funciones para todas las solicitudes de inferencia.
La versión de Azure OpenAI de la turbo-2024-04-09 más reciente actualmente no admite el uso del modo JSON y la llamada a funciones al realizar solicitudes de inferencia con entrada de imagen (visión). Las solicitudes de entrada basadas en texto (solicitudes sin image_url e imágenes insertadas) admiten el modo JSON y las llamadas a funciones.

Diferencias de gpt-4 vision-preview

Las mejoras específicas de Azure AI Vision con GPT-4 Turbo con Vision no se admiten para la gpt-4Versión:turbo-2024-04-09. Esto incluye el reconocimiento óptico de caracteres (OCR), la conexión a tierra de objetos, las indicaciones de vídeo y un mejor tratamiento de sus datos con imágenes.

Disponibilidad administrada aprovisionada por GPT-4 Turbo

gpt-4Versión:turbo-2024-04-09 está disponible para implementaciones estándar y aprovisionadas. Actualmente, la versión aprovisionada de este modelo no admite solicitudes de inferencia de imagen/visión. Las implementaciones aprovisionadas de este modelo solo aceptan entradas de texto. Las implementaciones de modelos estándar aceptan solicitudes de inferencia de texto e imagen/visión.

Disponibilidad regional

Para obtener información sobre la disponibilidad regional del modelo, consulte la matriz de modelos para implementaciones estándar y aprovisionadas.

Implementación de GPT-4 Turbo con disponibilidad general de Vision

Para implementar el modelo de disponibilidad general en la interfaz de usuario de Studio, seleccione GPT-4 y elija la versión de turbo-2024-04-09 en el menú desplegable. La cuota predeterminada para el modelo gpt-4-turbo-2024-04-09 será la misma que la cuota actual para GPT-4-Turbo. Consulte los límites de cuota regionales.

Llame a las API de finalización de chat

El siguiente comando muestra la forma más básica de utilizar el modelo GPT-4 Turbo con Visión con código. Si es la primera vez que utiliza estos modelos mediante programación, le recomendamos comenzar con nuestro inicio rápido de GPT-4 Turbo con Visión.

REST
Python

Enviar una solicitud POST a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview donde

RESOURCE_NAME es el nombre del recurso de Azure OpenAI
DEPLOYMENT_NAME es el nombre de la implementación de modelo GPT-4 Turbo con Visión

Encabezados obligatorios:

Content-Type: application/json
api-key: {API_KEY}

Cuerpo: a continuación se muestra un cuerpo de solicitud de ejemplo. El formato es el mismo que el de la API de finalización de chat para GPT-4, excepto que el contenido del mensaje puede ser una matriz que contenga texto e imágenes (ya sea una URL HTTP o HTTPS a una imagen, o bien una imagen codificada en base 64).

Importante

Recuerde establecer un valor "max_tokens" o se cortará la salida de retorno.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Defina el punto de conexión y la clave del recurso de Azure OpenAI.
Escriba el nombre de la implementación de modelo GPT-4 Turbo con Visión.

Cree un objeto de cliente con esos valores.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}/extensions",
)

A continuación, llame al método crear del cliente. El código siguiente muestra un cuerpo de la solicitud de ejemplo. El formato es el mismo que el de la API de finalización de chat para GPT-4, excepto que el contenido del mensaje puede ser una matriz que contenga texto e imágenes (ya sea una URL HTTP o HTTPS a una imagen, o bien una imagen codificada en base 64).

Importante

Recuerde establecer un valor "max_tokens" o se cortará la salida de retorno.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Sugerencia

Uso de una imagen local

Si desea utilizar una imagen local, use el siguiente código de Python para convertirla a base 64 y poder pasarla a la API. Las herramientas de conversión de archivos alternativas están disponibles en línea.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Cuando los datos de la imagen en base 64 estén listos, páselos a la API en el cuerpo de la solicitud de la siguiente manera:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Output

La respuesta de la API debe ser similar a la siguiente.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Cada respuesta incluye un campo "finish_details". Tiene los siguientes valores posibles:

stop: la API devolvió la salida completa del modelo.
length: salida incompleta del modelo debido al parámetro de entrada max_tokens o al límite de tokens del modelo.
content_filter: contenido omitido debido a una marca de nuestros filtros de contenido.

Configuración de parámetros de detalle en el procesamiento de imágenes: baja, alta y automática

El parámetro detalle del modelo ofrece tres opciones: low, high o auto, para ajustar la forma en que el modelo interpreta y procesa imágenes. La configuración predeterminada es automática, en la que el modelo decide entre baja o alta en función del tamaño de la entrada de la imagen.

Configuración low: el modelo no activa el modo "alta resolución", sino que procesa una versión de resolución 512x512 más baja, lo que da lugar a respuestas más rápidas y a un menor consumo de tokens para escenarios en los que los detalles finos no son cruciales.
Configuración high: el modelo activa el modo "alta resolución". Aquí, el modelo ve inicialmente la imagen de baja resolución y, a continuación, genera segmentos detallados de 512x512 a partir de la imagen de entrada. Cada segmento usa el doble del presupuesto del token, lo que permite una interpretación más detallada de la imagen.

Para más información sobre cómo afectan los parámetros de imagen a los tokens usados y los precios, consulte : ¿Qué es OpenAI? Tokens de imagen con GPT-4 Turbo con Visión

Utilice la mejora de Visión con imágenes

GPT-4 Turbo con Visión proporciona acceso exclusivo a las mejoras personalizadas de Servicios de Azure AI. Cuando se combina con Visión de Azure AI, mejora la experiencia de chat al proporcionar al modelo de chat información más detallada sobre el texto visible en la imagen y las ubicaciones de los objetos.

La integración de reconocimiento óptico de caracteres (OCR) permite al modelo generar respuestas de mayor calidad para texto denso, imágenes transformadas y documentos financieros con gran cantidad de números. También abarca una gama más amplia de idiomas.

La integración de contextualización de objeto aporta una nueva capa al análisis de datos y a la interacción del usuario, ya que la característica puede distinguir y resaltar visualmente elementos importantes en las imágenes que procesa.

Importante

Para usar la mejora de Vision con un recurso de Azure OpenAI, debe especificar un recurso de Computer Vision. Debe estar en el nivel de pago (S1) y en la misma región de Azure que el recurso GPT-4 Turbo con Visión. Si usa un recurso de Azure AI Services, no necesita un recurso adicional de Computer Vision.

Precaución

Las mejoras de Azure AI para GPT-4 Turbo con Visión se facturarán por separado de las funcionalidades principales. Cada mejora específica de Azure AI para GPT-4 Turbo con Visión tiene sus propios cargos. Para más información, consulte la información sobre precios especiales.

REST
Python

Enviar una solicitud POST a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview donde

RESOURCE_NAME es el nombre del recurso de Azure OpenAI
DEPLOYMENT_NAME es el nombre de la implementación de modelo GPT-4 Turbo con Visión

Encabezados obligatorios:

Content-Type: application/json
api-key: {API_KEY}

Cuerpo:

El formato es similar al de la API de finalización de chat para GPT-4, pero el contenido del mensaje puede ser una matriz que contenga cadenas e imágenes (ya sea una URL HTTP o HTTPS a una imagen o una imagen codificada en base 64).

También debe incluir los objetos enhancements y dataSources. enhancements representa las características específicas de mejora de Visión solicitadas en el chat. Tiene una propiedad grounding y ocr, y ambas tienen una propiedad enabled booleana. Úselos para solicitar el servicio OCR o el servicio de detección o conexión a tierra de objetos. dataSources representa los datos de recursos de Computer Vision necesarios para la mejora de Visión. Tiene una propiedad type que debe ser "AzureComputerVision" y una propiedad parameters. Establezca y en la endpointkey dirección URL del punto de conexión y la clave de acceso del recurso de Computer Vision.

Importante

Recuerde establecer un valor "max_tokens" o se cortará la salida de retorno.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Llame al mismo método que en el paso anterior, pero incluya el nuevo parámetro extra_body. Contiene los campos enhancements y dataSources.

enhancements representa las características específicas de mejora de Visión solicitadas en el chat. Tiene un campo grounding y ocr, y ambos tienen una propiedad enabled booleana. Úselos para solicitar el servicio OCR o el servicio de detección o conexión a tierra de objetos.

dataSources representa los datos de recursos de Computer Vision necesarios para la mejora de Visión. Tiene un campo type que debe ser "AzureComputerVision", así como un campo parameters. Establezca y en la endpointkey dirección URL del punto de conexión y la clave de acceso del recurso de Computer Vision. R

Importante

Recuerde establecer un valor "max_tokens" o se cortará la salida de retorno.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)
print(response)

Output

Las respuestas de chat que reciba del modelo ahora deberían incluir información mejorada sobre la imagen, como etiquetas de objetos y cuadros delimitadores, y resultados de OCR. La respuesta de la API debe ser similar a la siguiente.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Cada respuesta incluye un campo "finish_details". Tiene los siguientes valores posibles:

stop: la API devolvió la salida completa del modelo.
length: salida incompleta del modelo debido al parámetro de entrada max_tokens o al límite de tokens del modelo.
content_filter: contenido omitido debido a una marca de nuestros filtros de contenido.

Utilice la mejora de la Visión con vídeo

GPT-4 Turbo con Visión proporciona acceso exclusivo a las mejoras personalizadas de Servicios de Azure AI. La integración de solicitud de vídeo usa la recuperación de vídeo de Visión de Azure AI para muestrear un conjunto de fotogramas de un vídeo y crear una transcripción de la voz en el vídeo. Permite al modelo de IA proporcionar resúmenes y respuestas sobre el contenido de vídeo.

Siga estos pasos para configurar un sistema de recuperación de videos e integrarlo con el modelo de chat de IA.

Importante

Precaución

Sugerencia

Si lo prefiere, puede realizar los siguientes pasos mediante un cuaderno de Jupyter en su lugar: cuaderno de finalizaciones de chat de vídeo.

Carga de vídeos en Azure Blob Storage

Debe cargar los vídeos en un contenedor de Azure Blob Storage. Crear una nueva cuenta de almacenamiento si aún no tiene una.

Una vez cargados los vídeos, puede obtener sus direcciones URL de SAS, que se usan para acceder a ellos en pasos posteriores.

Garantizar el acceso de lectura adecuado

En función del método de autenticación, es posible que tenga que realizar algunos pasos adicionales para conceder acceso al contenedor de Azure Blob Storage. Si usa un recurso de Azure AI Services en lugar de un recurso de Azure OpenAI, debe usar identidades administradas para concederle acceso de lectura a Azure Blob Storage:

mediante identidades asignadas por el sistema
mediante identidades asignadas por el usuario

Habilite las identidades asignadas por el sistema en el recurso de Azure AI Services siguiendo estos pasos:

En el recurso de AI Services de Azure Portal, seleccione Resource Management>Identity y cambie el estado a ON.
Asigne acceso deLectura de datos de blobs de almacenamiento al recurso de AI Services: en la página Identidad, seleccione asignaciones de roles de Azurey, a continuación, Agregar de asignación de roles con la siguiente configuración:
- ámbito: almacenamiento
- suscripción: {su suscripción}
- Recurso: {seleccione el recurso de Azure Blob Storage}
- Rol: Lector de datos de Storage Blob
Guarde la configuración.

Creación de un índice de recuperación de vídeo

Obtenga un recurso de Visión de Azure AI en la misma región que el recurso de Azure OpenAI que usa.

Cree un índice para almacenar y organizar los archivos de vídeo y sus metadatos. En el siguiente comando de ejemplo se muestra cómo crear un índice denominado my-video-index mediante la API Crear un índice. Guarde el nombre del índice en una ubicación temporal; lo necesitará más adelante.

Sugerencia

Para obtener instrucciones más detalladas sobre cómo crear un índice de vídeo, consulte Recuperación de vídeo mediante vectorización.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'metadataSchema': {
    'fields': [
      {
        'name': 'cameraId',
        'searchable': false,
        'filterable': true,
        'type': 'string'
      },
      {
        'name': 'timestamp',
        'searchable': false,
        'filterable': true,
        'type': 'datetime'
      }
    ]
  },
  'features': [
    {
      'name': 'vision',
      'domain': 'surveillance'
    },
    {
      'name': 'speech'
    }
  ]
}"

Agregue archivos de vídeo al índice con sus metadatos asociados. En el ejemplo siguiente se muestra cómo agregar dos archivos de vídeo al índice mediante direcciones URL de SAS con la API Crear ingesta. Guarde las direcciones URL de SAS y los valores documentId en una ubicación temporal; los necesitará más adelante.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'videos': [
    {
      'mode': 'add',
      'documentId': '02a504c9cd28296a8b74394ed7488045',
      'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera1',
        'timestamp': '2023-06-30 17:40:33'
      }
    },
    {
      'mode': 'add',
      'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
      'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera2'
      }
    }
  ]
}"

Después de agregar archivos de vídeo al índice, se inicia el proceso de ingesta. Puede tardar algún tiempo en función del tamaño y el número de archivos. Para asegurarse de que la ingesta se ha completado antes de realizar búsquedas, puede usar la API Obtener ingesta para comprobar el estado. Espere a que esta llamada devuelva "state" = "Completed" antes de continuar con el siguiente paso.
```
curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
```

Integración del índice de vídeo con GPT-4 Turbo con Vision

REST
Python

Preparación de una solicitud POST a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview donde
- RESOURCE_NAME es el nombre del recurso de Azure OpenAI
- DEPLOYMENT_NAME es el nombre de la implementación de modelo GPT-4 Vision
Encabezados obligatorios:
- Content-Type: application/json
- api-key: {API_KEY}

Agregue la siguiente estructura JSON en el cuerpo de la solicitud:

{
    "enhancements": {
            "video": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVisionVideoIndex",
        "parameters": {
            "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
            "computerVisionApiKey": "<your_computer_vision_key>",
            "indexName": "<name_of_your_index>",
            "videoUrls": ["<your_video_SAS_URL>"]
        }
    }],
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user",
            "content": [
                    {
                        "type": "acv_document_id",
                        "acv_document_id": "<your_video_ID>"
                    },
                    {
                        "type": "text",
                        "text": "Describe this video:"
                    }
                ]
        }
    ],
    "max_tokens": 100, 
}

La solicitud incluye los objetos enhancements y dataSources. enhancements representa las características específicas de mejora de Visión solicitadas en el chat. dataSources representa los datos de recursos de Computer Vision necesarios para la mejora de Visión. Tiene una propiedad type que debe ser "AzureComputerVisionVideoIndex" y una propiedad parameters que contiene su Visión de IA e información de video.

Complete todos los campos anteriores de <placeholder> con su propia información: ingrese las URL de los puntos finales y las claves de sus recursos OpenAI y Visión IA cuando corresponda, y recupere la información del índice de video del paso anterior.
Envíe la solicitud POST al punto de conexión de API. Debe contener sus credenciales de OpenAI y Visón IA, el nombre de su índice de video y el ID y la URL de SAS de un solo video.

En el script de Python, llame al método create del cliente, como en las secciones anteriores, pero incluya el parámetro extra_body. Aquí, contiene los campos enhancements y data_sources. enhancements representa las características específicas de mejora de Visión solicitadas en el chat. Tiene un campo video, que tiene una propiedad de enabled booleana. Úselo para solicitar el servicio de recuperación de vídeo.

data_sources representa los datos de recursos externos necesarios para la mejora de Visión. Tiene un campo type que debería ser "AzureComputerVisionVideoIndex", así como un campo parameters.

Establezca y en la computerVisionBaseUrlcomputerVisionApiKey dirección URL del punto de conexión y la clave de acceso del recurso de Computer Vision. Establezca indexName en el nombre del índice de vídeo. Establezca videoUrls en una lista de direcciones URL de SAS de los vídeos.

Importante

Recuerde establecer un valor "max_tokens" o se cortará la salida de retorno.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            {
                "type": "acv_document_id",
                "acv_document_id": "<your_video_ID>"
            },
            { 
                "type": "text", 
                "text": "Describe this video:" 
            }
        ] } 
    ],
    extra_body={
        "data_sources": [
            {
                "type": "AzureComputerVisionVideoIndex",
                "parameters": {
                    "computerVisionBaseUrl": "<your_computer_vision_endpoint>", # your endpoint should look like the following https://YOUR_RESOURCE_NAME.cognitiveservices.azure.com/computervision
                    "computerVisionApiKey": "<your_computer_vision_key>",
                    "indexName": "<name_of_your_index>",
                    "videoUrls": ["<your_video_SAS_URL>"]
                }
            }],
        "enhancements": {
            "video": {
                "enabled": True
            }
        }
    },
    max_tokens=100
)

print(response)

Importante

El contenido del objeto "data_sources" varía en función del tipo de recurso de Azure y del método de autenticación que use. Vea la referencia siguiente:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
        "indexName": "<name_of_your_index>",
        "documentAuthenticationKind": "managedidentity",
    }
}],

Output

Las respuestas de chat que recibe del modelo deben incluir información sobre el vídeo. La respuesta de la API debe ser similar a la siguiente.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Cada respuesta incluye un campo "finish_details". Tiene los siguientes valores posibles:

stop: la API devolvió la salida completa del modelo.
length: salida incompleta del modelo debido al parámetro de entrada max_tokens o al límite de tokens del modelo.
content_filter: contenido omitido debido a una marca de nuestros filtros de contenido.

Ejemplo de precios para solicitudes de vídeo

El precio del GPT-4 Turbo con Visión es dinámico y depende de las características específicas y de las entradas que se usen. Para obtener una vista completa de los precios de Azure OpenAI, consulte Precios de Azure OpenAI.

Los cargos base y las características adicionales se describen a continuación:

El precio base para GPT-4 Turbo con Visión es:

Entrada: 0,01 USD por 1 000 tokens
Salida: 0,03 USD por 1 000 tokens

Integración de la solicitud de vídeo con el complemento de recuperación de vídeo:

Ingesta: 0,05 USD por minuto de vídeo
Transacciones: 0,25 USD por 1 000 consultas de recuperación de vídeo

Share via

Usar GPT-4 Turbo con Visión

Actualización del modelo GPT-4 Turbo

Diferencias entre los modelos de disponibilidad general OpenAI y Azure OpenAI GPT-4 Turbo

Diferencias de gpt-4 vision-preview

Disponibilidad administrada aprovisionada por GPT-4 Turbo

Disponibilidad regional

Implementación de GPT-4 Turbo con disponibilidad general de Vision

Llame a las API de finalización de chat

Uso de una imagen local

Output

Configuración de parámetros de detalle en el procesamiento de imágenes: baja, alta y automática

Utilice la mejora de Visión con imágenes

Output

Utilice la mejora de la Visión con vídeo

Carga de vídeos en Azure Blob Storage

Garantizar el acceso de lectura adecuado

Creación de un índice de recuperación de vídeo

Integración del índice de vídeo con GPT-4 Turbo con Vision

Output

Ejemplo de precios para solicitudes de vídeo

Pasos siguientes

Recursos adicionales