Inicio rápido: Usar imágenes en los chats de IA

Comience a explorar GPT-4 Turbo con funcionalidades de Visión con un enfoque sin código a través de Azure OpenAI Studio.

Requisitos previos

  • Suscripción a Azure. cree una de forma gratuita.
  • Acceso concedido a Azure OpenAl en la suscripción de Azure que quiera. Actualmente, solo la aplicación concede acceso a este servicio. Para solicitar acceso a Azure OpenAI, rellene el formulario en https://aka.ms/oai/access. Si tiene algún problema, abra una incidencia en este repositorio para ponerse en contacto con nosotros.
  • Un recurso de Azure OpenAI Service con un modelo de GPT-4 Turbo con Visión implementado. Consulte la Disponibilidad del modelo GPT-4 y la versión preliminar de GPT-4 Turbo para las regiones disponibles. Para obtener más información sobre la creación de recursos, consulte la guía de implementación de recursos.
  • Para la mejora de Visión (opcional): un recurso de Azure Computer Vision en la misma región que el recurso de Azure OpenAI, en el nivel de pago (S1).

Nota:

Actualmente no se admite desactivar el filtrado de contenido para el modelo GPT-4 Turbo con Vision.

Ir a Azure OpenAI Studio

Vaya a Azure OpenAI Studio e inicie sesión con las credenciales asociadas al recurso de Azure OpenAI. Durante o después del flujo de trabajo de inicio de sesión, seleccione el directorio, la suscripción de Azure y el recurso de Azure OpenAI adecuados.

En Administración seleccione Implementaciones y Crear una implementación GPT-4 Turbo con Visión seleccionando el nombre del modelo: "gpt-4" y la versión del modelo "vision-preview". Para obtener más información sobre la implementación de modelos, consulte la guía de implementación de recursos.

En la sección Área de juegos, seleccione Chat.

Área de juegos

Desde esta página puede iterar y experimentar rápidamente con las funcionalidades del modelo.

Para obtener ayuda general con la configuración del asistente, las sesiones de chat, la configuración y los paneles, consulte el inicio rápido de chat.

Iniciar una sesión de chat para analizar imágenes o vídeos

En esta sesión de chat, le indica al asistente que le ayude a comprender las imágenes que introduce.

  1. Para empezar, seleccione la implementación GPT-4 Turbo con Visión en la lista desplegable.

  2. En el panel Configuración del Asistente, proporcione un mensaje del sistema para guiar al asistente. El mensaje del sistema predeterminado es: "Eres un asistente de inteligencia artificial que ayuda a las personas a encontrar información". Puede adaptar el mensaje del sistema a la imagen o el escenario que está cargando.

    Nota:

    Se recomienda actualizar el mensaje del sistema para que sea específico de la tarea y evitar respuestas no útiles del modelo.

  3. Guarde los cambios y, cuando se le pida que confirme la actualización del mensaje del sistema, seleccione Continuar.

  4. En el panel Sesión de chat, escriba un mensaje de texto como "Describir esta imagen" y cargue una imagen con el botón Datos adjuntos. Puede usar otra solicitud de texto para su caso de uso. Seleccione Enviar.

  5. Observar la salida proporcionada. Considere la posibilidad de formular preguntas de seguimiento relacionadas con el análisis de la imagen para obtener más información.

Captura de pantalla del área de juegos de chat de OpenAI Studio.

Limpieza de recursos

Si quiere limpiar y quitar un recurso de Azure OpenAI, puede eliminar el recurso o el grupo de recursos. Al eliminar el grupo de recursos, también se elimina cualquier otro recurso que esté asociado a él.

Use este artículo para empezar a usar las API de REST de Azure OpenAI para implementar y usar el modelo GPT-4 Turbo con Visión.

Requisitos previos

Nota:

Actualmente no se admite desactivar el filtrado de contenido para el modelo GPT-4 Turbo con Vision.

Recuperación de la clave y el punto de conexión

Para llamar correctamente a las API de Azure OpenAI, necesita la siguiente información sobre el recurso de Azure OpenAI:

Variable NOMBRE Value
Punto de conexión api_base El valor del punto de conexión se encuentra en Claves y punto de conexión del recurso en Azure Portal. Como alternativa, puede encontrar el valor en Azure OpenAI Studio>Área de juegos>Vista de código. Punto de conexión de ejemplo: https://docs-test-001.openai.azure.com/.
Clave api_key El valor de clave también se encuentra en Claves y punto de conexión del recurso en Azure Portal. Azure genera dos claves para el recurso. Puede usar cualquiera de los valores.

Vaya al recurso en Azure Portal. En el panel de navegación, seleccione Claves y punto de conexión en Administración de recursos. Copie el valor de Punto de conexión y un valor de clave de acceso. Puede usar el valor KEY 1 o KEY 2. Tener dos claves permite rotar y regenerar las claves de forma segura sin provocar una interrupción del servicio.

Captura de pantalla que muestra la página Claves y punto de conexión de un recurso de Azure OpenAI en Azure Portal.

Creación de una nueva aplicación de Python

Cree un nuevo archivo de Python denominado quickstart.py. Abra el nuevo archivo en el editor o IDE que prefiera.

  1. Reemplace el contenido de quickstart.py por el siguiente código.

    # Packages required:
    import requests 
    import json 
    
    api_base = '<your_azure_openai_endpoint>' 
    deployment_name = '<your_deployment_name>'
    API_KEY = '<your_azure_openai_key>'
    
    base_url = f"{api_base}openai/deployments/{deployment_name}" 
    headers = {   
        "Content-Type": "application/json",   
        "api-key": API_KEY 
    } 
    
    # Prepare endpoint, headers, and request body 
    endpoint = f"{base_url}/chat/completions?api-version=2023-12-01-preview" 
    data = { 
        "messages": [ 
            { "role": "system", "content": "You are a helpful assistant." }, 
            { "role": "user", "content": [  
                { 
                    "type": "text", 
                    "text": "Describe this picture:" 
                },
                { 
                    "type": "image_url",
                    "image_url": {
                        "url": "<image URL>"
                    }
                }
            ] } 
        ], 
        "max_tokens": 2000 
    }   
    
    # Make the API call   
    response = requests.post(endpoint, headers=headers, data=json.dumps(data))   
    
    print(f"Status Code: {response.status_code}")   
    print(response.text)
    
  2. Haga los siguientes cambios:

    1. Escriba la dirección URL del punto de conexión y la clave en los campos adecuados.

    2. Introduzca el nombre de implementación de su GPT-4 Turbo con Visión en el campo correspondiente.

    3. Cambie el valor del campo "image" a la dirección URL de la imagen.

      Sugerencia

      También puede usar datos de imagen codificados en base 64 en lugar de una dirección URL. Para más información, consulte la Guía paso a paso de GPT-4 Turbo con Visión.

  3. Ejecute la aplicación con el comando python:

    python quickstart.py
    

Limpieza de recursos

Si quiere limpiar y quitar un recurso de Azure OpenAI, puede eliminar el recurso o el grupo de recursos. Al eliminar el grupo de recursos, también se elimina cualquier otro recurso que esté asociado a él.

Use este artículo para empezar a usar el SDK de Python de Azure OpenAI para implementar y usar el modelo GPT-4 Turbo con Visión.

Código fuente de la biblioteca | Paquete (PyPi) |

Requisitos previos

Configuración

Instalar la biblioteca cliente de OpenAl Python con:

pip install openai

Nota:

OpenAI mantiene esta biblioteca y actualmente está en versión preliminar. Consulte el historial de versiones o el historial de confirmación de version.py para realizar el seguimiento de las actualizaciones más recientes de la biblioteca.

Recuperación de la clave y el punto de conexión

Para realizar correctamente una llamada en Azure OpenAI, necesita un punto de conexión y una clave.

Nombre de la variable Valor
ENDPOINT Este valor se puede encontrar en la sección Claves y punto de conexión al examinar el recurso en Azure Portal. Como alternativa, puede encontrar el valor en Azure OpenAI Studio>Playground>Code View. Punto de conexión de ejemplo: https://docs-test-001.openai.azure.com/.
API-KEY Este valor se puede encontrar en la sección Claves y punto de conexión al examinar el recurso en Azure Portal. Puede usar KEY1 o KEY2.

Vaya al recurso en Azure Portal. La sección Claves y puntos de conexión se puede encontrar en la sección Administración de recursos. Copie el punto de conexión y la clave de acceso, ya que los necesitará para autenticar las llamadas API. Puede usar KEY1 o KEY2. Tener siempre dos claves permite rotar y regenerar las claves de forma segura sin provocar una interrupción del servicio.

Captura de pantalla de la interfaz de usuario de información general de un recurso de Azure OpenAI en Azure Portal con el punto de conexión y la ubicación de las claves de acceso en círculo en rojo.

Variables de entorno

Cree y asigne variables de entorno persistentes para la clave y el punto de conexión.

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE" 

Creación de una nueva aplicación de Python

Cree un nuevo archivo de Python denominado quickstart.py. Abra el nuevo archivo en el editor o IDE que prefiera.

  1. Reemplace el contenido de quickstart.py por el siguiente código.

    from openai import AzureOpenAI
    
    api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
    api_key= os.getenv("AZURE_OPENAI_API_KEY")
    deployment_name = '<your_deployment_name>'
    api_version = '2023-12-01-preview' # this might change in the future
    
    client = AzureOpenAI(
        api_key=api_key,  
        api_version=api_version,
        base_url=f"{api_base}/openai/deployments/{deployment_name}"
    )
    
    response = client.chat.completions.create(
        model=deployment_name,
        messages=[
            { "role": "system", "content": "You are a helpful assistant." },
            { "role": "user", "content": [  
                { 
                    "type": "text", 
                    "text": "Describe this picture:" 
                },
                { 
                    "type": "image_url",
                    "image_url": {
                        "url": "<image URL>"
                    }
                }
            ] } 
        ],
        max_tokens=2000 
    )
    
    print(response)
    
  2. Haga los siguientes cambios:

    1. Escriba el nombre de su implementación de GPT-4 Turbo con Visión en el campo correspondiente.
    2. Cambie el valor del campo "url" a la dirección URL de la imagen.

      Sugerencia

      También puede usar datos de imagen codificados en base 64 en lugar de una dirección URL. Para más información, consulte la Guía paso a paso de GPT-4 Turbo con Visión.

  3. Ejecute la aplicación con el comando python:

    python quickstart.py
    

Limpieza de recursos

Si quiere limpiar y quitar un recurso de Azure OpenAI, puede eliminar el recurso o el grupo de recursos. Al eliminar el grupo de recursos, también se elimina cualquier otro recurso que esté asociado a él.

Pasos siguientes