Utiliser GPT-4 Turbo avec Vision

Article
05/07/2024

GPT-4 Turbo avec Vision est un grand modèle multimodal (LMM) développé par OpenAI qui peut analyser des images et fournir des réponses textuelles à des questions les concernant. Il intègre à la fois le traitement du langage naturel et la compréhension visuelle.

Le modèle GPT-4 Turbo avec Vision répond à des questions générales sur ce qui est présent dans les images. Vous pouvez également afficher cette vidéo si vous utilisez l’amélioration Vision.

Conseil

Pour utiliser GPT-4 Turbo avec Vision, vous appelez l'API de saisie semi-automatique de conversation sur un modèle GPT-4 Turbo avec Vision que vous avez déployé. Si vous n’êtes pas familiarisé avec l’API Complétion de conversation, consultez le Guide pratique de GPT-4 Turbo et GPT-4.

Mise à niveau d’un modèle GPT-4 Turbo

La dernière version en disponibilité générale de GPT-4 Turbo est :

gpt-4Version :turbo-2024-04-09

Il s’agit du remplacement des modèles en préversion suivants :

gpt-4Version :1106-Preview
gpt-4Version :0125-Preview
gpt-4Version :vision-preview

Différences entre les modèles OpenAI et OpenAI GPT-4 Turbo GA

La version d’OpenAI du dernier modèle 0409 Turbo prend en charge le mode JSON et l’appel de fonction pour toutes les requêtes d’inférence.
La version d’Azure OpenAI du dernier turbo-2024-04-09 ne prend actuellement pas en charge l’utilisation du mode JSON et l’appel de fonction lors de l’exécution de requêtes d’inférence avec une entrée d’image (vision). Les requêtes d’entrée basées sur du texte (requêtes sans image_url et images incluses) prennent par contre en charge le mode JSON et l’appel de fonction.

Différences par rapport à gpt-4 vision-preview

L’intégration des améliorations Vision spécifiques à Azure AI à GPT-4 Turbo avec Vision n’est pas prise en charge pour la gpt-4Version :turbo-2024-04-09. Cela inclut la reconnaissance optique de caractères (OCR), l’ancrage d’objets, les invites vidéo et la gestion améliorée de vos données avec des images.

Disponibilité managée approvisionnée de GPT-4 Turbo

gpt-4version turbo-2024-04-09 est disponible pour les déploiements standard et approvisionnés. Actuellement, la version approvisionnée de ce modèle ne prend pas en charge les requêtes d’inférence d’image/de vision. Les déploiements approvisionnés de ce modèle acceptent uniquement les entrées de texte. Les déploiements de modèles standard acceptent les requêtes d’inférence de texte et d’image/de vision.

Disponibilité dans les régions

Pour plus d’informations sur la disponibilité régionale du modèle, consultez la matrice de modèles pour les déploiements standard et approvisionnés.

Déploiement de la disponibilité générale de GPT-4 Turbo avec Vision

Pour déployer le modèle en disponibilité générale à partir de l’interface utilisateur Studio, sélectionnez GPT-4, puis choisissez la version turbo-2024-04-09 du menu de la liste déroulante. Le quota par défaut pour le modèle gpt-4-turbo-2024-04-09 est le même que le quota actuel pour GPT-4-Turbo. Voir les limites de quota régionales.

Appeler les API de saisie semi-automatique de conversation

La commande suivante montre la manière la plus élémentaire d'utiliser le modèle GPT-4 Turbo avec Vision avec du code. Si c’est la première fois que vous utilisez ces modèles programmatiquement, nous vous recommandons de commencer par notre guide Démarrage rapide avec GPT-4 Turbo avec Vision.

REST
Python

Envoyez une requête POST à https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview où

RESOURCE_NAME est le nom de votre ressource Azure OpenAI
DEPLOYMENT_NAME est le nom de votre modèle de déploiement GPT-4 Turbo avec Vision

En-têtes obligatoires :

Content-Type : application/json
api-key : {API_KEY}

Corps : voici un exemple de corps de la requête. Le format est le même que celui de l'API de saisie semi-automatique de conversation pour GPT-4, sauf que le contenu du message peut être un tableau contenant du texte et des images (soit une URL HTTP ou HTTPS valide vers une image, soit une image encodée en base 64).

Important

N’oubliez pas de définir une valeur "max_tokens", ou la sortie de retour sera coupée.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Définissez votre point de terminaison et votre clé de ressource Azure OpenAI.
Entrez le nom de votre modèle de déploiement GPT-4 Turbo avec Vision.

Créez un objet client avec ces valeurs.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}/extensions",
)

Appelez ensuite la méthode create du client. Le code suivant est un exemple de corps de requête. Le format est le même que celui de l'API de saisie semi-automatique de conversation pour GPT-4, sauf que le contenu du message peut être un tableau contenant du texte et des images (soit une URL HTTP ou HTTPS valide vers une image, soit une image encodée en base 64).

Important

N’oubliez pas de définir une valeur "max_tokens", ou la sortie de retour sera coupée.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Conseil

Utiliser une image locale

Si vous souhaitez utiliser une image locale, vous pouvez utiliser le code Python suivant pour la convertir en base64 afin qu’elle puisse être transmise à l’API. D’autres outils de conversion de fichiers sont disponibles en ligne.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Lorsque vos données d’image base64 sont prêtes, vous pouvez les transmettre à l’API dans le corps de la requête comme suit :

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Sortie

La réponse de l’API doit ressembler à ce qui suit.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Chaque réponse inclut un champ "finish_details". Il contient les valeurs possibles suivantes :

stop : l’API a retourné la sortie complète du modèle.
length : sortie de modèle incomplète en raison du paramètre d’entrée max_tokens ou de la limite de jetons du modèle.
content_filter : contenu omis en raison d’un indicateur de nos filtres de contenu.

Paramètres de détail dans le traitement d’images : Low, High, Auto

Le paramètre detail du modèle offre trois choix : low, high ou auto, pour ajuster la façon dont le modèle interprète et traite les images. Le paramètre par défaut est auto ; le modèle décide alors entre low ou high en fonction de la taille de l’entrée d’image.

Paramètre low : le modèle n’active pas le mode « résolution élevée ». Au lieu de cela, il traite une version de résolution inférieure 512x512, ce qui entraîne des réponses plus rapides et une consommation de jeton réduite pour les scénarios où des détails précis ne sont pas essentiels.
Paramètre high : le modèle active le mode « résolution élevée ». Ici, le modèle affiche initialement l’image à faible résolution, puis il génère des segments détaillés 512x512 à partir de l’image d’entrée. Chaque segment utilise deux fois le budget du jeton, ce qui permet une interprétation plus détaillée de l’image.

Pour plus d’informations sur l’impact des paramètres d’image sur les jetons utilisés et les tarifs, consultez Qu’est-ce qu’OpenAI ? Jetons d’image avec GPT-4 Turbo avec Vision

Utiliser l’amélioration de la vision avec des images

GPT-4 Turbo avec Vision offre un accès exclusif aux améliorations personnalisées d'Azure AI Services. Combiné à Azure AI Vision, il améliore votre expérience de chat en fournissant au modèle de chat des informations plus détaillées sur le texte visible dans l'image et sur l'emplacement des objets.

L’intégration de reconnaissance optique de caractères (OCR) permet au modèle de produire des réponses de qualité supérieure pour le texte dense, les images transformées et les documents financiers volumineux. Il couvre également un plus grand nombre de langues.

L’intégration de la base d’objets apporte une nouvelle couche à l’analyse des données et à l’interaction utilisateur, car la fonctionnalité peut distinguer visuellement et mettre en évidence des éléments importants dans les images qu’il traite.

Important

Pour utiliser l’amélioration de Vision avec une ressource Azure OpenAI, vous devez spécifier une ressource Vision par ordinateur. Elle doit se trouver dans le niveau payant (S1) et dans la même région Azure que votre ressource GPT-4 Turbo avec Vision. Si vous utilisez une ressource Azure AI Services, aucune ressource Vision par ordinateur supplémentaire n’est nécessaire.

Attention

Les améliorations Azure AI pour GPT-4 Turbo avec Vision seront facturées séparément des fonctionnalités de base. Chaque amélioration spécifique d'Azure AI pour GPT-4 Turbo avec Vision a ses propres frais. Pour plus d’informations, consultez les informations tarifaires spéciales.

REST
Python

Envoyez une requête POST à https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview où

RESOURCE_NAME est le nom de votre ressource Azure OpenAI
DEPLOYMENT_NAME est le nom de votre modèle de déploiement GPT-4 Turbo avec Vision

En-têtes obligatoires :

Content-Type : application/json
api-key : {API_KEY}

Corps :

Le format est similaire à celui de l'API de saisie semi-automatique de conversation pour GPT-4, mais le contenu du message peut être un tableau contenant des chaînes de caractères et des images (soit une URL HTTP ou HTTPS valide vers une image, soit une image encodée en base 64).

Vous devez également inclure les objets enhancements et dataSources. enhancements représente les fonctionnalités spécifiques d’amélioration de vision demandées dans la conversation. Elle a une propriété grounding et ocr, qui ont chacune une propriété booléenne enabled. Utilisez-les pour demander le service OCR et/ou le service de détection d’objets/de mise au sol. dataSources représente les données de ressources Vision par ordinateur qui sont nécessaires pour améliorer Vision. Il a une propriété type qui doit être "AzureComputerVision" et une propriété parameters. Attribuez à endpoint et key l’URL du point de terminaison et la clé d’accès de votre ressource Vision par ordinateur.

Important

N’oubliez pas de définir une valeur "max_tokens", ou la sortie de retour sera coupée.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Vous appelez la même méthode que lors de l’étape précédente, mais incluez le nouveau paramètre extra_body. Il contient les champs enhancements et dataSources.

enhancements représente les fonctionnalités spécifiques d’amélioration de vision demandées dans la conversation. Il a des champs grounding et ocr, qui ont chacun une propriété booléenne enabled. Utilisez-les pour demander le service OCR et/ou le service de détection d’objets/de mise au sol.

dataSources représente les données de ressources Vision par ordinateur qui sont nécessaires pour améliorer Vision. Il a un champ type qui doit être "AzureComputerVision", et un champ parameters. Attribuez à endpoint et key l’URL du point de terminaison et la clé d’accès de votre ressource Vision par ordinateur. R

Important

N’oubliez pas de définir une valeur "max_tokens", ou la sortie de retour sera coupée.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)
print(response)

Sortie

Les réponses au chat que vous recevez du modèle devraient maintenant inclure des informations améliorées sur l'image, telles que les étiquettes d'objet et les cadres englobants, ainsi que les résultats de l'OCR. La réponse de l’API doit ressembler à ce qui suit.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Chaque réponse inclut un champ "finish_details". Il contient les valeurs possibles suivantes :

stop : l’API a retourné la sortie complète du modèle.
length : sortie de modèle incomplète en raison du paramètre d’entrée max_tokens ou de la limite de jetons du modèle.
content_filter : contenu omis en raison d’un indicateur de nos filtres de contenu.

Utiliser l’amélioration de la vision avec une vidéo

GPT-4 Turbo avec Vision offre un accès exclusif aux améliorations personnalisées d'Azure AI Services. L’intégration de l’invite vidéo utilise la récupération vidéo d'Azure AI Vision pour échantillonner un ensemble de trames à partir d’une vidéo et créer une transcription de la parole dans la vidéo. Il permet au modèle d'IA de fournir des résumés et des réponses sur le contenu vidéo.

Suivez ces étapes pour mettre en place un système de récupération vidéo et l'intégrer à votre modèle d’IA conversationnelle.

Important

Attention

Conseil

Si vous préférez, vous pouvez effectuer les étapes ci-dessous en utilisant un notebook Jupyter à la place : notebook des complétions de conversation vidéo.

Charger des vidéos dans un Stockage Blob Azure

Vous devez charger votre vidéo dans un conteneur Stockage Blob Azure. Créer un compte de stockage si vous n’en avez pas déjà.

Une fois vos vidéos chargées, vous pouvez obtenir leurs URL SAS que vous utilisez pour y accéder dans les étapes ultérieures.

Garantir un accès en lecture approprié

En fonction de votre méthode d’authentification, vous allez peut-être devoir effectuer des étapes supplémentaires pour octroyer l’accès au conteneur de stockage d’objets blob Azure. Si vous utilisez une ressource Azure AI Services plutôt qu’une ressource Azure OpenAI, vous devez utiliser des identités managées pour lui octroyer un accès en lecture au Stockage Blob Azure :

Utilisation d’une identité attribuée par le système
Utilisation des identités affectées par l’utilisateur

Activez les identités affectées par le système sur votre ressource Azure AI Services en procédant comme suit :

À partir de votre ressource AI Services dans le Portail Azure, sélectionnez Gestion des ressources – >Identité et basculez l’état sur ACTIVÉ.
Attribuez l’accès en lecture aux données blob du stockage à la ressource AI Services : à partir de la page Identité, sélectionnez attributions de rôles Azure, puis Ajouter une attribution de rôle avec les paramètres suivants :
- étendue : stockage
- Abonnement : {votre abonnement}
- Ressource : {sélectionnez votre ressource stockage Blob Azure}
- Rôle : lecteur des données Blob du stockage
Enregistrez vos paramètres.

Créer un index de récupération vidéo

Obtenez une ressource Azure AI Vision dans la même région que la ressource Azure OpenAI que vous utilisez.

Créez un index où stocker et organiser les fichiers vidéo et leurs métadonnées. L’exemple de commande ci-dessous illustre la création d’un index nommé my-video-index à l’aide de l’API Créer un index. Notez le nom de l’index à un emplacement temporaire, car vous en aurez besoin dans des étapes ultérieures.

Conseil

Pour obtenir des instructions plus détaillées sur la création d’un index vidéo, consultez Effectuer une récupération vidéo en utilisant la vectorisation.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'metadataSchema': {
    'fields': [
      {
        'name': 'cameraId',
        'searchable': false,
        'filterable': true,
        'type': 'string'
      },
      {
        'name': 'timestamp',
        'searchable': false,
        'filterable': true,
        'type': 'datetime'
      }
    ]
  },
  'features': [
    {
      'name': 'vision',
      'domain': 'surveillance'
    },
    {
      'name': 'speech'
    }
  ]
}"

Ajoutez des fichiers vidéo à l’index, avec leurs métadonnées associées. L’exemple ci-dessous montre comment ajouter deux fichiers vidéo à l’index en utilisant des URL SAS avec l’API Créer une ingestion. Notez les URL SAS et les valeurs documentId à un emplacement temporaire, car vous en aurez besoin dans des étapes ultérieures.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'videos': [
    {
      'mode': 'add',
      'documentId': '02a504c9cd28296a8b74394ed7488045',
      'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera1',
        'timestamp': '2023-06-30 17:40:33'
      }
    },
    {
      'mode': 'add',
      'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
      'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera2'
      }
    }
  ]
}"

Une fois que vous avez ajouté des fichiers vidéo à l’index, le processus d’ingestion démarre. Cela peut prendre un certain temps selon la taille et le nombre de fichiers. Pour vérifier que l’ingestion est terminée avant d’effectuer des recherches, vous pouvez utiliser l’API Obtenir une ingestion pour vérifier l’état. Attendez que cet appel renvoie "state" = "Completed" avant de passer à l’étape suivante.
```
curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
```

Intégrer votre index vidéo à GPT-4 Turbo avec Vision

REST
Python

Préparez une requête POST à https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview où
- RESOURCE_NAME est le nom de votre ressource Azure OpenAI
- DEPLOYMENT_NAME est le nom de votre modèle de déploiement GPT-4 Vision
En-têtes obligatoires :
- Content-Type : application/json
- api-key : {API_KEY}

Ajoutez la structure JSON suivante dans le corps de la demande :

{
    "enhancements": {
            "video": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVisionVideoIndex",
        "parameters": {
            "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
            "computerVisionApiKey": "<your_computer_vision_key>",
            "indexName": "<name_of_your_index>",
            "videoUrls": ["<your_video_SAS_URL>"]
        }
    }],
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user",
            "content": [
                    {
                        "type": "acv_document_id",
                        "acv_document_id": "<your_video_ID>"
                    },
                    {
                        "type": "text",
                        "text": "Describe this video:"
                    }
                ]
        }
    ],
    "max_tokens": 100, 
}

La requête inclut les objets enhancements et dataSources. enhancements représente les fonctionnalités spécifiques d’amélioration de vision demandées dans la conversation. dataSources représente les données de ressources Vision par ordinateur qui sont nécessaires pour améliorer Vision. Il a une propriété type qui doit être "AzureComputerVisionVideoIndex" et une propriété parameters qui contient vos informations IA Vision et vidéo.

Renseignez tous les champs <placeholder> ci-dessus avec vos propres informations : entrez les URL de point de terminaison et les clés de vos ressources OpenAI et AI Vision le cas échéant, puis récupérez les informations d’index vidéo de l’étape précédente.
Envoyez la requête POST au point de terminaison de l'API. Il doit contenir vos identifiants OpenAI et AI Vision, le nom de votre index vidéo, ainsi que l'identifiant et l'URL SAS d'une seule vidéo.

Dans votre script Python, appelez la méthode create du client comme dans les sections précédentes, mais cette fois en incluant le paramètre extra_body. Ici, il contient les champs enhancements et data_sources. enhancements représente les fonctionnalités spécifiques d’amélioration de vision demandées dans la conversation. Il a un champ video, qui a une propriété booléenne enabled. Utilisez-le pour demander le service de récupération vidéo.

data_sources représente les données de ressources externes qui sont nécessaires pour l’amélioration Vision. Il a un champ type qui doit être "AzureComputerVisionVideoIndex", et un champ parameters.

Attribuez à computerVisionBaseUrl et computerVisionApiKey l’URL du point de terminaison et la clé d’accès de votre ressource Vision par ordinateur. Définissez indexName sur le nom de votre index vidéo. Définissez videoUrlssur la liste des URL SAS de vos vidéos.

Important

N’oubliez pas de définir une valeur "max_tokens", ou la sortie de retour sera coupée.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            {
                "type": "acv_document_id",
                "acv_document_id": "<your_video_ID>"
            },
            { 
                "type": "text", 
                "text": "Describe this video:" 
            }
        ] } 
    ],
    extra_body={
        "data_sources": [
            {
                "type": "AzureComputerVisionVideoIndex",
                "parameters": {
                    "computerVisionBaseUrl": "<your_computer_vision_endpoint>", # your endpoint should look like the following https://YOUR_RESOURCE_NAME.cognitiveservices.azure.com/computervision
                    "computerVisionApiKey": "<your_computer_vision_key>",
                    "indexName": "<name_of_your_index>",
                    "videoUrls": ["<your_video_SAS_URL>"]
                }
            }],
        "enhancements": {
            "video": {
                "enabled": True
            }
        }
    },
    max_tokens=100
)

print(response)

Important

Le contenu de l’objet "data_sources" varie en fonction du type de ressource Azure et de la méthode d’authentification utilisées. Consultez les références suivantes :

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
        "indexName": "<name_of_your_index>",
        "documentAuthenticationKind": "managedidentity",
    }
}],

Sortie

Les réponses de conversation que vous recevez du modèle doivent inclure des informations sur la vidéo. La réponse de l’API doit ressembler à ce qui suit.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Chaque réponse inclut un champ "finish_details". Il contient les valeurs possibles suivantes :

stop : l’API a retourné la sortie complète du modèle.
length : sortie de modèle incomplète en raison du paramètre d’entrée max_tokens ou de la limite de jetons du modèle.
content_filter : contenu omis en raison d’un indicateur de nos filtres de contenu.

Exemple de tarifs pour les invites vidéo

Les tarifs de GPT-4 Turbo avec Vision sont dynamiques, et dépendent des caractéristiques et entrées spécifiques utilisées. Pour obtenir une vue complète des tarifs d’Azure OpenAI, consultez Tarifs d’Azure OpenAI.

Les frais de base et les fonctionnalités supplémentaires sont décrits ci-dessous :

Les tarifs de base pour GPT-4 Turbo avec Vision sont les suivants :

Entrée : 0,01 $ par 1000 jetons
Sortie : 0,03 $ par 1000 jetons

Intégration de l’invite vidéo avec le module complémentaire Récupération vidéo :

Ingestion : 0,05 $ par minute de vidéo
Transactions : 0,25 $ par 1000 requêtes pour la récupération vidéo

Share via

Utiliser GPT-4 Turbo avec Vision

Mise à niveau d’un modèle GPT-4 Turbo

Différences entre les modèles OpenAI et OpenAI GPT-4 Turbo GA

Différences par rapport à gpt-4 vision-preview

Disponibilité managée approvisionnée de GPT-4 Turbo

Disponibilité dans les régions

Déploiement de la disponibilité générale de GPT-4 Turbo avec Vision

Appeler les API de saisie semi-automatique de conversation

Utiliser une image locale

Sortie

Paramètres de détail dans le traitement d’images : Low, High, Auto

Utiliser l’amélioration de la vision avec des images

Sortie

Utiliser l’amélioration de la vision avec une vidéo

Charger des vidéos dans un Stockage Blob Azure

Garantir un accès en lecture approprié

Créer un index de récupération vidéo

Intégrer votre index vidéo à GPT-4 Turbo avec Vision

Sortie

Exemple de tarifs pour les invites vidéo

Étapes suivantes

Ressources supplémentaires