GPT-4 Turbo met Vision gebruiken

Artikel
05/02/2024

GPT-4 Turbo with Vision is een groot multimodale model (LMM) ontwikkeld door OpenAI dat afbeeldingen kan analyseren en tekstuele antwoorden kan geven op vragen over deze modellen. Het bevat zowel natuurlijke taalverwerking als visueel begrip.

De GPT-4 Turbo met Vision-model beantwoordt algemene vragen over wat er aanwezig is in de afbeeldingen. U kunt deze video ook weergeven als u Vision-uitbreiding gebruikt.

Tip

Als u GPT-4 Turbo met Vision wilt gebruiken, roept u de CHAT-voltooiings-API aan op een GPT-4 Turbo met Vision-model dat u hebt geïmplementeerd. Als u niet bekend bent met de CHAT-voltooiings-API, raadpleegt u de handleiding GPT-4 Turbo & GPT-4.

GPT-4 Turbo model upgrade

De nieuwste GA-release van GPT-4 Turbo is:

gpt-4Versie:turbo-2024-04-09

Dit is de vervanging voor de volgende preview-modellen:

gpt-4Versie:1106-Preview
gpt-4Versie:0125-Preview
gpt-4Versie:vision-preview

Verschillen tussen OpenAI en Azure OpenAI GPT-4 Turbo GA-modellen

OpenAI's versie van het nieuwste 0409 turbomodel ondersteunt JSON-modus en functie-aanroepen voor alle deductieaanvragen.
De versie van Azure OpenAI van de meest recente turbo-2024-04-09 versie biedt momenteel geen ondersteuning voor het gebruik van de JSON-modus en functie-aanroepen bij het maken van deductieaanvragen met afbeeldingsinvoer (vision). Invoeraanvragen op basis van tekst (aanvragen zonder image_url en inline-afbeeldingen) ondersteunen de JSON-modus en functie-aanroepen.

Verschillen met gpt-4 vision-preview

Integratie van azure AI-specifieke Vision-verbeteringen met GPT-4 Turbo met Vision wordt niet ondersteund voor gpt-4Versie:turbo-2024-04-09. Dit omvat Optical Character Recognition (OCR), objectaarding, videoprompts en verbeterde verwerking van uw gegevens met afbeeldingen.

Beheerde beschikbaarheid van GPT-4 Turbo ingericht

gpt-4Versie:turbo-2024-04-09 is beschikbaar voor zowel standaard- als ingerichte implementaties. Momenteel biedt de ingerichte versie van dit model geen ondersteuning voor aanvragen voor afbeeldings-/visiondeductie. Ingerichte implementaties van dit model accepteren alleen tekstinvoer. Standaardmodelimplementaties accepteren zowel tekst- als afbeeldings-/visiondeductieaanvragen.

Regionale beschikbaarheid

Raadpleeg de modelmatrix voor standaardimplementaties en ingerichte implementaties voor informatie over regionale beschikbaarheid van modellen .

GPT-4 Turbo implementeren met Vision GA

Als u het GA-model wilt implementeren vanuit de gebruikersinterface van Studio, selecteert en kiest u GPT-4 vervolgens de turbo-2024-04-09 versie in de vervolgkeuzelijst. Het standaardquotum voor het gpt-4-turbo-2024-04-09 model is hetzelfde als het huidige quotum voor GPT-4-Turbo. Zie de regionale quotumlimieten.

De CHAT-voltooiings-API's aanroepen

De volgende opdracht toont de meest eenvoudige manier om het GPT-4 Turbo met Vision-model met code te gebruiken. Als dit uw eerste keer is dat u deze modellen programmatisch gebruikt, raden we u aan om te beginnen met onze GPT-4 Turbo met Vision-quickstart.

REST
Python

Een POST-aanvraag verzenden naar waar https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview

RESOURCE_NAME is de naam van uw Azure OpenAI-resource
DEPLOYMENT_NAME is de naam van uw GPT-4 Turbo met Vision-modelimplementatie

Vereiste headers:

Content-Type: application/json
api-key: {API_KEY}

Hoofdtekst: Het volgende is een voorbeeld van een aanvraagbody. De indeling is hetzelfde als de API voor voltooiing van de chat voor GPT-4, behalve dat de berichtinhoud een matrix kan zijn die tekst en afbeeldingen bevat (een geldige HTTP- of HTTPS-URL naar een afbeelding of een met base 64 gecodeerde afbeelding).

Belangrijk

Vergeet niet om een "max_tokens" waarde in te stellen of de retouruitvoer wordt afgekapt.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Definieer uw Azure OpenAI-resource-eindpunt en -sleutel.
Voer de naam in van uw GPT-4 Turbo met Vision-modelimplementatie.

Maak een clientobject met deze waarden.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}/extensions",
)

Roep vervolgens de methode voor het maken van de client aan. De volgende code toont een voorbeeld van een aanvraagbody. De indeling is hetzelfde als de API voor voltooiing van de chat voor GPT-4, behalve dat de berichtinhoud een matrix kan zijn die tekst en afbeeldingen bevat (een geldige HTTP- of HTTPS-URL naar een afbeelding of een met base 64 gecodeerde afbeelding).

Belangrijk

Vergeet niet om een "max_tokens" waarde in te stellen of de retouruitvoer wordt afgekapt.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Tip

Een lokale installatiekopieën gebruiken

Als u een lokale installatiekopieën wilt gebruiken, kunt u de volgende Python-code gebruiken om deze te converteren naar base64, zodat deze kan worden doorgegeven aan de API. Alternatieve hulpprogramma's voor bestandsconversie zijn online beschikbaar.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Wanneer uw base64-afbeeldingsgegevens gereed zijn, kunt u deze als volgt doorgeven aan de API in de aanvraagbody:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Uitvoer

Het API-antwoord moet er als volgt uitzien.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Elk antwoord bevat een "finish_details" veld. Het heeft de volgende mogelijke waarden:

stop: API heeft volledige modeluitvoer geretourneerd.
length: Onvolledige modeluitvoer vanwege de tokenlimiet van de max_tokens invoerparameter of het model.
content_filter: Inhoud weggelaten vanwege een vlag van onze inhoudsfilters.

Detailparameterinstellingen in afbeeldingsverwerking: Laag, Hoog, Automatisch

De detailparameter in het model biedt drie opties: low, highof auto, om de manier aan te passen waarop het model afbeeldingen interpreteert en verwerkt. De standaardinstelling is automatisch, waarbij het model bepaalt tussen laag of hoog op basis van de grootte van de invoer van de afbeelding.

low instelling: het model activeert niet de modus 'hoge res', in plaats daarvan verwerkt een lagere resolutie 512x512-versie, wat resulteert in snellere reacties en een verminderd tokenverbruik voor scenario's waarbij gedetailleerde details niet cruciaal zijn.
high instelling: het model activeert de modus 'hoge res'. Hier bekijkt het model in eerste instantie de afbeelding met lage resolutie en genereert vervolgens gedetailleerde 512x512-segmenten van de invoerafbeelding. Elk segment maakt gebruik van het dubbele tokenbudget, wat een gedetailleerdere interpretatie van de afbeelding mogelijk maakt.'

Zie < a0>What is OpenAI? (Wat is OpenAI) voor meer informatie over hoe de afbeeldingsparameters van invloed zijn op tokens die worden gebruikt en prijzen? Afbeeldingstokens met GPT-4 Turbo met Vision

Vision-uitbreiding gebruiken met afbeeldingen

GPT-4 Turbo with Vision biedt exclusieve toegang tot verbeteringen op maat van Azure AI Services. In combinatie met Azure AI Vision wordt uw chatervaring verbeterd door het chatmodel meer gedetailleerde informatie te geven over zichtbare tekst in de afbeelding en de locaties van objecten.

Dankzij de OCR-integratie (Optical Character Recognition) kan het model antwoorden van een hogere kwaliteit produceren voor dichte tekst, getransformeerde afbeeldingen en financiële documenten met veel nummers. Het omvat ook een breder scala aan talen.

De integratie van objectgronding brengt een nieuwe laag naar gegevensanalyse en gebruikersinteractie, omdat de functie belangrijke elementen in de afbeeldingen die worden verwerkt visueel kan onderscheiden en markeren.

Belangrijk

Als u de Vision-uitbreiding wilt gebruiken met een Azure OpenAI-resource, moet u een Computer Vision-resource opgeven. Deze moet zich in de betaalde laag (S1) en in dezelfde Azure-regio bevinden als uw GPT-4 Turbo met Vision-resource. Als u een Azure AI Services-resource gebruikt, hebt u geen extra Computer Vision-resource nodig.

Let op

Azure AI-verbeteringen voor GPT-4 Turbo with Vision worden afzonderlijk gefactureerd van de kernfunctionaliteiten. Elke specifieke Azure AI-uitbreiding voor GPT-4 Turbo met Vision heeft zijn eigen afzonderlijke kosten. Zie de speciale prijsinformatie voor meer informatie.

REST
Python

Een POST-aanvraag verzenden naar waar https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview

RESOURCE_NAME is de naam van uw Azure OpenAI-resource
DEPLOYMENT_NAME is de naam van uw GPT-4 Turbo met Vision-modelimplementatie

Vereiste headers:

Content-Type: application/json
api-key: {API_KEY}

Hoofdtekst:

De indeling is vergelijkbaar met die van de CHAT-voltooiings-API voor GPT-4, maar de inhoud van het bericht kan een matrix zijn die tekenreeksen en afbeeldingen bevat (een geldige HTTP- of HTTPS-URL naar een afbeelding, of een base-64-gecodeerde afbeelding).

U moet ook de enhancements en dataSources objecten opnemen. enhancements vertegenwoordigt de specifieke Vision-uitbreidingsfuncties die zijn aangevraagd in de chat. Het heeft een grounding en ocr eigenschap, die beide een booleaanse enabled eigenschap hebben. Gebruik deze om de OCR-service en/of de objectdetectie-/grondingsservice aan te vragen. dataSources vertegenwoordigt de Computer Vision-resourcegegevens die nodig zijn voor vision-uitbreiding. Het heeft een type eigenschap die moet zijn "AzureComputerVision" en een parameters eigenschap. Stel de endpoint en key de eindpunt-URL en toegangssleutel van uw Computer Vision-resource in.

Belangrijk

Vergeet niet om een "max_tokens" waarde in te stellen of de retouruitvoer wordt afgekapt.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

U roept dezelfde methode aan als in de vorige stap, maar neemt de nieuwe extra_body parameter op. Het bevat de enhancements en dataSources velden.

enhancements vertegenwoordigt de specifieke Vision-uitbreidingsfuncties die zijn aangevraagd in de chat. Het heeft een grounding en ocr veld, die beide een booleaanse enabled eigenschap hebben. Gebruik deze om de OCR-service en/of de objectdetectie-/grondingsservice aan te vragen.

dataSources vertegenwoordigt de Computer Vision-resourcegegevens die nodig zijn voor vision-uitbreiding. Het heeft een type veld dat moet zijn "AzureComputerVision" en een parameters veld. Stel de endpoint en key de eindpunt-URL en toegangssleutel van uw Computer Vision-resource in. R

Belangrijk

Vergeet niet om een "max_tokens" waarde in te stellen of de retouruitvoer wordt afgekapt.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)
print(response)

Uitvoer

De chatantwoorden die u van het model ontvangt, moeten nu uitgebreide informatie bevatten over de afbeelding, zoals objectlabels en begrenzingsvakken en OCR-resultaten. Het API-antwoord moet er als volgt uitzien.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Elk antwoord bevat een "finish_details" veld. Het heeft de volgende mogelijke waarden:

stop: API heeft volledige modeluitvoer geretourneerd.
length: Onvolledige modeluitvoer vanwege de tokenlimiet van de max_tokens invoerparameter of het model.
content_filter: Inhoud weggelaten vanwege een vlag van onze inhoudsfilters.

Vision-uitbreiding gebruiken met video

GPT-4 Turbo with Vision biedt exclusieve toegang tot verbeteringen op maat van Azure AI Services. De integratie van videoprompts maakt gebruik van het ophalen van Azure AI Vision-video's om een set frames van een video te samplen en een transcriptie van de spraak in de video te maken. Hiermee kan het AI-model samenvattingen en antwoorden geven over video-inhoud.

Volg deze stappen om een systeem voor het ophalen van video's in te stellen en te integreren met uw AI-chatmodel.

Belangrijk

Let op

Tip

Als u wilt, kunt u de onderstaande stappen uitvoeren met behulp van een Jupyter-notebook: Videochat is voltooid notebook.

Video's uploaden naar Azure Blob Storage

U moet uw video's uploaden naar een Azure Blob Storage-container. Maak een nieuw opslagaccount als u er nog geen hebt.

Zodra uw video's zijn geüpload, kunt u hun SAS-URL's ophalen, die u in latere stappen gebruikt om ze te openen.

Zorg voor de juiste leestoegang

Afhankelijk van uw verificatiemethode moet u mogelijk een aantal extra stappen uitvoeren om toegang te verlenen tot de Azure Blob Storage-container. Als u een Azure AI Services-resource gebruikt in plaats van een Azure OpenAI-resource, moet u beheerde identiteiten gebruiken om deze leestoegang te verlenen tot Azure Blob Storage:

met behulp van door het systeem toegewezen identiteiten
door de gebruiker toegewezen identiteiten gebruiken

Schakel Door het systeem toegewezen identiteiten in uw Azure AI Services-resource in door de volgende stappen uit te voeren:

Selecteer Resource Management ->Identity in uw AI Services-resource in Azure Portal en schakel de status in op AAN.
Wijs leestoegang voor opslagblobgegevens toe aan de AI Services-resource: Selecteer op de pagina Identiteit de roltoewijzingen van Azure en voeg vervolgens roltoewijzing toe met de volgende instellingen:
- bereik: opslag
- abonnement: {uw abonnement}
- Resource: {selecteer de Azure Blob Storage-resource}
- Rol: Opslagblobgegevenslezer
Sla uw instellingen op.

Een index voor het ophalen van video's maken

Haal een Azure AI Vision-resource op in dezelfde regio als de Azure OpenAI-resource die u gebruikt.

Maak een index voor het opslaan en ordenen van de videobestanden en de bijbehorende metagegevens. In de onderstaande voorbeeldopdracht ziet u hoe u een index maakt met my-video-index behulp van de Create Index-API . Sla de indexnaam op een tijdelijke locatie op; U hebt deze in latere stappen nodig.

Tip

Zie Video ophalen met behulp van vectorisatie voor meer gedetailleerde instructies over het maken van een video-index.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'metadataSchema': {
    'fields': [
      {
        'name': 'cameraId',
        'searchable': false,
        'filterable': true,
        'type': 'string'
      },
      {
        'name': 'timestamp',
        'searchable': false,
        'filterable': true,
        'type': 'datetime'
      }
    ]
  },
  'features': [
    {
      'name': 'vision',
      'domain': 'surveillance'
    },
    {
      'name': 'speech'
    }
  ]
}"

Voeg videobestanden toe aan de index met de bijbehorende metagegevens. In het onderstaande voorbeeld ziet u hoe u twee videobestanden toevoegt aan de index met behulp van SAS-URL's met de API voor opname maken . Sla de SAS-URL's en documentId -waarden op een tijdelijke locatie op. U hebt deze in latere stappen nodig.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'videos': [
    {
      'mode': 'add',
      'documentId': '02a504c9cd28296a8b74394ed7488045',
      'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera1',
        'timestamp': '2023-06-30 17:40:33'
      }
    },
    {
      'mode': 'add',
      'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
      'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera2'
      }
    }
  ]
}"

Nadat u videobestanden aan de index hebt toegevoegd, wordt het opnameproces gestart. Het kan enige tijd duren, afhankelijk van de grootte en het aantal bestanden. Om ervoor te zorgen dat de opname is voltooid voordat u zoekopdrachten uitvoert, kunt u de Get Ingestion-API gebruiken om de status te controleren. Wacht tot deze aanroep wordt geretourneerd "state" = "Completed" voordat u doorgaat met de volgende stap.
```
curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
```

Uw video-index integreren met GPT-4 Turbo met Vision

REST
Python

Een POST-aanvraag voorbereiden op https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview waar
- RESOURCE_NAME is de naam van uw Azure OpenAI-resource
- DEPLOYMENT_NAME is de naam van uw GPT-4 Vision-modelimplementatie
Vereiste headers:
- Content-Type: application/json
- api-key: {API_KEY}

Voeg de volgende JSON-structuur toe in de aanvraagbody:

{
    "enhancements": {
            "video": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVisionVideoIndex",
        "parameters": {
            "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
            "computerVisionApiKey": "<your_computer_vision_key>",
            "indexName": "<name_of_your_index>",
            "videoUrls": ["<your_video_SAS_URL>"]
        }
    }],
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user",
            "content": [
                    {
                        "type": "acv_document_id",
                        "acv_document_id": "<your_video_ID>"
                    },
                    {
                        "type": "text",
                        "text": "Describe this video:"
                    }
                ]
        }
    ],
    "max_tokens": 100, 
}

De aanvraag bevat de enhancements en dataSources objecten. enhancements vertegenwoordigt de specifieke Vision-uitbreidingsfuncties die zijn aangevraagd in de chat. dataSources vertegenwoordigt de Computer Vision-resourcegegevens die nodig zijn voor vision-uitbreiding. Het heeft een type eigenschap die moet zijn "AzureComputerVisionVideoIndex" en een parameters eigenschap die uw AI Vision- en video-informatie bevat.

Vul alle <placeholder> bovenstaande velden in met uw eigen gegevens: voer waar nodig de eindpunt-URL's en sleutels van uw OpenAI- en AI Vision-resources in en haal de gegevens van de video-index op uit de vorige stap.
Verzend de POST-aanvraag naar het API-eindpunt. Deze moet uw OpenAI- en AI Vision-referenties, de naam van uw video-index en de ID en SAS-URL van één video bevatten.

Roep in uw Python-script de methode voor het maken van de client aan zoals in de vorige secties, maar neem de parameter extra_body op. Hier bevat het de enhancements en data_sources velden. enhancements vertegenwoordigt de specifieke Vision-uitbreidingsfuncties die zijn aangevraagd in de chat. Het heeft een video veld met een booleaanse enabled eigenschap. Gebruik deze optie om de service voor het ophalen van video's aan te vragen.

data_sources vertegenwoordigt de externe resourcegegevens die nodig zijn voor vision-uitbreiding. Het heeft een type veld dat moet zijn "AzureComputerVisionVideoIndex" en een parameters veld.

Stel de computerVisionBaseUrl en computerVisionApiKey de eindpunt-URL en toegangssleutel van uw Computer Vision-resource in. Stel indexName deze in op de naam van uw video-index. Ingesteld videoUrls op een lijst met SAS-URL's van uw video's.

Belangrijk

Vergeet niet om een "max_tokens" waarde in te stellen of de retouruitvoer wordt afgekapt.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            {
                "type": "acv_document_id",
                "acv_document_id": "<your_video_ID>"
            },
            { 
                "type": "text", 
                "text": "Describe this video:" 
            }
        ] } 
    ],
    extra_body={
        "data_sources": [
            {
                "type": "AzureComputerVisionVideoIndex",
                "parameters": {
                    "computerVisionBaseUrl": "<your_computer_vision_endpoint>", # your endpoint should look like the following https://YOUR_RESOURCE_NAME.cognitiveservices.azure.com/computervision
                    "computerVisionApiKey": "<your_computer_vision_key>",
                    "indexName": "<name_of_your_index>",
                    "videoUrls": ["<your_video_SAS_URL>"]
                }
            }],
        "enhancements": {
            "video": {
                "enabled": True
            }
        }
    },
    max_tokens=100
)

print(response)

Belangrijk

De inhoud van het "data_sources" object varieert, afhankelijk van het Azure-resourcetype en de verificatiemethode die u gebruikt. Zie de volgende naslaginformatie:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
        "indexName": "<name_of_your_index>",
        "documentAuthenticationKind": "managedidentity",
    }
}],

Uitvoer

De chatantwoorden die u van het model ontvangt, moeten informatie bevatten over de video. Het API-antwoord moet er als volgt uitzien.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Elk antwoord bevat een "finish_details" veld. Het heeft de volgende mogelijke waarden:

stop: API heeft volledige modeluitvoer geretourneerd.
length: Onvolledige modeluitvoer vanwege de tokenlimiet van de max_tokens invoerparameter of het model.
content_filter: Inhoud weggelaten vanwege een vlag van onze inhoudsfilters.

Prijsvoorbeeld voor videoprompts

De prijzen voor GPT-4 Turbo with Vision zijn dynamisch en zijn afhankelijk van de specifieke functies en invoer die worden gebruikt. Zie Prijzen voor Azure OpenAI voor een uitgebreide weergave van prijzen voor Azure OpenAI.

De basiskosten en aanvullende functies worden hieronder beschreven:

Basisprijzen voor GPT-4 Turbo with Vision is:

Invoer: $ 0,01 per 1000 tokens
Uitvoer: $ 0,03 per 1000 tokens

Integratie van videoprompt met de invoegtoepassing Video ophalen:

Opname: $ 0,05 per minuut video
Transacties: $ 0,25 per 1000 query's van het ophalen van video's

Share via

GPT-4 Turbo met Vision gebruiken

GPT-4 Turbo model upgrade

Verschillen tussen OpenAI en Azure OpenAI GPT-4 Turbo GA-modellen

Verschillen met gpt-4 vision-preview

Beheerde beschikbaarheid van GPT-4 Turbo ingericht

Regionale beschikbaarheid

GPT-4 Turbo implementeren met Vision GA

De CHAT-voltooiings-API's aanroepen

Een lokale installatiekopieën gebruiken

Uitvoer

Detailparameterinstellingen in afbeeldingsverwerking: Laag, Hoog, Automatisch

Vision-uitbreiding gebruiken met afbeeldingen

Uitvoer

Vision-uitbreiding gebruiken met video

Video's uploaden naar Azure Blob Storage

Zorg voor de juiste leestoegang

Een index voor het ophalen van video's maken

Uw video-index integreren met GPT-4 Turbo met Vision

Uitvoer

Prijsvoorbeeld voor videoprompts

Volgende stappen

Aanvullende resources