Görüntü İşleme ile GPT-4 Turbo kullanma

Makale
05/02/2024

Görüntü İşlemeli GPT-4 Turbo, OpenAI tarafından geliştirilen ve görüntüleri analiz eden ve bunlarla ilgili sorulara metinsel yanıtlar sağlayabilen büyük bir çok modüllü modeldir (LMM). Hem doğal dil işleme hem de görsel anlama özelliklerini içerir.

GÖRÜNTÜ İşlemeli GPT-4 Turbo modeli, görüntülerde neler olduğuyla ilgili genel soruları yanıtlar. Görüntü İşleme geliştirmesi kullanıyorsanız video da gösterebilirsiniz.

İpucu

GPT-4 Turbo'yı Görüntü İşleme ile kullanmak için dağıttığınız Görüntü İşlemeli GPT-4 Turbo modelinde Sohbet Tamamlama API'sini çağırırsınız. Sohbet Tamamlama API'sini bilmiyorsanız GPT-4 Turbo & GPT-4 nasıl yapılır kılavuzuna bakın.

GPT-4 Turbo model yükseltmesi

GPT-4 Turbo'nun en son GA sürümü:

gpt-4Sürüm:turbo-2024-04-09

Bu, aşağıdaki önizleme modellerinin yerini alır:

gpt-4Sürüm:1106-Preview
gpt-4Sürüm:0125-Preview
gpt-4Sürüm:vision-preview

OpenAI ile Azure OpenAI GPT-4 Turbo GA Modelleri Arasındaki Farklar

OpenAI'nin en son 0409 turbo modeli sürümü tüm çıkarım istekleri için JSON modunu ve işlev çağrısını destekler.
Azure OpenAI'nin en son turbo-2024-04-09 sürümü şu anda görüntü (görüntü) girişiyle çıkarım istekleri yaparken JSON modu ve işlev çağrısı kullanımını desteklememektedir. Metin tabanlı giriş istekleri (ve satır içi görüntüleri olmayan image_url istekler), JSON modunu ve işlev çağrılarını destekler.

gpt-4 vision-preview ile arasındaki farklar

Azure AI'ye özgü Görüntü İşleme geliştirmeleri ile GPT-4 Turbo ve Görüntü İşleme tümleştirmesi Sürüm:turbo-2024-04-09 için gpt-4desteklenmez. Buna Optik Karakter Tanıma (OCR), nesne topraklama, video istemleri ve görüntülerle verilerinizin daha iyi işlenmesi dahildir.

GPT-4 Turbo tarafından sağlanan yönetilen kullanılabilirlik

gpt-4Sürüm:turbo-2024-04-09 hem standart hem de sağlanan dağıtımlar için kullanılabilir. Şu anda bu modelin sağlanan sürümü görüntü/görüntü çıkarım isteklerini desteklememektedir. Bu modelin sağlanan dağıtımları yalnızca metin girişini kabul eder. Standart model dağıtımları hem metin hem de görüntü/görüntü çıkarım isteklerini kabul eder.

Bölgesel kullanılabilirlik

Model bölgesel kullanılabilirliği hakkında bilgi için standart ve sağlanan dağıtımlar için model matrisine başvurun.

Görüntü İşleme GA ile GPT-4 Turbo Dağıtma

Ga modelini Studio kullanıcı arabiriminden GPT-4 dağıtmak için açılan menüden turbo-2024-04-09 sürümü seçin ve ardından seçin. Model için gpt-4-turbo-2024-04-09 varsayılan kota, GPT-4-Turbo için geçerli kotayla aynı olacaktır. Bölgesel kota sınırlarına bakın.

Sohbet Tamamlama API'lerini çağırma

Aşağıdaki komut, GPT-4 Turbo ile Görüntü İşleme modelini kodla kullanmanın en temel yolunu gösterir. Bu modelleri programlı olarak ilk kez kullanıyorsanız, GPT-4 Turbo ile Vision hızlı başlangıcı ile başlamanızı öneririz.

REST
Python

Nereye POST isteği https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview gönder

RESOURCE_NAME, Azure OpenAI kaynağınızın adıdır
DEPLOYMENT_NAME, Görüntü İşleme modeli dağıtımı ile GPT-4 Turbo'nuzun adıdır

Gerekli üst bilgiler:

Content-Type: application/json
api-key: {API_KEY}

Gövde: Aşağıda örnek bir istek gövdesi verilmiştir. biçim, GPT-4 için sohbet tamamlama API'si ile aynıdır, ancak ileti içeriği metin ve görüntü içeren bir dizi (bir görüntünün geçerli bir HTTP veya HTTPS URL'si ya da temel 64 kodlu bir görüntü) olabilir.

Önemli

Bir "max_tokens" değer ayarlamayı unutmayın, aksi takdirde dönüş çıkışı kesilir.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Azure OpenAI kaynak uç noktanızı ve anahtarınızı tanımlayın.
Görüntü İşleme modeli dağıtımı ile GPT-4 Turbo'nuzun adını girin.

Bu değerleri kullanarak bir istemci nesnesi oluşturun.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}/extensions",
)

Ardından istemcinin oluşturma yöntemini çağırın. Aşağıdaki kod bir örnek istek gövdesini gösterir. biçim, GPT-4 için sohbet tamamlama API'si ile aynıdır, ancak ileti içeriği metin ve görüntü içeren bir dizi (bir görüntünün geçerli bir HTTP veya HTTPS URL'si ya da temel 64 kodlu bir görüntü) olabilir.

Önemli

Bir "max_tokens" değer ayarlamayı unutmayın, aksi takdirde dönüş çıkışı kesilir.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

İpucu

Yerel görüntü kullanma

Yerel bir görüntü kullanmak istiyorsanız, api'ye geçirilebilmesi için aşağıdaki Python kodunu kullanarak base64'e dönüştürebilirsiniz. Alternatif dosya dönüştürme araçları çevrimiçi olarak kullanılabilir.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

base64 görüntü verileriniz hazır olduğunda, bunu istek gövdesindeki API'ye şu şekilde geçirebilirsiniz:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Çıktı

API yanıtı aşağıdaki gibi görünmelidir.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Her yanıt bir "finish_details" alan içerir. Aşağıdaki olası değerlere sahiptir:

stop: API tam model çıktısı döndürdü.
length: Giriş parametresi veya modelin max_tokens belirteç sınırı nedeniyle tamamlanmamış model çıktısı.
content_filter: İçerik filtrelerimizden gelen bir bayrak nedeniyle içerik atlanır.

Görüntü işlemede ayrıntı parametresi ayarları: Düşük, Yüksek, Otomatik

Modeldeki ayrıntı parametresi, modelin görüntüleri yorumlama ve işleme biçimini ayarlamak için üç seçenek sunar: low, high, veya auto. Varsayılan ayar, modelin görüntü girişinin boyutuna göre düşük veya yüksek arasında karar aldığı otomatik ayardır.

low ayar: model "yüksek res" modunu etkinleştirmez, bunun yerine daha düşük çözünürlüklü 512x512 sürümünü işler ve daha hızlı yanıtlar ve ince ayrıntıların kritik olmadığı senaryolar için daha az belirteç tüketimi sağlar.
high ayarı: model "yüksek res" modunu etkinleştirir. Burada model başlangıçta düşük çözünürlüklü görüntüyü görüntüler ve ardından giriş görüntüsünden ayrıntılı 512x512 kesimleri oluşturur. Her segment, görüntünün daha ayrıntılı yorumlanmasını sağlayan belirteç bütçesinin iki katını kullanır.''

Görüntü parametrelerinin kullanılan belirteçleri ve fiyatlandırmayı nasıl etkilediğinin ayrıntıları için lütfen bkz. - OpenAI nedir? Görüntü İşlemeli GPT-4 Turbo ile Görüntü Belirteçleri

Görüntü geliştirmeyi görüntülerle kullanma

GpT-4 Görüntü İşlemeli Turbo, Azure AI Hizmetleri'ne özel olarak uyarlanmış iyileştirmelere özel erişim sağlar. Azure AI Vision ile birlikte kullanıldığında, sohbet modeline görüntüdeki görünür metinler ve nesnelerin konumları hakkında daha ayrıntılı bilgiler sağlayarak sohbet deneyiminizi geliştirir.

Optik karakter tanıma (OCR) tümleştirmesi, modelin yoğun metin, dönüştürülmüş görüntüler ve çok sayıda ağır finansal belgeler için daha yüksek kaliteli yanıtlar üretmesini sağlar. Ayrıca daha geniş bir dil yelpazesini de kapsar.

Nesne topraklama tümleştirmesi, veri analizine ve kullanıcı etkileşimine yeni bir katman getirir; özellik işlediği görüntülerdeki önemli öğeleri görsel olarak ayırt edebilir ve vurgulayabilir.

Önemli

Görüntü İşleme geliştirmesini bir Azure OpenAI kaynağıyla kullanmak için bir Görüntü İşleme kaynağı belirtmeniz gerekir. Ücretli (S1) katmanında ve Görüntü İşlemeli GPT-4 Turbo kaynağınızla aynı Azure bölgesinde olmalıdır. Azure AI Services kaynağı kullanıyorsanız ek bir Görüntü İşleme kaynağına ihtiyacınız yoktur.

Dikkat

Görüntü İşlemeli GPT-4 Turbo için Azure AI geliştirmeleri temel işlevlerden ayrı olarak faturalandırılır. Görüntü İşlemeli GPT-4 Turbo için her özel Azure AI geliştirmesi kendi ayrı ücretlerine sahiptir. Ayrıntılar için özel fiyatlandırma bilgilerine bakın.

REST
Python

Nereye POST isteği https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview gönder

RESOURCE_NAME, Azure OpenAI kaynağınızın adıdır
DEPLOYMENT_NAME, Görüntü İşleme modeli dağıtımı ile GPT-4 Turbo'nuzun adıdır

Gerekli üst bilgiler:

Content-Type: application/json
api-key: {API_KEY}

Gövde:

Biçim, GPT-4 için sohbet tamamlama API'sine benzer, ancak ileti içeriği dizeler ve görüntüler içeren bir dizi (bir görüntünün geçerli bir HTTP veya HTTPS URL'si ya da temel 64 kodlu bir görüntü) olabilir.

ve dataSources nesnelerini de eklemeniz enhancements gerekir. enhancements sohbette istenen belirli Görüntü İşleme geliştirme özelliklerini temsil eder. grounding Her ikisinin de boole enabled özelliğine sahip bir ve ocr özelliği vardır. Bunları kullanarak OCR hizmetini ve/veya nesne algılama/topraklama hizmetini isteyin. dataSources, Görüntü İşleme geliştirmesi için gereken Görüntü İşleme kaynak verilerini temsil eder. Olması gereken "AzureComputerVision" bir type özelliği ve özelliği parameters vardır. ve key değerini endpoint Görüntü İşleme kaynağınızın uç nokta URL'si ve erişim anahtarı olarak ayarlayın.

Önemli

Bir "max_tokens" değer ayarlamayı unutmayın, aksi takdirde dönüş çıkışı kesilir.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Önceki adımda olduğu gibi aynı yöntemi çağırırsınız, ancak yeni extra_body parametresini eklersiniz. ve dataSources alanlarını içerirenhancements.

enhancements sohbette istenen belirli Görüntü İşleme geliştirme özelliklerini temsil eder. Her ikisinin de boole enabled özelliğine sahip bir ve ocr alanı vardırgrounding. Bunları kullanarak OCR hizmetini ve/veya nesne algılama/topraklama hizmetini isteyin.

dataSources, Görüntü İşleme geliştirmesi için gereken Görüntü İşleme kaynak verilerini temsil eder. Olması gereken "AzureComputerVision" bir type alanı ve bir parameters alanı vardır. ve key değerini endpoint Görüntü İşleme kaynağınızın uç nokta URL'si ve erişim anahtarı olarak ayarlayın. R

Önemli

Bir "max_tokens" değer ayarlamayı unutmayın, aksi takdirde dönüş çıkışı kesilir.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)
print(response)

Çıktı

Modelden aldığınız sohbet yanıtları artık görüntü hakkında nesne etiketleri, sınırlayıcı kutular ve OCR sonuçları gibi gelişmiş bilgiler içermelidir. API yanıtı aşağıdaki gibi görünmelidir.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Her yanıt bir "finish_details" alan içerir. Aşağıdaki olası değerlere sahiptir:

stop: API tam model çıktısı döndürdü.
length: Giriş parametresi veya modelin max_tokens belirteç sınırı nedeniyle tamamlanmamış model çıktısı.
content_filter: İçerik filtrelerimizden gelen bir bayrak nedeniyle içerik atlanır.

Görüntü geliştirmeyi video ile kullanma

GpT-4 Görüntü İşlemeli Turbo, Azure AI Hizmetleri'ne özel olarak uyarlanmış iyileştirmelere özel erişim sağlar. Video istemi tümleştirmesi , bir videodan kare kümesini örneklemek ve videodaki konuşmanın dökümünü oluşturmak için Azure AI Vision video alma özelliğini kullanır. Yapay zeka modelinin video içeriği hakkında özetler ve yanıtlar vermesini sağlar.

Bir video alma sistemi ayarlamak ve bunu yapay zeka sohbet modelinizle tümleştirmek için bu adımları izleyin.

Önemli

Dikkat

İpucu

İsterseniz, bunun yerine bir Jupyter not defteri kullanarak aşağıdaki adımları gerçekleştirebilirsiniz: Görüntülü sohbet tamamlama not defteri.

videoları Azure Blob Depolama yükleme

Videolarınızı bir Azure Blob Depolama kapsayıcısına yüklemeniz gerekir. Henüz bir depolama hesabınız yoksa yeni bir depolama hesabı oluşturun.

Videolarınız karşıya yüklendikten sonra, sonraki adımlarda bunlara erişmek için kullandığınız SAS URL'lerini alabilirsiniz.

Doğru okuma erişiminin olduğundan emin olun

Kimlik doğrulama yönteminize bağlı olarak, Azure Blob Depolama kapsayıcısına erişim vermek için bazı ek adımlar uygulamanız gerekebilir. Azure OpenAI kaynağı yerine Azure AI Services kaynağı kullanıyorsanız yönetilen kimlikleri kullanarak Azure Blob Depolama okuma erişimi vermeniz gerekir:

Sistem tarafından atanan kimlikleri kullanma
Kullanıcı tarafından atanan kimlikleri kullanma

Aşağıdaki adımları izleyerek Azure AI Services kaynağınızda Sistem tarafından atanan kimlikleri etkinleştirin:

Azure portalındaki AI Services kaynağınızdan Kaynak Yönetimi ->Kimlik'i seçin ve durumu AÇI olarak değiştirin.
AI Hizmetleri kaynağına Depolama Blob Verileri Okuma erişimi atayın: Kimlik sayfasında Azure rol atamaları'nı seçin ve ardından aşağıdaki ayarlarla rol ataması ekle'yi seçin:
- kapsam: depolama
- abonelik: {aboneliğiniz}
- Kaynak: {Azure Blob Depolama kaynağını seçin}
- Rol: Blob Veri Okuyucusu'Depolama
Ayarlarınızı kaydedin.

Video alma dizini oluşturma

Kullandığınız Azure OpenAI kaynağıyla aynı bölgede bir Azure AI Vision kaynağı alın.

Video dosyalarını ve bunların meta verilerini depolamak ve düzenlemek için bir dizin oluşturun. Aşağıdaki örnek komut, Dizin Oluştur API'sini kullanarak adlı my-video-index bir dizinin nasıl oluşturulacağını gösterir. Dizin adını geçici bir konuma kaydedin; sonraki adımlarda ihtiyacınız olacak.

İpucu

Video dizini oluşturma hakkında daha ayrıntılı yönergeler için bkz . Vektörleştirme kullanarak video alma işlemi yapma.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'metadataSchema': {
    'fields': [
      {
        'name': 'cameraId',
        'searchable': false,
        'filterable': true,
        'type': 'string'
      },
      {
        'name': 'timestamp',
        'searchable': false,
        'filterable': true,
        'type': 'datetime'
      }
    ]
  },
  'features': [
    {
      'name': 'vision',
      'domain': 'surveillance'
    },
    {
      'name': 'speech'
    }
  ]
}"

İlişkili meta verileriyle dizine video dosyaları ekleyin. Aşağıdaki örnekte, Alma Oluşturma API'siyle SAS URL'lerini kullanarak dizine iki video dosyasının nasıl ekleneceği gösterilmektedir . SAS URL'lerini ve documentId değerlerini geçici bir konuma kaydedin; sonraki adımlarda bunlara ihtiyacınız olacaktır.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'videos': [
    {
      'mode': 'add',
      'documentId': '02a504c9cd28296a8b74394ed7488045',
      'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera1',
        'timestamp': '2023-06-30 17:40:33'
      }
    },
    {
      'mode': 'add',
      'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
      'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera2'
      }
    }
  ]
}"

Dizine video dosyaları ekledikten sonra alma işlemi başlar. Dosya boyutuna ve sayısına bağlı olarak biraz zaman alabilir. Aramalar gerçekleştirmeden önce alımın tamamlandığından emin olmak için Alma Alma API'sini kullanarak durumu deleyebilirsiniz. Sonraki adıma geçmeden önce bu çağrının döndürülmesini "state" = "Completed" bekleyin.
```
curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
```

Görüntü İşleme ile video dizininizi GPT-4 Turbo ile tümleştirme

REST
Python

Post isteğini nereye hazırlama https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview
- RESOURCE_NAME, Azure OpenAI kaynağınızın adıdır
- DEPLOYMENT_NAME, GPT-4 Görüntü İşleme modeli dağıtımınızın adıdır
Gerekli üst bilgiler:
- Content-Type: application/json
- api-key: {API_KEY}

İstek gövdesine aşağıdaki JSON yapısını ekleyin:

{
    "enhancements": {
            "video": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVisionVideoIndex",
        "parameters": {
            "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
            "computerVisionApiKey": "<your_computer_vision_key>",
            "indexName": "<name_of_your_index>",
            "videoUrls": ["<your_video_SAS_URL>"]
        }
    }],
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user",
            "content": [
                    {
                        "type": "acv_document_id",
                        "acv_document_id": "<your_video_ID>"
                    },
                    {
                        "type": "text",
                        "text": "Describe this video:"
                    }
                ]
        }
    ],
    "max_tokens": 100, 
}

İstek ve dataSources nesnelerini içerirenhancements. enhancements sohbette istenen belirli Görüntü İşleme geliştirme özelliklerini temsil eder. dataSources, Görüntü İşleme geliştirmesi için gereken Görüntü İşleme kaynak verilerini temsil eder. Olması gereken "AzureComputerVisionVideoIndex" bir type özelliği ve yapay zeka görüntü ve video bilgilerinizi içeren bir parameters özelliği vardır.

Yukarıdaki tüm <placeholder> alanları kendi bilgilerinizle doldurun: Uygun yerlerde OpenAI ve AI Vision kaynaklarınızın uç nokta URL'lerini ve anahtarlarını girin ve önceki adımdaki video dizini bilgilerini alın.
POST isteğini API uç noktasına gönderin. OpenAI ve AI Vision kimlik bilgilerinizi, video dizininizin adını ve tek bir videonun kimlik ve SAS URL'sini içermelidir.

Python betiğinizde, önceki bölümlerde olduğu gibi istemcinin oluşturma yöntemini çağırın, ancak extra_body parametresini ekleyin. Burada ve data_sources alanlarını içerirenhancements. enhancements sohbette istenen belirli Görüntü İşleme geliştirme özelliklerini temsil eder. Boole enabled özelliğine sahip bir alanı vardırvideo. Video alma hizmetini istemek için bunu kullanın.

data_sources , Görüntü İşleme geliştirmesi için gereken dış kaynak verilerini temsil eder. Olması gereken "AzureComputerVisionVideoIndex" bir type alanı ve bir parameters alanı vardır.

ve computerVisionApiKey değerini computerVisionBaseUrl Görüntü İşleme kaynağınızın uç nokta URL'si ve erişim anahtarı olarak ayarlayın. Video dizininizin adına ayarlayın indexName . Videolarınızın SAS URL'lerinin listesine ayarlayın videoUrls .

Önemli

Bir "max_tokens" değer ayarlamayı unutmayın, aksi takdirde dönüş çıkışı kesilir.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            {
                "type": "acv_document_id",
                "acv_document_id": "<your_video_ID>"
            },
            { 
                "type": "text", 
                "text": "Describe this video:" 
            }
        ] } 
    ],
    extra_body={
        "data_sources": [
            {
                "type": "AzureComputerVisionVideoIndex",
                "parameters": {
                    "computerVisionBaseUrl": "<your_computer_vision_endpoint>", # your endpoint should look like the following https://YOUR_RESOURCE_NAME.cognitiveservices.azure.com/computervision
                    "computerVisionApiKey": "<your_computer_vision_key>",
                    "indexName": "<name_of_your_index>",
                    "videoUrls": ["<your_video_SAS_URL>"]
                }
            }],
        "enhancements": {
            "video": {
                "enabled": True
            }
        }
    },
    max_tokens=100
)

print(response)

Önemli

Nesnenin "data_sources" içeriği, kullandığınız Azure kaynak türüne ve kimlik doğrulama yöntemine bağlı olarak değişir. Aşağıdaki başvuruya bakın:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
        "indexName": "<name_of_your_index>",
        "documentAuthenticationKind": "managedidentity",
    }
}],

Çıktı

Modelden aldığınız sohbet yanıtları, video hakkındaki bilgileri içermelidir. API yanıtı aşağıdaki gibi görünmelidir.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Her yanıt bir "finish_details" alan içerir. Aşağıdaki olası değerlere sahiptir:

stop: API tam model çıktısı döndürdü.
length: Giriş parametresi veya modelin max_tokens belirteç sınırı nedeniyle tamamlanmamış model çıktısı.
content_filter: İçerik filtrelerimizden gelen bir bayrak nedeniyle içerik atlanır.

Video istemleri için fiyatlandırma örneği

Görüntü İşlemeli GPT-4 Turbo fiyatlandırması dinamiktir ve kullanılan belirli özelliklere ve girişlere bağlıdır. Azure OpenAI fiyatlandırmasının kapsamlı bir görünümü için bkz. Azure OpenAI Fiyatlandırması.

Temel ücretler ve ek özellikler aşağıda özetlenmiştir:

Vision özellikli GPT-4 Turbo için Temel Fiyatlandırma:

Giriş: 1000 belirteç başına 0,01 ABD doları
Çıkış: 1000 belirteç başına 0,03 ABD doları

Video Alma Eklentisi ile video istemi tümleştirmesi:

Alım: Videonun dakikada 0,05 ABD doları
İşlemler: Video Alma işleminin 1000 sorgusu başına 0,25 ABD doları

Aracılığıyla paylaş

Görüntü İşleme ile GPT-4 Turbo kullanma

GPT-4 Turbo model yükseltmesi

OpenAI ile Azure OpenAI GPT-4 Turbo GA Modelleri Arasındaki Farklar

gpt-4 vision-preview ile arasındaki farklar

GPT-4 Turbo tarafından sağlanan yönetilen kullanılabilirlik

Bölgesel kullanılabilirlik

Görüntü İşleme GA ile GPT-4 Turbo Dağıtma

Sohbet Tamamlama API'lerini çağırma

Yerel görüntü kullanma

Çıktı

Görüntü işlemede ayrıntı parametresi ayarları: Düşük, Yüksek, Otomatik

Görüntü geliştirmeyi görüntülerle kullanma

Çıktı

Görüntü geliştirmeyi video ile kullanma

videoları Azure Blob Depolama yükleme

Doğru okuma erişiminin olduğundan emin olun

Video alma dizini oluşturma

Görüntü İşleme ile video dizininizi GPT-4 Turbo ile tümleştirme

Çıktı

Video istemleri için fiyatlandırma örneği

Sonraki adımlar

Ek kaynaklar