Share via


Görüntü İşleme kavramlarıyla GPT-4 Turbo

Görüntü İşlemeli GPT-4 Turbo, OpenAI tarafından geliştirilen ve görüntüleri analiz eden ve bunlarla ilgili sorulara metinsel yanıtlar sağlayabilen büyük bir çok modüllü modeldir (LMM). Hem doğal dil işleme hem de görsel anlama özelliklerini içerir. Bu kılavuzda, GPT-4 Turbo with Vision'ın özellikleri ve sınırlamaları hakkında ayrıntılı bilgi sağlanır.

GpT-4 Turbo'yı Görüntü İşleme ile denemek için hızlı başlangıç bölümüne bakın.

Vizyonlu sohbetler

GpT-4 Görüntü İşlemeli Turbo modeli, yüklediğiniz görüntülerde veya videolarda neler olduğuyla ilgili genel soruları yanıtlar.

Geliştirmeler

Geliştirmeler, görüntü işleme deneyimine yeni işlevler eklemek için diğer Azure AI hizmetlerini (Azure AI Vision gibi) birleştirmenize olanak sağlar.

Nesne topraklama: Azure AI Vision, giriş görüntülerindeki tuzlu nesneleri tanımlayıp bularak GPT-4 Turbo'nun Görüntü İşleme'nin metin yanıtını tamamlar. Bu, sohbet modelinin görüntünün içeriği hakkında daha doğru ve ayrıntılı yanıtlar vermesini sağlar.

Önemli

Görüntü İşleme geliştirmesini kullanmak için bir Görüntü İşleme kaynağı gerekir. Ücretli (S1) katmanında ve Görüntü İşlemeli GPT-4 Turbo kaynağınızla aynı Azure bölgesinde olmalıdır.

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

Optik Karakter Tanıma (OCR): Azure AI Vision, sohbet modeline ek bilgi olarak yüksek kaliteli OCR sonuçları sağlayarak GPT-4 Turbo ile Görüntü İşleme'yi tamamlar. Modelin yoğun metin içeren görüntüler, dönüştürülmüş görüntüler ve sayı ağırlıklı finansal belgeler için daha yüksek kaliteli yanıtlar üretmesini sağlar ve modelin metinde tanıyabileceği dil çeşitliliğini artırır.

Önemli

Görüntü İşleme geliştirmesini kullanmak için bir Görüntü İşleme kaynağı gerekir. Ücretli (S1) katmanında ve Görüntü İşlemeli GPT-4 Turbo kaynağınızla aynı Azure bölgesinde olmalıdır.

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

Video istemi: Video istemi geliştirmesi, yapay zeka sohbeti için giriş olarak video klipleri kullanmanıza olanak tanıyarak modelin video içeriği hakkında özetler ve yanıtlar oluşturmasını sağlar. Azure AI Vision Video Alma özelliğini kullanarak bir videodan kare kümesi örneği alır ve videodaki konuşmanın dökümünü oluşturur.

Not

Video istemi geliştirmesini kullanmak için Azure OpenAI kaynağınıza ek olarak ücretli (S1) katmanında bir Azure AI Vision kaynağına da ihtiyacınız vardır.

Özel fiyatlandırma bilgileri

Önemli

Fiyatlandırma ayrıntıları gelecekte değiştirilebilir.

Görüntü İşleme özellikli GPT-4 Turbo, diğer Azure OpenAI sohbet modelleri gibi ücretleri tahakkuk ettirir. Fiyatlandırma sayfasında ayrıntılı olarak belirtilen istemler ve tamamlamalar için belirteç başına ücret ödersiniz. Temel ücretler ve ek özellikler burada özetlenmiştir:

Vision özellikli GPT-4 Turbo için Temel Fiyatlandırma:

  • Giriş: 1000 belirteç başına 0,01 ABD doları
  • Çıkış: 1000 belirteç başına 0,03 ABD doları

Metin ve görüntülerin belirteçlere nasıl çevrildiği hakkında bilgi için genel bakışın Belirteçler bölümüne bakın.

Geliştirmeler'i açarsanız, GpT-4 Turbo ile Görüntü İşleme özelliğini Azure AI Vision işlevselliğiyle kullanmak için ek kullanım geçerlidir.

Model Fiyat
+ OCR için gelişmiş eklenti özellikleri 1000 işlem başına 1,5 ABD doları
+ Nesne Algılama için gelişmiş eklenti özellikleri 1000 işlem başına 1,5 ABD doları
+ "Görüntünüzü Ekleyin" Resim Eklemeleri için gelişmiş eklenti özelliği 1000 işlem başına 1,5 ABD doları
+ "Video Alma" tümleştirmesi için gelişmiş eklenti özelliği 1 Alım: Videonun dakikada 0,05 ABD doları
İşlemler: Video Alma dizininin 1000 sorgusu başına 0,25 ABD doları

1 Videoları işleme, analiz için anahtar çerçeveleri tanımlamak için ek belirteçlerin kullanılmasını içerir. Bu ek belirteçlerin sayısı, yaklaşık olarak metin girişindeki belirteçlerin toplamıyla ve 700 belirteçle eşdeğer olacaktır.

Örnek resim fiyat hesaplaması

Önemli

Aşağıdaki içerik yalnızca bir örnektir ve fiyatlar gelecekte değişebilir.

Tipik bir kullanım örneği için hem görünür nesneler hem de metin içeren bir görüntü ve 100 belirteçli bir istem girişi alın. Hizmet istemi işlediğinde 100 çıkış belirteci oluşturur. Görüntüde hem metin hem de nesneler algılanabilir. Bu işlemin fiyatı şöyle olacaktır:

Ürün Ayrıntı Toplam Maliyet
Görüntü İşleme giriş belirteçleri ile GPT-4 Turbo 100 metin belirteci 0,001 ABD doları
OCR için gelişmiş eklenti özellikleri $1,50 / 1000 işlem 0,0015 USD
Nesne Topraklama için gelişmiş eklenti özellikleri $1,50 / 1000 işlem 0,0015 USD
Çıkış Belirteçleri 100 belirteç (varsayılır) 0,003 ABD doları
Toplam Maliyet 0,007 ABD doları

Örnek video fiyat hesaplaması

Önemli

Aşağıdaki içerik yalnızca bir örnektir ve fiyatlar gelecekte değişebilir.

Tipik bir kullanım örneği için 100 belirteçli istem girişi içeren 3 dakikalık bir video çekin. Videoda 100 belirteç uzunluğunda bir transkript bulunur ve hizmet istemi işlediğinde 100 çıkış belirteci oluşturur. Bu işlemin fiyatlandırması şöyle olacaktır:

Ürün Ayrıntı Toplam Maliyet
Görüntü İşleme giriş belirteçleri ile GPT-4 Turbo 100 metin belirteci 0,001 ABD doları
Çerçeveleri tanımlamak için Ek Maliyet 100 giriş belirteci + 700 belirteç + 1 Video Alma işlemi 0,00825 USD
Görüntü Girişleri ve Transkript Girişi 20 resim (her birinde 85 belirteç) + 100 transkript belirteci 0,018 USD
Çıkış Belirteçleri 100 belirteç (varsayılır) 0,003 ABD doları
Toplam Maliyet 0,03025 USD

Ayrıca, bu 3 dakikalık video için Video Alma dizinini oluşturmak için tek seferlik 0,15 ABD doları dizin oluşturma maliyeti vardır. Bu dizin, Görüntü İşleme API'si çağrıları ile herhangi bir sayıda Video Alma ve GPT-4 Turbo arasında yeniden kullanılabilir.

Sınırlamalar

Bu bölümde GPT-4 Turbo with Vision sınırlamaları açıklanmaktadır.

Görüntü desteği

  • Sohbet oturumu başına görüntü geliştirmeleriyle ilgili sınırlama: Geliştirmeler tek bir sohbet araması içinde birden çok görüntüye uygulanamaz.
  • Maksimum giriş görüntüsü boyutu: Giriş görüntülerinin boyut üst sınırı 20 MB ile sınırlıdır.
  • Geliştirme API'sinde nesne topraklama: Geliştirme API'si nesne topraklama için kullanıldığında ve model bir nesnenin yinelemelerini algıladığında, her biri için ayrı olanlar yerine tüm yinelemeler için bir sınırlayıcı kutu ve etiket oluşturur.
  • Düşük çözünürlük doğruluğu: Görüntüler "düşük çözünürlük" ayarı kullanılarak analiz edildiğinde, daha hızlı yanıtlara olanak tanır ve belirli kullanım örnekleri için daha az giriş belirteci kullanır. Ancak bu, görüntüdeki nesne ve metin tanımanın doğruluğunu etkileyebilir.
  • Görüntü sohbeti kısıtlaması: Azure OpenAI Studio'da veya API'de görüntüleri karşıya yüklediğinizde, sohbet araması başına 10 resim sınırı vardır.

Video desteği

  • Düşük çözünürlük: Video kareleri, Görüntü İşleme'nin "düşük çözünürlük" ayarına sahip GPT-4 Turbo kullanılarak analiz edilir ve bu ayar videodaki küçük nesne ve metin tanımanın doğruluğunu etkileyebilir.
  • Video dosyası sınırları: Hem MP4 hem de MOV dosya türleri desteklenir. Azure OpenAI Studio'da videoların 3 dakikadan kısa olması gerekir. API'yi kullandığınızda böyle bir sınırlama yoktur.
  • İstem sınırları: Video istemleri yalnızca bir video içerir ve görüntü içermez. Azure OpenAI Studio'da, başka bir video veya görüntü denemek için oturumu temizleyebilirsiniz.
  • Sınırlı çerçeve seçimi: Hizmet, videonun tamamından 20 kare seçer ve bu da tüm kritik anları veya ayrıntıları yakalamayabilir. Kare seçimi, istemine bağlı olarak video aracılığıyla yaklaşık olarak eşit bir şekilde yayılabilir veya belirli bir video alma sorgusu tarafından odaklanabilir.
  • Dil desteği: Hizmet öncelikle transkriptlerle temel oluşturma için İngilizceyi destekler. Transkriptler şarkılarda şarkı sözleri hakkında doğru bilgi sağlamaz.

Sonraki adımlar