استخدام GPT-4 Turbo مع Vision

مقالة
05/04/2024

GPT-4 Turbo with Vision هو نموذج كبير متعدد الوسائط (LMM) تم تطويره بواسطة OpenAI يمكنه تحليل الصور وتقديم استجابات نصية للأسئلة المتعلقة بها. وهو يتضمن كلا من معالجة اللغة الطبيعية والفهم المرئي.

يجيب نموذج GPT-4 Turbo with Vision على الأسئلة العامة حول ما هو موجود في الصور. يمكنك أيضا إظهار الفيديو إذا كنت تستخدم تحسين الرؤية.

تلميح

لاستخدام GPT-4 Turbo مع Vision، يمكنك استدعاء واجهة برمجة تطبيقات إكمال الدردشة على GPT-4 Turbo مع نموذج الرؤية الذي قمت بنشره. إذا لم تكن على دراية بواجهة برمجة تطبيقات إكمال الدردشة، فشاهد الدليل الإرشادي GPT-4 Turbo وGPT-4.

ترقية طراز GPT-4 Turbo

أحدث إصدار GA من GPT-4 Turbo هو:

gpt-4الإصدار:turbo-2024-04-09

هذا هو البديل لنماذج المعاينة التالية:

gpt-4الإصدار:1106-Preview
gpt-4الإصدار:0125-Preview
gpt-4الإصدار:vision-preview

الاختلافات بين OpenAI وAzure OpenAI GPT-4 Turbo GA Models

يدعم إصدار OpenAI من أحدث 0409 طراز توربو وضع JSON واستدعاء الوظيفة لجميع طلبات الاستدلال.
لا يدعم إصدار Azure OpenAI الأحدث turbo-2024-04-09 حاليا استخدام وضع JSON واستدعاء الدالة عند تقديم طلبات الاستدلال مع إدخال الصورة (الرؤية). تدعم طلبات الإدخال المستندة إلى النص (الطلبات بدون image_url الصور المضمنة) وضع JSON واستدعاء الدالة.

الاختلافات من معاينة رؤية gpt-4

لا يدعم Azure الذكاء الاصطناعي تكامل تحسينات رؤية محددة مع GPT-4 Turbo مع Vision للإصدار gpt-4:turbo-2024-04-09. يتضمن ذلك التعرف البصري على الحروف (OCR)، وتؤسس الكائنات، ومطالبات الفيديو، وتحسين معالجة بياناتك باستخدام الصور.

توفر GPT-4 Turbo المدار

gpt-4الإصدار:turbo-2024-04-09 متوفر لكل من عمليات النشر القياسية والمتوفرة. حاليا لا يدعم الإصدار المقدم من هذا النموذج طلبات استدلال الصورة/الرؤية. لا تقبل عمليات النشر المتوفرة لهذا النموذج سوى إدخال النص. تقبل عمليات نشر النموذج القياسي كلا من طلبات استدلال النص والصورة/الرؤية.

توافر المناطق

للحصول على معلومات حول التوفر الإقليمي للنموذج، راجع مصفوفة النموذج الخاصة بالنشر القياسي والموفر.

توزيع GPT-4 Turbo مع Vision GA

لنشر نموذج GA من واجهة مستخدم Studio، حدد GPT-4 ثم اختر turbo-2024-04-09 الإصدار من القائمة المنسدلة. ستكون الحصة النسبية الافتراضية gpt-4-turbo-2024-04-09 للنموذج هي نفس الحصة النسبية الحالية ل GPT-4-Turbo. راجع حدود الحصة الإقليمية.

استدعاء واجهات برمجة التطبيقات الخاصة بإكمال الدردشة

يوضح الأمر التالي الطريقة الأساسية لاستخدام نموذج GPT-4 Turbo مع Vision مع التعليمات البرمجية. إذا كانت هذه هي المرة الأولى التي تستخدم فيها هذه النماذج برمجيا، نوصي بالبدء باستخدام GPT-4 Turbo مع التشغيل السريع ل Vision.

بقيه
Python

إرسال طلب POST إلى https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview المكان

RESOURCE_NAME هو اسم مورد Azure OpenAI
DEPLOYMENT_NAME هو اسم GPT-4 Turbo الخاص بك مع نشر نموذج الرؤية

الرؤوس المطلوبة:

Content-Type: application/json
api-key: {API_KEY}

النص الأساسي: ما يلي هو نموذج نص الطلب. التنسيق هو نفس واجهة برمجة تطبيقات إكمال الدردشة ل GPT-4، باستثناء أن محتوى الرسالة يمكن أن يكون صفيفا يحتوي على نص وصور (إما عنوان URL صالح ل HTTP أو HTTPS إلى صورة، أو صورة مشفرة بقاعدة 64).

هام

تذكر تعيين "max_tokens" قيمة، أو سيتم قطع إخراج الإرجاع.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

حدد نقطة نهاية مورد Azure OpenAI والمفتاح.
أدخل اسم GPT-4 Turbo الخاص بك مع نشر نموذج الرؤية.

إنشاء كائن عميل باستخدام تلك القيم.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}/extensions",
)

ثم قم باستدعاء أسلوب إنشاء العميل. تظهر التعليمات البرمجية التالية نموذج نص الطلب. التنسيق هو نفس واجهة برمجة تطبيقات إكمال الدردشة ل GPT-4، باستثناء أن محتوى الرسالة يمكن أن يكون صفيفا يحتوي على نص وصور (إما عنوان URL صالح ل HTTP أو HTTPS إلى صورة، أو صورة مشفرة بقاعدة 64).

هام

تذكر تعيين "max_tokens" قيمة، أو سيتم قطع إخراج الإرجاع.
```
response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)
```

تلميح

استخدام صورة محلية

إذا كنت ترغب في استخدام صورة محلية، يمكنك استخدام التعليمات البرمجية Python التالية لتحويلها إلى base64 بحيث يمكن تمريرها إلى واجهة برمجة التطبيقات. تتوفر أدوات تحويل الملفات البديلة عبر الإنترنت.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

عندما تكون بيانات الصورة base64 جاهزة، يمكنك تمريرها إلى واجهة برمجة التطبيقات في نص الطلب كما يلي:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

المخرجات

يجب أن تبدو استجابة واجهة برمجة التطبيقات كما يلي.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

تتضمن كل استجابة حقلا "finish_details" . يحتوي على القيم المحتملة التالية:

stop: أرجعت واجهة برمجة التطبيقات إخراج النموذج الكامل.
length: إخراج نموذج غير مكتمل بسبب معلمة max_tokens الإدخال أو حد الرمز المميز للنموذج.
content_filter: حذف المحتوى بسبب علامة من عوامل تصفية المحتوى لدينا.

إعدادات معلمة التفاصيل في معالجة الصور: منخفضة، عالية، تلقائية

توفر معلمة التفاصيل في النموذج ثلاثة خيارات: low، highأو auto، لضبط الطريقة التي يفسر بها النموذج الصور ويعالجها. الإعداد الافتراضي هو تلقائي، حيث يقرر النموذج بين منخفض أو مرتفع استنادا إلى حجم إدخال الصورة.

low الإعداد: لا يقوم النموذج بتنشيط وضع "الدقة العالية"، بل يعالج إصدارا أقل دقة 512x512، مما يؤدي إلى استجابات أسرع وتقليل استهلاك الرمز المميز للسيناريوهات التي لا تكون التفاصيل الدقيقة فيها حاسمة.
high الإعداد: يقوم النموذج بتنشيط وضع "high res". هنا، يعرض النموذج في البداية الصورة منخفضة الدقة ثم ينشئ مقاطع مفصلة 512x512 من صورة الإدخال. يستخدم كل مقطع ضعف ميزانية الرمز المميز، ما يسمح بتفسير أكثر تفصيلا للصورة."

للحصول على تفاصيل حول كيفية تأثير معلمات الصورة على الرموز المميزة المستخدمة والتسعير، يرجى مراجعة - ما هو OpenAI؟ الرموز المميزة للصور مع GPT-4 Turbo مع Vision

استخدام تحسين الرؤية مع الصور

يوفر GPT-4 Turbo مع Vision وصولا حصريا إلى تحسينات Azure الذكاء الاصطناعي Services المخصصة. عند دمجه مع Azure الذكاء الاصطناعي Vision، فإنه يعزز تجربة الدردشة من خلال تزويد نموذج الدردشة بمعلومات أكثر تفصيلا حول النص المرئي في الصورة ومواقع العناصر.

يسمح تكامل التعرف البصري على الحروف (OCR) للنموذج بإنتاج استجابات عالية الجودة للنص الكثيف والصور المحولة والوثائق المالية كثيفة العدد. كما تغطي مجموعة أوسع من اللغات.

يجلب تكامل قاعدة العنصر طبقة جديدة لتحليل البيانات وتفاعل المستخدم، حيث يمكن للميزة تمييز العناصر المهمة وتسليط الضوء عليها بصريا في الصور التي تعالجها.

هام

لاستخدام تحسين الرؤية مع مورد Azure OpenAI، تحتاج إلى تحديد مورد Computer Vision. يجب أن يكون في المستوى المدفوع (S1) وفي نفس منطقة Azure مثل GPT-4 Turbo الخاص بك مع مورد Vision. إذا كنت تستخدم مورد Azure الذكاء الاصطناعي Services، فلن تحتاج إلى مورد Computer Vision إضافي.

تنبيه

سيتم فوترة تحسينات Azure الذكاء الاصطناعي ل GPT-4 Turbo مع Vision بشكل منفصل عن الوظائف الأساسية. كل تحسين Azure الذكاء الاصطناعي محدد ل GPT-4 Turbo مع Vision له رسوم مميزة خاصة به. للحصول على التفاصيل، راجع معلومات التسعير الخاصة.

بقيه
Python

إرسال طلب POST إلى https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview المكان

RESOURCE_NAME هو اسم مورد Azure OpenAI
DEPLOYMENT_NAME هو اسم GPT-4 Turbo الخاص بك مع نشر نموذج الرؤية

الرؤوس المطلوبة:

Content-Type: application/json
api-key: {API_KEY}

النص:

التنسيق مشابه لتنسيق واجهة برمجة تطبيقات إكمال الدردشة ل GPT-4، ولكن يمكن أن يكون محتوى الرسالة صفيفا يحتوي على سلاسل وصور (إما عنوان URL صالح ل HTTP أو HTTPS إلى صورة، أو صورة مشفرة بقاعدة 64).

يجب أيضا تضمين الكائنين enhancements و dataSources . enhancements يمثل ميزات تحسين الرؤية المحددة المطلوبة في الدردشة. يحتوي على grounding خاصية و ocr ، والتي تحتوي كل منهما على خاصية منطقية enabled . استخدم هذه لطلب خدمة التعرف البصري على الحروف و/أو خدمة الكشف عن الكائنات/الأرضية. dataSources يمثل بيانات موارد Computer Vision المطلوبة لتحسين الرؤية. يحتوي على type خاصية يجب أن تكون "AzureComputerVision" وخاصية parameters . قم بتعيين و endpointkey إلى عنوان URL لنقطة النهاية ومفتاح الوصول لمورد Computer Vision.

هام

تذكر تعيين "max_tokens" قيمة، أو سيتم قطع إخراج الإرجاع.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

يمكنك استدعاء نفس الأسلوب كما في الخطوة السابقة، ولكن قم بتضمين المعلمة extra_body الجديدة. يحتوي على الحقلين enhancements و dataSources .

enhancements يمثل ميزات تحسين الرؤية المحددة المطلوبة في الدردشة. يحتوي على grounding حقل و ocr ، وكلاهما له خاصية منطقية enabled . استخدم هذه لطلب خدمة التعرف البصري على الحروف و/أو خدمة الكشف عن الكائنات/الأرضية.

dataSources يمثل بيانات موارد Computer Vision المطلوبة لتحسين الرؤية. يحتوي على type حقل يجب أن يكون "AzureComputerVision" وحقل parameters . قم بتعيين و endpointkey إلى عنوان URL لنقطة النهاية ومفتاح الوصول لمورد Computer Vision. R

هام

تذكر تعيين "max_tokens" قيمة، أو سيتم قطع إخراج الإرجاع.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)
print(response)

المخرجات

يجب أن تتضمن استجابات الدردشة التي تتلقاها من النموذج الآن معلومات محسنة حول الصورة، مثل تسميات الكائنات ومربعات الإحاطة ونتائج التعرف البصري على الحروف. يجب أن تبدو استجابة واجهة برمجة التطبيقات كما يلي.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

تتضمن كل استجابة حقلا "finish_details" . يحتوي على القيم المحتملة التالية:

stop: أرجعت واجهة برمجة التطبيقات إخراج النموذج الكامل.
length: إخراج نموذج غير مكتمل بسبب معلمة max_tokens الإدخال أو حد الرمز المميز للنموذج.
content_filter: حذف المحتوى بسبب علامة من عوامل تصفية المحتوى لدينا.

استخدام تحسين الرؤية مع الفيديو

يوفر GPT-4 Turbo مع Vision وصولا حصريا إلى تحسينات Azure الذكاء الاصطناعي Services المخصصة. يستخدم تكامل مطالبة الفيديو استرداد فيديو Azure الذكاء الاصطناعي Vision لعينة مجموعة من الإطارات من فيديو وإنشاء نسخة من الكلام في الفيديو. فهو يمكن نموذج الذكاء الاصطناعي من تقديم ملخصات وإجابات حول محتوى الفيديو.

اتبع هذه الخطوات لإعداد نظام استرداد الفيديو ودمجه مع نموذج الدردشة الذكاء الاصطناعي.

هام

تنبيه

تلميح

إذا كنت تفضل ذلك، يمكنك تنفيذ الخطوات التالية باستخدام دفتر ملاحظات Jupyter بدلا من ذلك: دفتر ملاحظات إكمال دردشة الفيديو.

تحميل مقاطع الفيديو إلى Azure Blob Storage

تحتاج إلى تحميل مقاطع الفيديو الخاصة بك إلى حاوية Azure Blob Storage. إنشاء حساب تخزين جديد إذا لم يكن لديك حساب بالفعل.

بمجرد تحميل مقاطع الفيديو الخاصة بك، يمكنك الحصول على عناوين URL الخاصة ب SAS الخاصة بهم، والتي تستخدمها للوصول إليها في خطوات لاحقة.

ضمان الوصول الصحيح للقراءة

اعتمادا على أسلوب المصادقة الخاص بك، قد تحتاج إلى القيام ببعض الخطوات الإضافية لمنح حق الوصول إلى حاوية Azure Blob Storage. إذا كنت تستخدم مورد Azure الذكاء الاصطناعي Services بدلا من مورد Azure OpenAI، فستحتاج إلى استخدام الهويات المدارة لمنحه حق الوصول للقراءة إلى Azure Blob Storage:

استخدام الهويات المعينة من قبل النظام
استخدام الهويات المعينة من قبل المستخدم

تمكين الهويات المعينة من قبل النظام على مورد Azure الذكاء الاصطناعي Services باتباع الخطوات التالية:

من مورد الذكاء الاصطناعي Services في مدخل Microsoft Azure، حدد Resource Management ->Identity وقم بتبديل الحالة إلى ON.
تعيين الوصول إلى Storage Blob Data Read إلى مورد خدمات الذكاء الاصطناعي: من صفحة الهوية ، حدد تعيينات دور Azure، ثم أضف تعيين الدور بالإعدادات التالية:
- النطاق: التخزين
- الاشتراك: {your subscription}
- المورد: {حدد مورد Azure Blob Storage}
- الدور: Storage Blob Data Reader
احفظ إعداداتك.

إنشاء فهرس استرداد فيديو

احصل على مورد Azure الذكاء الاصطناعي Vision في نفس المنطقة مثل مورد Azure OpenAI الذي تستخدمه.

إنشاء فهرس لتخزين ملفات الفيديو وبيانات التعريف الخاصة بها وتنظيمها. يوضح الأمر المثال أدناه كيفية إنشاء فهرس باسم my-video-index باستخدام Create Index API. حفظ اسم الفهرس إلى موقع مؤقت؛ ستحتاج إليه في خطوات لاحقة.

تلميح

للحصول على إرشادات أكثر تفصيلا حول إنشاء فهرس فيديو، راجع القيام باسترداد الفيديو باستخدام المتجهات.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'metadataSchema': {
    'fields': [
      {
        'name': 'cameraId',
        'searchable': false,
        'filterable': true,
        'type': 'string'
      },
      {
        'name': 'timestamp',
        'searchable': false,
        'filterable': true,
        'type': 'datetime'
      }
    ]
  },
  'features': [
    {
      'name': 'vision',
      'domain': 'surveillance'
    },
    {
      'name': 'speech'
    }
  ]
}"

إضافة ملفات فيديو إلى الفهرس باستخدام بيانات التعريف المقترنة بها. يوضح المثال أدناه كيفية إضافة ملفي فيديو إلى الفهرس باستخدام عناوين URL ل SAS باستخدام Create Ingestion API. احفظ عناوين URL ل documentId SAS وقيمها في موقع مؤقت؛ ستحتاج إليها في خطوات لاحقة.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'videos': [
    {
      'mode': 'add',
      'documentId': '02a504c9cd28296a8b74394ed7488045',
      'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera1',
        'timestamp': '2023-06-30 17:40:33'
      }
    },
    {
      'mode': 'add',
      'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
      'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera2'
      }
    }
  ]
}"

بعد إضافة ملفات الفيديو إلى الفهرس، تبدأ عملية الاستيعاب. قد يستغرق الأمر بعض الوقت استنادا إلى حجم الملفات وعددها. للتأكد من اكتمال الاستيعاب قبل إجراء عمليات البحث، يمكنك استخدام واجهة برمجة تطبيقات Get Ingestion للتحقق من الحالة. انتظر حتى يعود "state" = "Completed" هذا الاستدعاء قبل المتابعة إلى الخطوة التالية.
```
curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
```

دمج فهرس الفيديو الخاص بك مع GPT-4 Turbo مع Vision

بقيه
Python

إعداد طلب POST إلى https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview المكان
- RESOURCE_NAME هو اسم مورد Azure OpenAI
- DEPLOYMENT_NAME هو اسم نشر نموذج GPT-4 Vision
الرؤوس المطلوبة:
- Content-Type: application/json
- api-key: {API_KEY}

أضف بنية JSON التالية في نص الطلب:

{
    "enhancements": {
            "video": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVisionVideoIndex",
        "parameters": {
            "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
            "computerVisionApiKey": "<your_computer_vision_key>",
            "indexName": "<name_of_your_index>",
            "videoUrls": ["<your_video_SAS_URL>"]
        }
    }],
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user",
            "content": [
                    {
                        "type": "acv_document_id",
                        "acv_document_id": "<your_video_ID>"
                    },
                    {
                        "type": "text",
                        "text": "Describe this video:"
                    }
                ]
        }
    ],
    "max_tokens": 100, 
}

يتضمن الطلب كائنات enhancements و dataSources . enhancements يمثل ميزات تحسين الرؤية المحددة المطلوبة في الدردشة. dataSources يمثل بيانات موارد Computer Vision المطلوبة لتحسين الرؤية. يحتوي على type خاصية يجب أن تكون "AzureComputerVisionVideoIndex" وخاصية parameters تحتوي على معلومات الرؤية والفيديو الذكاء الاصطناعي الخاصة بك.

املأ جميع <placeholder> الحقول أعلاه بمعلوماتك الخاصة: أدخل عناوين URL لنقطة النهاية ومفاتيح موارد OpenAI الذكاء الاصطناعي Vision عند الاقتضاء، واسترد معلومات فهرس الفيديو من الخطوة السابقة.
إرسال طلب POST إلى نقطة نهاية API. يجب أن يحتوي على بيانات اعتماد OpenAI الذكاء الاصطناعي Vision واسم فهرس الفيديو الخاص بك وعنوان URL للمعرف وSAS لفيديو واحد.

في البرنامج النصي Python الخاص بك، قم باستدعاء أسلوب إنشاء العميل كما في الأقسام السابقة، ولكن قم بتضمين المعلمة extra_body. هنا، يحتوي على الحقلين enhancements و data_sources . enhancements يمثل ميزات تحسين الرؤية المحددة المطلوبة في الدردشة. يحتوي على video حقل يحتوي على خاصية منطقية enabled . استخدم هذا لطلب خدمة استرداد الفيديو.

data_sources يمثل بيانات الموارد الخارجية المطلوبة لتحسين الرؤية. يحتوي على type حقل يجب أن يكون "AzureComputerVisionVideoIndex" وحقل parameters .

قم بتعيين و computerVisionBaseUrlcomputerVisionApiKey إلى عنوان URL لنقطة النهاية ومفتاح الوصول لمورد Computer Vision. قم بتعيين indexName إلى اسم فهرس الفيديو الخاص بك. قم بتعيين videoUrls إلى قائمة عناوين URL ل SAS لمقاطع الفيديو الخاصة بك.

هام

تذكر تعيين "max_tokens" قيمة، أو سيتم قطع إخراج الإرجاع.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            {
                "type": "acv_document_id",
                "acv_document_id": "<your_video_ID>"
            },
            { 
                "type": "text", 
                "text": "Describe this video:" 
            }
        ] } 
    ],
    extra_body={
        "data_sources": [
            {
                "type": "AzureComputerVisionVideoIndex",
                "parameters": {
                    "computerVisionBaseUrl": "<your_computer_vision_endpoint>", # your endpoint should look like the following https://YOUR_RESOURCE_NAME.cognitiveservices.azure.com/computervision
                    "computerVisionApiKey": "<your_computer_vision_key>",
                    "indexName": "<name_of_your_index>",
                    "videoUrls": ["<your_video_SAS_URL>"]
                }
            }],
        "enhancements": {
            "video": {
                "enabled": True
            }
        }
    },
    max_tokens=100
)

print(response)

هام

"data_sources" يختلف محتوى الكائن استنادا إلى نوع مورد Azure وطريقة المصادقة التي تستخدمها. راجع المرجع التالي:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
        "indexName": "<name_of_your_index>",
        "documentAuthenticationKind": "managedidentity",
    }
}],

المخرجات

يجب أن تتضمن استجابات الدردشة التي تتلقاها من النموذج معلومات حول الفيديو. يجب أن تبدو استجابة واجهة برمجة التطبيقات كما يلي.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

تتضمن كل استجابة حقلا "finish_details" . يحتوي على القيم المحتملة التالية:

stop: أرجعت واجهة برمجة التطبيقات إخراج النموذج الكامل.
length: إخراج نموذج غير مكتمل بسبب معلمة max_tokens الإدخال أو حد الرمز المميز للنموذج.
content_filter: حذف المحتوى بسبب علامة من عوامل تصفية المحتوى لدينا.

مثال التسعير لمطالبات الفيديو

تسعير GPT-4 Turbo مع Vision ديناميكي ويعتمد على الميزات والمدخلات المحددة المستخدمة. للحصول على عرض شامل لتسعير Azure OpenAI، راجع أسعار Azure OpenAI.

فيما يلي الرسوم الأساسية والميزات الإضافية:

التسعير الأساسي ل GPT-4 Turbo مع Vision هو:

الإدخال: 0.01 دولار لكل 1000 رمز مميز
الإخراج: 0.03 دولار لكل 1000 رمز مميز

تكامل مطالبة الفيديو مع الوظيفة الإضافية لاسترداد الفيديو:

الاستيعاب: 0.05 دولار في الدقيقة من الفيديو
المعاملات: 0.25 دولار لكل 1000 استعلامات من استرداد الفيديو

Share via

استخدام GPT-4 Turbo مع Vision

ترقية طراز GPT-4 Turbo

الاختلافات بين OpenAI وAzure OpenAI GPT-4 Turbo GA Models

الاختلافات من معاينة رؤية gpt-4

توفر GPT-4 Turbo المدار

توافر المناطق

توزيع GPT-4 Turbo مع Vision GA

استدعاء واجهات برمجة التطبيقات الخاصة بإكمال الدردشة

استخدام صورة محلية

المخرجات

إعدادات معلمة التفاصيل في معالجة الصور: منخفضة، عالية، تلقائية

استخدام تحسين الرؤية مع الصور

المخرجات

استخدام تحسين الرؤية مع الفيديو

تحميل مقاطع الفيديو إلى Azure Blob Storage

ضمان الوصول الصحيح للقراءة

إنشاء فهرس استرداد فيديو

دمج فهرس الفيديو الخاص بك مع GPT-4 Turbo مع Vision

المخرجات

مثال التسعير لمطالبات الفيديو

الخطوات التالية

الموارد الإضافية