دروع المطالبة

مقالة
04/04/2024

يمكن أن تشكل نماذج الذكاء الاصطناعي التوليدية مخاطر استغلال من قبل الجهات الضارة. للتخفيف من هذه المخاطر، نقوم بدمج آليات الأمان لتقييد سلوك نماذج اللغات الكبيرة (LLMs) ضمن نطاق تشغيلي آمن. ومع ذلك، وعلى الرغم من هذه الضمانات، يمكن أن تظل أجهزة LLM عرضة للمدخلات المتطفلة التي تتجاوز بروتوكولات السلامة المتكاملة.

Prompt Shields هي واجهة برمجة تطبيقات موحدة تحلل مدخلات LLM وتكتشف هجمات مطالبة المستخدم وهجمات المستند، وهما نوعان شائعان من المدخلات المتطفلة.

دروع المطالبة لمطالبات المستخدم

كان يسمى سابقا الكشف عن مخاطر اختراق السجن، يستهدف هذا الدرع هجمات حقن مطالبة المستخدم، حيث يستغل المستخدمون عمدا ثغرات النظام لاستثارة سلوك غير مصرح به من LLM. قد يؤدي ذلك إلى إنشاء محتوى غير مناسب أو انتهاكات للقيود المفروضة من قبل النظام.

دروع المطالبة للمستندات

يهدف هذا الدرع إلى الحماية من الهجمات التي تستخدم معلومات لا يوفرها المستخدم أو المطور مباشرة، مثل المستندات الخارجية. قد يقوم المهاجمون بتضمين تعليمات مخفية في هذه المواد من أجل الحصول على تحكم غير مصرح به في جلسة LLM.

أنواع هجمات الإدخال

يتم وصف نوعي هجمات الإدخال التي تكتشفها Prompt Shields في هذا الجدول.

نوع	المتطفل	نقطة الإدخال	الأسلوب	الهدف/التأثير	السلوك الناتج
هجمات مطالبة المستخدم	المستخدم	مطالبات المستخدم	تجاهل مطالبات النظام/تدريب RLHF	تغيير سلوك LLM المقصود	تنفيذ إجراءات مقيدة ضد التدريب
هجمات المستند	الطرف الثالث	محتوى جهة خارجية (مستندات، رسائل بريد إلكتروني)	إساءة تفسير محتوى الجهات الخارجية	الحصول على وصول أو تحكم غير مصرح به	تنفيذ أوامر أو إجراءات غير مقصودة

أنواع فرعية من هجمات مطالبة المستخدم

تتعرف دروع المطالبة لهجمات موجه المستخدم على الفئات التالية من الهجمات:

الفئة	‏‏الوصف
محاولة تغيير قواعد النظام	تتضمن هذه الفئة، على سبيل المثال لا الحصر، طلبات استخدام مساعد نظام/الذكاء الاصطناعي جديد غير مقيد دون قواعد أو مبادئ أو قيود، أو طلبات ترشد الذكاء الاصطناعي إلى تجاهل القواعد والتعليمات والتناوبات السابقة ونسيانها وتجاهلها.
تضمين نموذج تقليدي للمحادثة لإرباك النموذج	يستخدم هذا الهجوم تحويل المحادثة المصممة من قبل المستخدم المضمنة في استعلام مستخدم واحد لإرشاد مساعد النظام/الذكاء الاصطناعي لتجاهل القواعد والقيود.
تشغيل الأدوار	يرشد هذا الهجوم مساعد النظام/الذكاء الاصطناعي إلى العمل ك "شخصية نظام" أخرى لا تحتوي على قيود النظام الحالية، أو أنه يعين صفات بشرية غير متجانسة للنظام، مثل المشاعر والأفكار والآراء.
هجمات الترميز	يحاول هذا الهجوم استخدام الترميز، مثل أسلوب تحويل الأحرف أو أنماط التوليد أو الشفرات أو تباينات اللغة الطبيعية الأخرى، للتحايل على قواعد النظام.

أنواع فرعية من هجمات المستند

تتعرف دروع المطالبة لهجمات المستندات على الفئات التالية من الهجمات:

الفئة	‏‏الوصف
المحتوى الذي تمت معالجته	الأوامر المتعلقة بتزوير معلومات محددة أو إخفائها أو التلاعب بها أو دفعها.
التسلل	الأوامر المتعلقة بإنشاء الواجهة الخلفية، والتصعيد غير المصرح به للامتيازات، والوصول إلى LLMs والأنظمة
جمع المعلومات	الأوامر المتعلقة بحذف البيانات أو تعديلها أو الوصول إليها أو سرقة البيانات.
‏‏التوفر	الأوامر التي تجعل النموذج غير قابل للاستخدام للمستخدم، أو تحظر قدرة معينة، أو تجبر النموذج على إنشاء معلومات غير صحيحة.
الاحتيال	الأوامر المتعلقة بالاحتيال على المستخدم من المال أو كلمات المرور أو المعلومات أو التصرف نيابة عن المستخدم دون إذن
البرامج الضارة	الأوامر المتعلقة بنشر البرامج الضارة عبر الارتباطات الضارة ورسائل البريد الإلكتروني وما إلى ذلك.
محاولة تغيير قواعد النظام	تتضمن هذه الفئة، على سبيل المثال لا الحصر، طلبات استخدام مساعد نظام/الذكاء الاصطناعي جديد غير مقيد دون قواعد أو مبادئ أو قيود، أو طلبات ترشد الذكاء الاصطناعي إلى تجاهل القواعد والتعليمات والتناوبات السابقة ونسيانها وتجاهلها.
تضمين نموذج تقليدي للمحادثة لإرباك النموذج	يستخدم هذا الهجوم تحويل المحادثة المصممة من قبل المستخدم المضمنة في استعلام مستخدم واحد لإرشاد مساعد النظام/الذكاء الاصطناعي لتجاهل القواعد والقيود.
تشغيل الأدوار	يرشد هذا الهجوم مساعد النظام/الذكاء الاصطناعي إلى العمل ك "شخصية نظام" أخرى لا تحتوي على قيود النظام الحالية، أو أنه يعين صفات بشرية غير متجانسة للنظام، مثل المشاعر والأفكار والآراء.
هجمات الترميز	يحاول هذا الهجوم استخدام الترميز، مثل أسلوب تحويل الأحرف أو أنماط التوليد أو الشفرات أو تباينات اللغة الطبيعية الأخرى، للتحايل على قواعد النظام.

القيود

إتاحة اللغة

حاليا، تدعم واجهة برمجة تطبيقات Prompt Shields اللغة الإنجليزية. في حين أن واجهة برمجة التطبيقات الخاصة بنا لا تقيد إرسال محتوى غير إنجليزي، لا يمكننا ضمان المستوى نفسه من الجودة والدقة في تحليل هذا المحتوى. نوصي المستخدمين بإرسال المحتوى باللغة الإنجليزية بشكل أساسي لضمان النتائج الأكثر موثوقية ودقة من واجهة برمجة التطبيقات.

قيود طول النص

يسمح الحد الأقصى للأحرف ل Prompt Shields بمطالبة المستخدم بما يصل إلى 10,000 حرف، بينما يقتصر صفيف المستند على 5 مستندات بحد أقصى بإجمالي مجمع لا يتجاوز 10,000 حرف.

المناطق

لاستخدام واجهة برمجة التطبيقات هذه، يجب إنشاء مورد Azure الذكاء الاصطناعي Content خزينة ty في المناطق المدعومة. حاليا، يتوفر في مناطق Azure التالية:

شرق الولايات المتحدة
أوروبا الغربية

قيود TPS

مستوى الأسعار	الطلبات لكل 10 ثوان
F0	1000
S0	1000

إذا كنت بحاجة إلى معدل أعلى، يرجى الاتصال بنا لطلب ذلك.

الخطوات التالية

اتبع التشغيل السريع للبدء في استخدام محتوى Azure الذكاء الاصطناعي خزينة ty للكشف عن مخاطر إدخال المستخدم.

التشغيل السريع ل Prompt Shields

Share via