تخطيط الفريق الأحمر لنماذج اللغات الكبيرة (LLMs) وتطبيقاتها

مقالة
11/08/2023

يقدم هذا الدليل بعض الاستراتيجيات المحتملة لتخطيط كيفية إعداد وإدارة الفريق الأحمر لمخاطر الذكاء الاصطناعي المسؤولة (RAI) طوال دورة حياة منتج نموذج اللغة الكبيرة (LLM).

ما هو الفريق الأحمر؟

وصف مصطلح الفريق الأحمر تاريخيا الهجمات العدائية المنهجية لاختبار الثغرات الأمنية. مع ارتفاع LLMs، توسع المصطلح إلى ما هو أبعد من الأمن السيبراني التقليدي وتطور في الاستخدام الشائع لوصف أنواع كثيرة من فحص واختبار ومهاجمة الأنظمة الذكاء الاصطناعي. مع LLMs، يمكن أن ينتج عن الاستخدام الحميد والعدائي مخرجات قد تكون ضارة، والتي يمكن أن تتخذ أشكالا عديدة، بما في ذلك المحتوى الضار مثل خطاب الكراهية، والتحريض أو تمجيد العنف، أو المحتوى الجنسي.

لماذا يعد فريق RAI الأحمر ممارسة مهمة؟

الفريق الأحمر هو أفضل ممارسة في التطوير المسؤول للأنظمة والميزات باستخدام LLMs. وفي حين أنه ليس بديلا عن أعمال القياس والتخفيف المنهجية، فإن أعضاء الفريق الأحمر يساعدون في الكشف عن الأضرار وتحديدها، وفي المقابل، تمكين استراتيجيات القياس من التحقق من فعالية عوامل التخفيف من المخاطر.

بينما أجرت Microsoft تمارين فريق حمراء ونفذت أنظمة أمان (بما في ذلك عوامل تصفية المحتوى واستراتيجيات التخفيف الأخرى) لنماذج خدمة Azure OpenAI (راجع نظرة عامة على ممارسات الذكاء الاصطناعي المسؤولة هذه)، سيكون سياق كل تطبيق LLM فريدا ويجب عليك أيضا إجراء فريق أحمر من أجل:

اختبر نموذج قاعدة LLM وحدد ما إذا كانت هناك فجوات في أنظمة السلامة الحالية، نظرا لسياق التطبيق الخاص بك.
تحديد أوجه القصور والتخفيف من حدتها في عوامل التصفية الافتراضية الحالية أو استراتيجيات التخفيف.
تقديم ملاحظات حول حالات الفشل من أجل إجراء تحسينات.
لاحظ أن الفريق الأحمر ليس بديلا للقياس المنهجي. من أفضل الممارسات إكمال جولة أولية من الفريق الأحمر اليدوي قبل إجراء قياسات منهجية وتنفيذ عوامل التخفيف من المخاطر. كما هو موضح أعلاه، فإن الهدف من فريق RAI الأحمر هو تحديد الأضرار، وفهم سطح المخاطر، وتطوير قائمة الأضرار التي يمكن أن تعلم ما يجب قياسه وتخفيفه.

إليك كيفية البدء والتخطيط لعملية LLة الحمراء. يعد التخطيط المسبق أمرا بالغ الأهمية لتمرين الفريق الأحمر الإنتاجي.

قبل الاختبار

الخطة: ستقوم روبوت Who بإجراء الاختبار

تجميع مجموعة متنوعة من أعضاء الفريق الأحمر

تحديد التكوين المثالي للفرق الحمراء من حيث خبرة الأشخاص والديمغرافيا والخبرة عبر التخصصات (على سبيل المثال، الخبراء في الذكاء الاصطناعي والعلوم الاجتماعية والأمن) لمجال منتجك. على سبيل المثال، إذا كنت تصمم روبوت دردشة لمساعدة موفري الرعاية الصحية، فيمكن للخبراء الطبيين المساعدة في تحديد المخاطر في هذا المجال.

توظيف أعضاء الفريق الأحمر الذين يعانون من عقليات حميدة وخصومية

يعد وجود فرق حمراء ذات عقلية خصومية وتجربة اختبار الأمان أمرا ضروريا لفهم مخاطر الأمان، ولكن يمكن أن يجلب أعضاء الفريق الأحمر الذين هم مستخدمون عاديون لنظام التطبيق ولم يشاركوا في تطويره وجهات نظر قيمة حول الأضرار التي قد يواجهها المستخدمون العاديون.

تعيين أعضاء الفريق الأحمر إلى الأضرار و/أو ميزات المنتج

تعيين فرق العمل الحمراء RAI مع خبرة محددة للتحقيق في أنواع محددة من الأضرار (على سبيل المثال، يمكن لخبراء موضوع الأمان التحقيق في عمليات اختراق السجن واستخراج موجه التعريف والمحتوى المتعلق بالهجمات الإلكترونية).
بالنسبة لجولات متعددة من الاختبار، حدد ما إذا كنت تريد تبديل تعيينات الفريق الأحمر في كل جولة للحصول على وجهات نظر متنوعة حول كل ضرر والحفاظ على الإبداع. إذا كنت تقوم بتبديل الواجبات، فاسمح للفرق الحمراء بالوقت للحصول على ما يصل إلى السرعة في التعليمات الخاصة بالضرر المعين حديثا.
في المراحل اللاحقة، عند تطوير التطبيق وواجهة المستخدم الخاصة به، قد تحتاج إلى تعيين أعضاء فريق أحمر لأجزاء معينة من التطبيق (أي الميزات) لضمان تغطية التطبيق بأكمله.
ضع في اعتبارك مقدار الوقت والجهد الذي يجب أن يخصصه كل فريق أحمر (على سبيل المثال، قد يحتاج هذا الاختبار للسيناريوهات الحميدة إلى وقت أقل من تلك الاختبارات للسيناريوهات المتطفلة).

قد يكون من المفيد تزويد أعضاء الفريق الأحمر ب:

إرشادات واضحة يمكن أن تتضمن:
- مقدمة تصف الغرض والهدف من الجولة المحددة من الفريق الأحمر؛ المنتج والميزات التي سيتم اختبارها وكيفية الوصول إليها؛ ما هي أنواع المشكلات التي يجب اختبارها؛ مجالات تركيز أعضاء الفريق الأحمر، إذا كان الاختبار أكثر استهدافا؛ مقدار الوقت والجهد الذي يجب أن يقضيه كل فريق أحمر في الاختبار؛ كيفية تسجيل النتائج؛ ومن يجب التواصل مع الأسئلة.
ملف أو موقع لتسجيل أمثلتهم ونتائجهم، بما في ذلك معلومات مثل:
- التاريخ الذي تم فيه توضيح مثال؛ معرف فريد لزوج الإدخال/الإخراج إذا كان متوفرا، لأغراض قابلية النسخ؛ مطالبة الإدخال؛ وصف أو لقطة شاشة للإخراج.

الخطة: ما يجب اختباره

نظرا لتطوير تطبيق باستخدام نموذج أساسي، قد تحتاج إلى الاختبار في عدة طبقات مختلفة:

نموذج قاعدة LLM مع نظام الأمان الخاص به لتحديد أي ثغرات قد تحتاج إلى معالجة في سياق نظام التطبيق الخاص بك. (عادة ما يتم الاختبار من خلال نقطة نهاية واجهة برمجة التطبيقات.)
تطبيقك. (من الأفضل إجراء الاختبار من خلال واجهة المستخدم.)
كل من نموذج قاعدة LLM والتطبيق الخاص بك، قبل وبعد التخفيف من المخاطر في مكانها.

تساعدك التوصيات التالية على اختيار ما يجب اختباره في نقاط مختلفة أثناء الفريق الأحمر:

يمكنك البدء باختبار النموذج الأساسي لفهم سطح المخاطر، وتحديد الأضرار، وتوجيه تطوير عوامل تخفيف RAI لمنتجك.
اختبر إصدارات منتجك بشكل متكرر مع وبدون عوامل تخفيف RAI في مكانها لتقييم فعالية عوامل تخفيف RAI. (ملاحظة، قد لا يكون الفريق الأحمر اليدوي تقييما كافيا - استخدم القياسات المنهجية أيضا، ولكن فقط بعد إكمال جولة أولية من الفريق الأحمر اليدوي.)
إجراء اختبار التطبيق (التطبيقات) على واجهة مستخدم الإنتاج قدر الإمكان لأن هذا يشبه الاستخدام في العالم الحقيقي.

عند الإبلاغ عن النتائج، قم بتوضيح نقاط النهاية التي تم استخدامها للاختبار. عند إجراء الاختبار في نقطة نهاية أخرى غير المنتج، ضع في اعتبارك الاختبار مرة أخرى على نقطة نهاية الإنتاج أو واجهة المستخدم في الجولات المستقبلية.

الخطة: كيفية الاختبار

إجراء اختبار مفتوح للكشف عن مجموعة واسعة من الأضرار.

إن فائدة فريق RAI الأحمر في استكشاف وتوثيق أي محتوى إشكالي (بدلا من مطالبتهم بالعثور على أمثلة لأضرار محددة) تمكنهم من استكشاف مجموعة واسعة من المشكلات بشكل إبداعي، والكشف عن النقاط العمياء في فهمك لسطح المخاطر.

إنشاء قائمة الضرر من الاختبار المفتوح.

ضع في اعتبارك إنشاء قائمة من الأضرار، مع تعريفات وأمثلة على الأضرار.
قدم هذه القائمة كإرشادات إلى أعضاء الفريق الأحمر في جولات لاحقة من الاختبار.

إجراء فريق أحمر موجه والتكرار: متابعة التحقق من الأضرار في القائمة؛ تحديد الأضرار الجديدة التي تظهر.

استخدم قائمة الأضرار إذا كانت متاحة وتابع اختبار الأضرار المعروفة وفعالية عوامل التخفيف منها. في هذه العملية، من المحتمل أن تحدد الأضرار الجديدة. ادمج هذه الأولويات في القائمة وكن منفتحا على تغيير أولويات القياس والتخفيف لمعالجة الأضرار المحددة حديثا.

التخطيط الذي يضر بتحديد أولويات الاختبار التكراري. يمكن أن تقوم عدة عوامل بإعلامك بتحديد الأولويات، بما في ذلك، على سبيل المثال لا الحصر، شدة الأضرار والسياق الذي من المرجح أن تظهر فيه.

الخطة: كيفية تسجيل البيانات

حدد البيانات التي تحتاج إلى جمعها والبيانات الاختيارية.

حدد البيانات التي سيحتاج أعضاء الفريق الأحمر إلى تسجيلها (على سبيل المثال، الإدخال الذي استخدموه؛ وإخراج النظام؛ ومعرف فريد، إذا كان متوفرا، لإعادة إنتاج المثال في المستقبل؛ وملاحظات أخرى.)
كن استراتيجيا مع البيانات التي تجمعها لتجنب تكرار أعضاء الفريق الأحمر، مع عدم فقدان المعلومات الهامة.

إنشاء بنية لجمع البيانات

غالبا ما يكون جدول بيانات Excel المشترك هو أبسط طريقة لجمع بيانات الفريق الحمراء. تتمثل إحدى فوائد هذا الملف المشترك في أن أعضاء الفريق الأحمر يمكنهم مراجعة أمثلة بعضهم البعض لاكتساب أفكار إبداعية لاختبارهم الخاص وتجنب تكرار البيانات.

أثناء الاختبار

التخطيط لتكون في وضع الاستعداد النشط أثناء استمرار الفريق الأحمر

كن مستعدا لمساعدة أعضاء الفريق الأحمر في الإرشادات ومشكلات الوصول.
راقب التقدم المحرز في جدول البيانات وأرسل تذكيرات في الوقت المناسب إلى أعضاء الفريق الأحمر.

بعد كل جولة من الاختبارات

بيانات التقرير

مشاركة تقرير قصير على فاصل زمني منتظم مع المساهمين الرئيسيين الذين:

يسرد أهم المشكلات المحددة.
يوفر ارتباطا إلى البيانات الأولية.
معاينة خطة الاختبار للجولات القادمة.
يعترف بالفريق الأحمر.
يوفر أي معلومات أخرى ذات صلة.

التفريق بين التعريف والقياس

في التقرير، تأكد من توضيح أن دور فريق RAI الأحمر هو الكشف عن سطح المخاطر ورفع مستوى فهمه وليس بديلا للقياس المنهجي وعمل التخفيف الصارم. ومن المهم ألا يفسر الناس أمثلة محددة كمقياس لاتفشي هذا الضرر.

بالإضافة إلى ذلك، إذا كان التقرير يحتوي على محتوى وأمثلة مشكوك فيها، ففكر في تضمين تحذير محتوى.

وليس المقصود من التوجيهات الواردة في هذه الوثيقة أن تكون، ولا ينبغي تفسيرها على أنها تقدم، المشورة القانونية. قد يكون للولاية القضائية التي تعمل فيها متطلبات تنظيمية أو قانونية مختلفة تنطبق على نظام الذكاء الاصطناعي الخاص بك. يجب أن تدرك أن هذه التوصيات ليست كلها مناسبة لكل سيناريو، وعلى العكس من ذلك، قد تكون هذه التوصيات غير كافية لبعض السيناريوهات.

Share via