استخدم وضع المتدرب لتدريب Personalizer دون التأثير على تطبيقك الحالي
نظرا لطبيعة Learning التعزيز في العالم الحقيقي ، لا يمكن تدريب نموذج Personalizer إلا في بيئة إنتاج. عند نشر حالة استخدام جديدة، لا يعمل نموذج Personalizer بكفاءة لأن الأمر يستغرق بعض الوقت حتى يتم تدريب النموذج بشكل كاف. وضع المتدرب هو سلوك تعليمي يسهل هذا الموقف ويسمح لك باكتساب الثقة في النموذج - دون أن يغير المطور أي رمز.
هام
لا يتوفر وضع المتدرب (في المعاينة العامة) إلا في طبقة تسعير E0. يرجى الاطلاع على الأسعار للحصول على التفاصيل. يمكنك تحديد طبقة E0 عند إنشاء الموارد أو الترقية إلى E0 من علامة التبويب الاشتراكات في مدخل Azure. إذا كنت في فئة أخرى، وقمت بالترقية إلى E0، ترحيل موارد Personalizer الحالية تلقائيا إلى فئة E0.
ما هو وضع المتدرب؟
على غرار الطريقة التي يتعلم بها المتدرب حرفة من خبير ، ومع الخبرة يمكن أن تتحسن ؛ وضع المتدرب هو سلوك يتيح ل Personalizer التعلم من خلال مراقبة النتائج التي تم الحصول عليها من منطق التطبيق الحالي.
يتدرب Personalizer عن طريق محاكاة نفس الإخراج مثل التطبيق. مع تدفق المزيد من الأحداث ، يمكن ل Personalizer اللحاق بالتطبيق الحالي دون التأثير على المنطق والنتائج الحالية. تساعدك المقاييس، المتوفرة من مدخل Azure وواجهة برمجة التطبيقات، على فهم الأداء أثناء تعلم النموذج.
بمجرد أن يتعلم Personalizer ويصل إلى مستوى معين من الفهم ، يمكن للمطور تغيير السلوك من وضع المتدرب إلى وضع الإنترنت. في ذلك الوقت ، يبدأ Personalizer في التأثير على الإجراءات في واجهة برمجة تطبيقات الترتيب.
الغرض من وضع المتدرب
يمنحك وضع المتدرب الثقة في خدمة Personalizer وقدراتها على التعلم الآلي ، ويوفر الطمأنينة بأن الخدمة يتم إرسال معلومات يمكن التعلم منها - دون المخاطرة بحركة المرور عبر الإنترنت.
السببان الرئيسيان لاستخدام وضع المتدرب هما:
- التخفيف من البدايات الباردة: يساعد وضع المتدرب على إدارة وتقييم تكلفة وقت تعلم النموذج "الجديد" - عندما لا يعود بأفضل إجراء ولا يحقق مستوى مرضيا من الفعالية يتراوح بين 60 و 80٪.
- التحقق من صحة ميزات الإجراء والسياق: قد تكون الميزات المرسلة في الإجراءات والسياق غير كافية أو غير دقيقة - قليلة جدا أو كثيرة جدا أو غير صحيحة أو محددة للغاية لتدريب Personalizer على تحقيق معدل الفعالية المثالي. استخدم تقييمات الميزات للعثور على المشكلات المتعلقة بالميزات وحلها.
متى يجب عليك استخدام وضع المتدرب؟
استخدم وضع المتدرب لتدريب Personalizer على تحسين فعاليته من خلال السيناريوهات التالية مع ترك تجربة المستخدمين دون تأثر ب Personalizer:
- أنت تقوم بتنفيذ Personalizer في حالة استخدام جديدة.
- لقد قمت بتغيير الميزات التي ترسلها في السياق أو الإجراءات بشكل كبير.
- لقد غيرت بشكل كبير متى وكيف تحسب المكافآت.
وضع المتدرب ليس طريقة فعالة لقياس تأثير Personalizer على درجات المكافأة. لقياس مدى فعالية Personalizer في اختيار أفضل إجراء ممكن لكل مكالمة ترتيب، استخدم التقييمات غير المتصلة بالإنترنت.
روبوت Who يجب أن تستخدم وضع المتدرب؟
وضع المتدرب مفيد للمطورين وعلماء البيانات وصناع القرار في مجال الأعمال:
يمكن للمطورين استخدام وضع المتدرب للتأكد من استخدام واجهات برمجة تطبيقات الترتيب والمكافأة بشكل صحيح في التطبيق، وأن الميزات التي يتم إرسالها إلى Personalizer من التطبيق لا تحتوي على أخطاء، أو ميزات غير ذات صلة مثل الطابع الزمني أو عنصر UserID.
يمكن لعلماء البيانات استخدام وضع المتدرب للتحقق من أن الميزات فعالة لتدريب نماذج Personalizer ، وأن أوقات انتظار المكافآت ليست طويلة أو قصيرة جدا.
يمكن لصانعي القرار في مجال الأعمال استخدام وضع المتدرب لتقييم إمكانات Personalizer لتحسين النتائج (أي المكافآت) مقارنة بمنطق الأعمال الحالي. وهذا يسمح لهم باتخاذ قرار مستنير يؤثر على تجربة المستخدم ، حيث تكون الإيرادات الحقيقية ورضا المستخدم على المحك.
مقارنة السلوكيات - وضع المتدرب ووضع الاتصال بالإنترنت
يختلف Learning عندما يكون في وضع المتدرب عن وضع الاتصال بالإنترنت بالطرق التالية.
| المجال | وضع المبتدئ | وضع الاتصال بالإنترنت |
|---|---|---|
| التأثير على تجربة المستخدم | يمكنك استخدام سلوك المستخدم الحالي لتدريب Personalizer من خلال السماح له بمراقبة (وليس التأثير) على الإجراء الافتراضي الخاص بك والمكافأة التي حصل عليها. وهذا يعني أن تجربة المستخدمين ونتائج النشاط التجاري منها لن تتأثر. | عرض الإجراء العلوي الذي تم إرجاعه من مكالمة الترتيب للتأثير على سلوك المستخدم. |
| سرعة التعلم | سيتعلم Personalizer ببطء أكبر عندما يكون في وضع المتدرب أكثر من التعلم في وضع الإنترنت. لا يمكن لوضع المتدرب التعلم إلا من خلال مراقبة المكافآت التي تم الحصول عليها من خلال الإجراء الافتراضي الخاص بك ، مما يحد من سرعة التعلم ، حيث لا يمكن إجراء أي استكشاف. | يتعلم بشكل أسرع لأنه يمكنه استغلال النموذج الحالي واستكشاف اتجاهات جديدة. |
| فعالية Learning "السقف" | يمكن ل Personalizer أن يقارب ، ونادرا ما يتطابق ، ولا يتجاوز أبدا أداء منطق عملك الأساسي (إجمالي المكافأة التي يتم تحقيقها من خلال الإجراء الافتراضي لكل مكالمة ترتيب). يتم تقليل هذا السقف التقريبي عن طريق الاستكشاف. على سبيل المثال ، مع الاستكشاف بنسبة 20٪ ، من غير المرجح أن يتجاوز أداء وضع المتدرب 80٪ ، و 60٪ هو هدف معقول للتخرج إلى الوضع عبر الإنترنت. | يجب أن يتجاوز Personalizer خط الأساس للتطبيقات ، ومع مرور الوقت حيث يتوقف ، يجب عليك إجراء تقييم في وضع عدم الاتصال وتقييم الميزات لمواصلة الحصول على تحسينات على النموذج. |
| ترتيب قيمة واجهة برمجة التطبيقات ل rewardActionId | لا تتأثر تجربة المستخدمين، حيث أن rewardActionId هو دائما الإجراء الأول الذي ترسله في طلب الترتيب. بمعنى آخر ، لا تفعل واجهة برمجة تطبيقات Rank شيئا مرئيا لتطبيقك أثناء وضع المتدرب. يجب ألا تغير واجهات برمجة تطبيقات المكافآت في تطبيقك طريقة استخدامه لواجهة برمجة تطبيقات المكافآت بين وضع وآخر. | سيتم تغيير تجربة المستخدمين بواسطة rewardActionId الذي يختاره Personalizer لتطبيقك. |
| التقييمات | يحتفظ Personalizer بمقارنة بين إجماليات المكافآت التي يحصل عليها منطق عملك الافتراضي ، ومجاميع المكافآت التي سيحصل عليها Personalizer إذا كان في وضع الاتصال بالإنترنت في تلك المرحلة. تتوفر مقارنة في مدخل Azure لهذا المورد | قم بتقييم فعالية Personalizer من خلال تشغيل تقييمات Offline ، والتي تتيح لك مقارنة إجمالي المكافآت التي حققها Personalizer بالمكافآت المحتملة لخط أساس التطبيق. |
ملاحظة حول فعالية وضع المتدرب:
- نادرا ما تحقق فعالية Personalizer في وضع المتدرب ما يقرب من 100٪ من خط الأساس للتطبيق ؛ ولا تتجاوزه أبدا.
- وتتمثل أفضل الممارسات في عدم محاولة الوصول إلى نسبة 100 في المائة من التحصيل؛ بل ينبغي أن تكون هناك حاجة إلى تحقيق ذلك. ولكن يجب استهداف نطاق يتراوح بين 60٪ و 80٪ اعتمادا على حالة الاستخدام.
قيود وضع المتدرب
يحاول وضع المتدرب تدريب نموذج Personalizer من خلال محاولة تقليد الخوارزمية الحالية التي تختار عناصر خط الأساس، باستخدام الميزات الموجودة في سياقك والإجراءات المستخدمة في مكالمات الترتيب والتعليقات الواردة من مكالمات المكافأة. ستؤثر العوامل التالية على ما إذا كان Personalizer Apprentice يتعلم ما يكفي من المكافآت المتطابقة أو متى.
السيناريوهات التي قد لا يكون فيها وضع المتدرب مناسبا:
المحتوى المختار تحريريا:
في بعض السيناريوهات مثل الأخبار أو الترفيه، يمكن تعيين عنصر الأساس يدويا من قبل فريق التحرير. وهذا يعني أن البشر يستخدمون معرفتهم حول العالم الأوسع، وفهم ما قد يكون محتوى جذابا، لاختيار مقالات أو وسائط معينة من مجموعة، ووضع علامة عليها على أنها مقالات "مفضلة" أو "بطلة". نظرا لأن هؤلاء المحررين ليسوا خوارزمية ، ويمكن أن تكون العوامل التي يعتبرها المحررون دقيقة ولا يتم تضمينها كميزات للسياق والإجراءات ، فمن غير المرجح أن يكون وضع المتدرب قادرا على التنبؤ بإجراء خط الأساس التالي. في هذه الحالات يمكنك:
- اختبار Personalizer في وضع الاتصال: لا يعني وضع المتدرب الذي لا يتنبأ بخطوط الأساس أن Personalizer لا يمكنه تحقيق نتائج جيدة أو حتى أفضل. ضع في اعتبارك وضع Personalizer في وضع الاتصال لفترة من الوقت أو في اختبار A / B إذا كان لديك البنية الأساسية ، ثم قم بتشغيل تقييم غير متصل بالإنترنت لتقييم الفرق.
- إضافة اعتبارات تحريرية وتوصيات كميزات: اسأل المحررين عن العوامل التي تؤثر على خياراتهم، وتحقق مما إذا كان يمكنك إضافتها كميزات في سياقك وإجراءاتك. على سبيل المثال ، قد يسلط المحررون في شركة إعلامية الضوء على المحتوى أثناء وجود أحد المشاهير في الأخبار: يمكن إضافة هذه المعرفة كميزة سياق.
العوامل التي من شأنها تحسين وتسريع وضع المتدرب
إذا كان وضع المتدرب يتعلم ويحقق مكافآت مطابقة أعلى من الصفر ولكن يبدو أنه ينمو ببطء (لا يصل إلى 60٪.. 80٪ مطابقة المكافآت في غضون 2 أسابيع)، فمن الممكن أن التحدي هو وجود القليل جدا من البيانات. اتخاذ الخطوات التالية يمكن أن يسرع التعلم.
- إضافة المزيد من الأحداث مع مكافآت إيجابية بمرور الوقت: سيكون أداء وضع المتدرب أفضل في حالات الاستخدام حيث يحصل تطبيقك على أكثر من 100 مكافأة إيجابية يوميا. على سبيل المثال ، إذا كان موقع الويب الذي يكافئ نقرة يحتوي على 2٪ من مرات النقر ، فيجب أن يكون لديه ما لا يقل عن 5000 زيارة يوميا للحصول على تعلم ملحوظ.
- جرب درجة مكافأة أبسط وتحدث بشكل متكرر. على سبيل المثال الانتقال من "هل انتهى المستخدمون من قراءة المقالة" إلى "هل بدأ المستخدمون في قراءة المقالة".
- إضافة ميزات تمييزية: يمكنك إجراء فحص مرئي للإجراءات في مكالمة ترتيب وميزاتها. هل يحتوي الإجراء الأساسي على ميزات يتم تمييزها عن الإجراءات الأخرى؟ إذا كانت تبدو متشابهة في الغالب ، فأضف المزيد من الميزات التي ستجعلها أقل تشابها.
- تقليل الإجراءات لكل حدث: سيستخدم التخصيص إعداد استكشاف النسبة المئوية لاكتشاف التفضيلات والاتجاهات. عندما تحتوي مكالمة Rank على المزيد من الإجراءات ، تصبح فرصة اختيار إجراء للاستكشاف أقل. قلل عدد الإجراءات المرسلة في كل مكالمة ترتيب إلى رقم أصغر، إلى أقل من 10. يمكن أن يكون هذا تعديلا مؤقتا لإظهار أن وضع المتدرب لديه البيانات الصحيحة لمطابقة المكافآت.
استخدام وضع المتدرب للتدريب على البيانات التاريخية
إذا كان لديك كمية كبيرة من البيانات التاريخية، وترغب في استخدامها لتدريب Personalizer، فيمكنك استخدام وضع المتدرب لإعادة تشغيل البيانات من خلال Personalizer.
قم بإعداد Personalizer في وضع المتدرب وقم بإنشاء برنامج نصي يستدعي Rank مع الإجراءات وميزات السياق من البيانات السابقة. اتصل بواجهة برمجة تطبيقات المكافآت استنادا إلى حساباتك للسجلات في هذه البيانات. ستحتاج إلى ما يقرب من 50000 حدث تاريخي لرؤية بعض النتائج ولكن يوصى ب 500000 حدث لزيادة الثقة في النتائج.
عند التدريب من البيانات التاريخية، يوصى بأن تتطابق البيانات المرسلة (ميزات السياق والإجراءات، وتخطيطها في JSON المستخدم لطلبات الرتبة، وحساب المكافأة في مجموعة بيانات التدريب هذه)، مع البيانات (الميزات وحساب المكافأة) المتاحة من التطبيق الحالي.
تميل البيانات غير المتصلة بالإنترنت واللاحقة للأمر الواقع إلى أن تكون أكثر نقصا وضوضاء وتختلف في الشكل. في حين أن التدريب من البيانات التاريخية ممكن، إلا أن نتائج القيام بذلك قد تكون غير حاسمة وليست مؤشرا جيدا على مدى جودة تعلم Personalizer، خاصة إذا كانت الميزات تختلف بين البيانات السابقة والتطبيق الحالي.
عادة بالنسبة ل Personalizer ، عند مقارنته بالتدريب باستخدام البيانات التاريخية ، فإن تغيير السلوك إلى وضع المتدرب والتعلم من تطبيق موجود هو مسار أكثر فعالية للحصول على نموذج فعال ، مع عمالة أقل ، وهندسة البيانات ، وأعمال التنظيف.
استخدام وضع المتدرب مقابل اختبارات A / B
من المفيد فقط إجراء اختبارات A / B لعلاجات Personalizer بمجرد التحقق من صحتها وتعلمها في وضع الإنترنت. في وضع المتدرب ، يتم استخدام الإجراء الافتراضي فقط ، مما يعني أن جميع المستخدمين سيرون تجربة التحكم بشكل فعال.
حتى لو كان Personalizer هو مجرد علاج ، فإن نفس التحدي موجود عند التحقق من صحة البيانات جيد لتدريب Personalizer. يمكن استخدام وضع المتدرب بدلا من ذلك ، مع 100٪ من عدد الزيارات ، ومع حصول جميع المستخدمين على تجربة التحكم (غير المتأثرة).
بمجرد أن يكون لديك حالة استخدام باستخدام Personalizer والتعلم عبر الإنترنت ، تسمح لك تجارب A / B بإجراء مجموعات خاضعة للرقابة ومقارنة علمية للنتائج التي قد تكون أكثر تعقيدا من الإشارات المستخدمة للمكافآت. مثال على السؤال الذي يمكن أن يجيب عليه اختبار A / B هو: In a retail website, Personalizer optimizes a layout and gets more users to _check out_ earlier, but does this reduce total revenue per transaction?
الخطوات التالية
- تعرف على الأحداث النشطة وغير النشطة