الترتيب الدلالي في البحث المعرفي Azure
هام
البحث الدلالي في المعاينة العامة بموجب شروط الاستخدام التكميلية. وهي متوفرة من خلال مدخل Azure ومعاينة واجهة برمجة تطبيقات REST ومجموعات تطوير البرامج التجريبية. هذه الميزات قابلة للفوترة. لمزيد من المعلومات حول، راجع التوفر والتسعير.
الترتيب الدلالي هو امتداد لخط أنابيب تنفيذ الاستعلام الذي يحسن الدقة عن طريق إعادة ترتيب أعلى التطابقات لمجموعة النتائج الأولية. يتم دعم الترتيب الدلالي من خلال شبكات كبيرة قائمة على المحولات ، مدربة على التقاط المعنى الدلالي لمصطلحات الاستعلام ، بدلا من المطابقة اللغوية على الكلمات الرئيسية. على النقيض من خوارزمية ترتيب التشابه الافتراضية ، يستخدم المصنف الدلالي سياق الكلمات ومعناها لتحديد مدى ملاءمتها.
الترتيب الدلالي هو كل من الموارد والوقت المكثف. من أجل إكمال المعالجة ضمن الكمون المتوقع لعملية استعلام، يتم دمج المدخلات إلى المصنف الدلالي وتقليلها بحيث يمكن إكمال خطوات التلخيص وإعادة الترتيب الأساسية في أسرع وقت ممكن.
المعالجة المسبقة
قبل تسجيل النقاط من حيث الملاءمة، يجب تقليل المحتوى إلى عدد يمكن التحكم فيه من المدخلات التي يمكن التعامل معها بكفاءة من قبل المصنف الدلالي.
أولا، يبدأ تقليل المحتوى بمجموعة النتائج الأولية التي يتم إرجاعها بواسطة خوارزمية ترتيب التشابه الافتراضية المستخدمة للبحث عن الكلمات الرئيسية. بالنسبة لأي استعلام معين ، يمكن أن تكون النتائج عبارة عن عدد قليل من المستندات ، بحد أقصى 1000. نظرا لأن معالجة عدد كبير من المباريات ستستغرق وقتا طويلا ، فإن أفضل 50 فقط تتقدم إلى التصنيف الدلالي.
مهما كان عدد المستندات، سواء كان واحدا أو 50، فإن مجموعة النتائج الأولية تحدد التكرار الأول لمتن المستند للترتيب الدلالي.
بعد ذلك ، عبر المتن ، يتم استخراج محتويات كل حقل في التكوين الدلالي ودمجها في سلسلة طويلة.
بعد دمج السلسلة، يتم قص أي سلاسل طويلة بشكل مفرط لضمان أن الطول الكلي يفي بمتطلبات الإدخال لخطوة التلخيص.
تمرين التشذيب هذا هو السبب في أنه من المهم إضافة حقول إلى التكوين الدلالي الخاص بك بترتيب ذي أولوية. إذا كان لديك مستندات كبيرة جدا تحتوي على حقول كثيفة النص، تجاهل أي شيء بعد الحد الأقصى.
يتم تمثيل كل مستند الآن بسلسلة طويلة واحدة.
ملاحظة
في معاينة 2020-06-30 ، يتم استخدام معلمة "searchFields" بدلا من التكوين الدلالي لتحديد الحقول التي يجب استخدامها. نوصي بالترقية إلى إصدار واجهة برمجة التطبيقات 2021-04-30-preview للحصول على أفضل النتائج.
تتكون السلسلة من رموز مميزة، وليس أحرف أو كلمات. الحد الأقصى لعدد الرموز المميزة هو 128 رمزا فريدا. لأغراض التقدير ، يمكنك افتراض أن 128 رمزا مميزا يعادل تقريبا سلسلة طولها 128 كلمة.
ملاحظة
يتم تحديد الترميز جزئيا بواسطة تعيين المحلل في الحقول القابلة للبحث. إذا كنت تستخدم محللا متخصصا، مثل nGram أو EdgeNGram، فقد تحتاج إلى استبعاد هذا الحقل من searchFields. للحصول على رؤى حول كيفية ترميز السلاسل، يمكنك مراجعة إخراج الرمز المميز لمحلل باستخدام واجهة برمجة تطبيقات REST لمحلل الاختبار.
الاستخراج
بعد تقليل السلسلة، أصبح من الممكن الآن تمرير المدخلات المخفضة من خلال نماذج فهم القراءة الآلية وتمثيل اللغة لتحديد الجمل والعبارات التي تلخص المستند بشكل أفضل، مقارنة بالاستعلام. تستخرج هذه المرحلة المحتوى من السلسلة التي ستنتقل إلى الترتيب الدلالي.
مدخلات التلخيص هي السلاسل الطويلة التي تم الحصول عليها لكل وثيقة في مرحلة الإعداد. من كل سلسلة، يجد نموذج التلخيص مقطعا هو الأكثر تمثيلا. يشكل هذا المقطع أيضا تعليقا دلاليا للوثيقة. تتوفر كل تسمية توضيحية في إصدار نص عادي وإصدار تمييز، وغالبا ما تكون أقل من 200 كلمة لكل مستند.
سيتم أيضا إرجاع إجابة دلالية إذا حددت معلمة "الإجابات" ، وإذا تم طرح الاستعلام كسؤال ، وإذا كان يمكن العثور على مقطع في السلسلة الطويلة التي من المحتمل أن توفر إجابة على السؤال.
الترتيب الدلالي
يتم تقييم التسميات التوضيحية من حيث الأهمية المفاهيمية والدلالية، بالنسبة إلى الاستعلام المقدم.
يقدم الرسم البياني التالي توضيحا لما تعنيه "الأهمية الدلالية". ولنتأمل هنا مصطلح "رأس المال"، الذي يمكن استخدامه في سياق التمويل أو القانون أو الجغرافيا أو القواعد. إذا كان الاستعلام يتضمن مصطلحات من نفس المساحة المتجهة (على سبيل المثال، "رأس المال" و"الاستثمار")، فإن المستند الذي يتضمن أيضا الرموز المميزة في نفس المجموعة سيسجل درجات أعلى من المستند الذي لا يتضمن ذلك.
@search.rerankerScore يتم تعيين كل مستند بناء على الأهمية الدلالية للتسمية التوضيحية.
بعد تسجيل جميع المستندات ، يتم سردها بترتيب تنازلي حسب الدرجة وتضمينها في حمولة استجابة الاستعلام. تتضمن الحمولة الإجابات والنص العادي والتسميات التوضيحية المميزة وأي حقول قمت بوضع علامة عليها على أنها قابلة للاسترداد أو محددة في جملة محددة.
الخطوات التالية
يتم تقديم الترتيب الدلالي على المستويات القياسية ، في مناطق محددة. لمزيد من المعلومات حول التوفر والتسجيل، راجع التوفر والتسعير. يتيح نوع استعلام جديد هياكل الترتيب والاستجابة للبحث الدلالي. للبدء، قم بإنشاء استعلام دلالي.
بدلا من ذلك، راجع المقالات التالية حول الترتيب الافتراضي. يعتمد الترتيب الدلالي على ترتيب التشابه لإرجاع النتائج الأولية. ستمنحك معرفة تنفيذ الاستعلام وترتيبه فهما واسعا لكيفية عمل العملية بأكملها.