كيفية استخدام تلخيص النص

مقالة
05/21/2024

تم تصميم تلخيص النص لتقصير المحتوى الذي يعتبره المستخدمون وقتا طويلا جدا لقراءته. يكثف كل من التلخيص الاستخراجي والتجريدي المقالات أو الأوراق أو المستندات إلى جمل رئيسية.

التلخيص الاستخراجي: ينتج ملخصا عن طريق استخراج الجمل التي تمثل بشكل جماعي أهم المعلومات أو المعلومات ذات الصلة ضمن المحتوى الأصلي.

التلخيص التجريدي: ينتج ملخصا عن طريق إنشاء جمل ملخصة من المستند الذي يلتقط الفكرة الرئيسية.

التلخيص الذي يركز على الاستعلام: يسمح لك باستخدام استعلام عند التلخيص.

كل من هذه القدرات قادرة على تلخيص حول عناصر محددة ذات أهمية عند تحديدها.

يتم توفير نماذج الذكاء الاصطناعي التي تستخدمها API بواسطة الخدمة، ما عليك سوى إرسال المحتوى للتحليل.

لتسهيل التنقل، فيما يلي ارتباطات إلى الأقسام المقابلة لكل خدمة:

الجانب	القسم
الاستخراجيه	التلخيص الاستخراجي
تجريدي	تلخيص تجريدي
يركز على الاستعلام	التلخيص الذي يركز على الاستعلام

الميزات

تلميح

إذا كنت تريد البدء في استخدام هذه الميزات، يمكنك اتباع مقالة التشغيل السريع للبدء. يمكنك أيضاً تقديم طلبات المثال باستخدام استوديو اللغة دون الحاجة إلى كتابة التعليمات البرمجية.

تستخدم واجهة برمجة تطبيقات التلخيص الاستخراجي تقنيات معالجة اللغة الطبيعية لتحديد موقع الجمل الرئيسية في مستند نصي غير منظم. تنقل هذه الجمل بشكل جماعي الفكرة الرئيسية للمستند.

يُرجع التلخيص الاستخراجي درجة الرتبة كجزء من استجابة النظام إلى جانب الجمل المُستخرجة وموقعها في المستندات الأصلية. درجة الرتبة هي مؤشر على مدى صلة الجملة بالفكرة الرئيسية للمستند. يعطي النموذج درجة بين 0 و1 (شاملة) لكل جملة، ويعيد أعلى الجمل المسجلة لكل طلب. على سبيل المثال، إذا طلبت ملخصًا من ثلاث جمل، فتُرجع الخدمة أعلى ثلاث جمل مسجلة.

هناك ميزة أخرى في Azure الذكاء الاصطناعي Language، استخراج العبارة الرئيسية، والتي يمكنها استخراج المعلومات الرئيسية. عند الاختيار بين استخراج العبارة الرئيسية والتلخيص الاستخراجي، ضع في اعتبارك ما يلي:

يقوم استخراج العبارة الرئيسية بإرجاع العبارات بينما يقوم التلخيص الاستخراجي بإرجاع الجمل.
يقوم التلخيص الاستخراجي بإرجاع الجمل مع درجة الرتبة، ويتم إرجاع الجمل ذات الترتيب الأعلى لكل طلب.
يقوم التلخيص الاستخراجي أيضا بإرجاع المعلومات الموضعية التالية:
- الإزاحة: موضع البدء لكل جملة مستخرجة.
- الطول: طول كل جملة مستخرجة.

تحديد كيفية معالجة البيانات (اختياري)

إرسال البيانات

يمكنك إرسال المستندات إلى واجهة برمجة التطبيقات كسلاسل من النص. يتم إجراء التحليل عند استلام الطلب. نظرا لأن واجهة برمجة التطبيقات غير متزامنة، فقد يكون هناك تأخير بين إرسال طلب واجهة برمجة التطبيقات وتلقي النتائج.

عند استخدام هذه الميزة، تتوفر نتائج API لمدة 24 ساعة من وقت إدخال الطلب، ويُشار إليه في الرد. بعد هذه الفترة الزمنية، تُزال النتائج ولا تصبح متاحة للاسترجاع.

الحصول على نتائج تلخيص النص

عندما تحصل على نتائج من "Language Detection"، يمكنك دفق النتائج إلى تطبيق ما أو حفظ المخرج في ملف على النظام المحلي.

فيما يلي مثال على المحتوى الذي قد ترسله للتلخيص، والذي يُستخرج باستخدام مقالة مدونة Microsoft تمثيل شامل نحو الذكاء الاصطناعي المتكامل. هذه المقالة هي مجرد مثال، يمكن لواجهة برمجة التطبيقات قبول نص إدخال أطول. راجع قسم حدود البيانات للحصول على مزيد من المعلومات.

"نسعى في Microsoft إلى تقدُم الذكاء الاصطناعي بما يتجاوز التقنيات الحالية من خلال اتباع نهج أكثر شمولية يركز على الإنسان للتعلم والفهم. بصفتي كبير مسؤولي التكنولوجيا في خدمات Azure الذكاء الاصطناعي، عملت مع فريق من العلماء والمهندسين المذهلين لتحويل هذا الطلب إلى حقيقة واقعة. أتمتع بدوري بمنظور فريد في عرض العلاقة بين ثلاث سمات للإدراك البشري: نص أحاديّ اللّغة (X)، والإشارات الحسية الصوتية أو المرئية، (Y) واللغات المتعددة (Z). هناك سحر عند تقاطع الثلاثة - ما نسميه رمز XYZ كما هو موضح في الشكل 1 - تمثيل مشترك لإنشاء ذكاء اصطناعي أكثر قوة يمكنه رؤية البشر وسماعهم والتحدث معهم وفهمهم بشكل أفضل. نعتقد أن XYZ-code يمكننا من تحقيق رؤيتنا طويلة الأجل: التعلم عبر المجالات، وطرائق واللغات الممتدة. الهدف من ذلك هو الحصول على نماذج مُدربة مسبقًا يمكنها تعلم التمثيلات بشكل مشترك لدعم مجموعة واسعة من مهام الذكاء الاصطناعي في المراحل النهائية والكثير مما يفعله البشر اليوم. حققنا، على مدى السنوات الخمس الماضية، أداء بشريًا وفقًا لمعايير التعرف على الكلام للمحادثة، والترجمة الآلية، والإجابة على أسئلة المحادثة، وفهم القراءة الآلية، والتسمية التوضيحية للصور. وقد وفرت لنا هذه الاكتشافات الخمسة إشارات قوية نحو أكثر تطلعاتنا طموحًا لتحقيق نقلة في قدرات الذكاء الاصطناعي، وتحقيق التعلم متعدد الحواس واللغات الذي يتماشى مع كيفية تعلم البشر وفهمهم. أعتقد أن رمز XYZ المشترك هو مكوّن أساسي لهذا الطموح، إذا كان مستندًا إلى مصادر معارف خارجية في مهام الذكاء الاصطناعي في المراحل النهائية."

تتم معالجة طلب واجهة برمجة تطبيقات تلخيص النص عند استلام الطلب عن طريق إنشاء مهمة للواجهة الخلفية لواجهة برمجة التطبيقات. إذا نجحت المهمة، يتم إرجاع إخراج واجهة برمجة التطبيقات. الإخراج متاح للاسترداد لمدة 24 ساعة. يُمسح الإخراج بعد هذا الوقت. نظرا لدعم اللغات المتعددة والرموز التعبيرية، قد تحتوي الاستجابة على إزاحات نصية. راجع كيفية معالجة التعويضات لمزيد من المعلومات.

عند استخدام المثال أعلاه، قد ترجع واجهة برمجة التطبيقات الجمل الملخصة التالية:

التلخيص الاستخراجي:

"نسعى في Microsoft إلى تقدُم الذكاء الاصطناعي بما يتجاوز التقنيات الحالية من خلال اتباع نهج أكثر شمولية يركز على الإنسان للتعلم والفهم."
"نعتقد أن XYZ-code يمكننا من تحقيق رؤيتنا طويلة الأجل: التعلم عبر المجالات، وطرائق واللغات الممتدة."
"الهدف هو أن يكون لديك نماذج مدربة مسبقا يمكنها أن تتعلم بشكل مشترك تمثيلات لدعم مجموعة واسعة من مهام الذكاء الاصطناعي المصب، والكثير في الطريقة التي يفعلها البشر اليوم."

تلخيص تجريدي:

"تتخذ Microsoft نهجا أكثر شمولية يركز على الإنسان للتعلم والفهم. نعتقد أن XYZ-code يمكننا من تحقيق رؤيتنا طويلة الأجل: التعلم عبر المجالات، وطرائق واللغات الممتدة. لقد حققنا على مدى السنوات الخمس الماضية أداء بشريا على معايير مرجعية".

جرب التلخيص الاستخراجي للنص

يمكنك استخدام التلخيص الاستخراجي للنص للحصول على ملخصات للمقالات أو الأوراق أو المستندات. للاطلاع على مثال، راجع مقالة التشغيل السريع.

يمكنك استخدام المعلمة sentenceCount لتوجيه عدد الجمل التي يتم إرجاعها، مع 3 كونها الافتراضية. يتراوح النطاق من 1 إلى 20.

يمكنك أيضا استخدام المعلمة sortby لتحديد ترتيب إرجاع الجمل المستخرجة - إما Offset أو Rank، مع Offset كونها الافتراضية.

قيمة المعلمة	‏‏الوصف
تصنيف	ترتيب الجمل وفقًا لصلتها بمستند الإدخال، كما تقرر الخدمة.
الإزاحة	المحافظة على الترتيب الأصلي الذي تظهر به الجمل في مستند الإدخال.

جرب التلخيص التجريدي للنص

يوضح لك المثال التالي البدء في تلخيص النص التجريدي:

انسخ الأمر أدناه إلى محرر نص. يستخدم \ مثال BASH حرف متابعة السطر. إذا كانت وحدة التحكم أو المحطة الطرفية تستخدم حرف متابعة سطر مختلف، فاستخدم هذا الحرف بدلا من ذلك.

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2023-04-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Text Abstractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "AbstractiveSummarization",
      "taskName": "Text Abstractive Summarization Task 1",
      "parameters": {
        "summaryLength": "short"
      }
    }
  ]
}
'

إذا لم تحدد summaryLength، يحدد النموذج طول الملخص.

استخدام المعلمة summaryLength

بالنسبة للمعلمة summaryLength ، يتم قبول ثلاث قيم:

oneSentence: ينشئ ملخصا لجملة واحدة في الغالب، مع حوالي 80 رمزا مميزا.
قصير: ينشئ ملخصا لجملتين إلى 3 جمل في الغالب، مع حوالي 120 رمزا مميزا.
متوسط: ينشئ ملخصا من 4-6 جمل في الغالب، مع حوالي 170 رمزا مميزا.
long: ينشئ ملخصا لأكثر من 7 جمل في الغالب، مع حوالي 210 رموز مميزة.

قم بإجراء التغييرات التالية في الأمر عند الحاجة:
- استبدال القيمة your-language-resource-key بمفتاحك.
- استبدل الجزء الأول من عنوان URL للطلب your-language-resource-endpoint بعنوان URL لنقطة النهاية الخاص بك.
افتح نافذة موجه الأوامر (على سبيل المثال: BASH).
الصق الأمر من محرر النص في نافذة موجه الأوامر، ثم قم بتشغيل الأمر.
احصل على operation-location من عنوان الاستجابة. تبدو القيمة مشابهة ل URL التالي:

https://<your-language-resource-endpoint>/language/analyze-text/jobs/12345678-1234-1234-1234-12345678?api-version=2022-10-01-preview

للحصول على نتائج الطلب، استخدم الأمر cURL التالي. تأكد من استبدال <my-job-id> بقيمة المعرف الرقمي التي تلقيتها من عنوان الاستجابة السابق operation-location :

curl -X GET https://<your-language-resource-endpoint>/language/analyze-text/jobs/<my-job-id>?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>"

مثال تلخيص النص المجردة استجابة JSON

{
    "jobId": "cd6418fe-db86-4350-aec1-f0d7c91442a6",
    "lastUpdateDateTime": "2022-09-08T16:45:14Z",
    "createdDateTime": "2022-09-08T16:44:53Z",
    "expirationDateTime": "2022-09-09T16:44:53Z",
    "status": "succeeded",
    "errors": [],
    "displayName": "Text Abstractive Summarization Task Example",
    "tasks": {
        "completed": 1,
        "failed": 0,
        "inProgress": 0,
        "total": 1,
        "items": [
            {
                "kind": "AbstractiveSummarizationLROResults",
                "taskName": "Text Abstractive Summarization Task 1",
                "lastUpdateDateTime": "2022-09-08T16:45:14.0717206Z",
                "status": "succeeded",
                "results": {
                    "documents": [
                        {
                            "summaries": [
                                {
                                    "text": "Microsoft is taking a more holistic, human-centric approach to AI. We've developed a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We've achieved human performance on benchmarks in conversational speech recognition, machine translation, ...... and image captions.",
                                    "contexts": [
                                        {
                                            "offset": 0,
                                            "length": 247
                                        }
                                    ]
                                }
                            ],
                            "id": "1"
                        }
                    ],
                    "errors": [],
                    "modelVersion": "latest"
                }
            }
        ]
    }
}

المعلمة	‏‏الوصف‬
`-X POST <endpoint>`	تحديد نقطة النهاية للوصول إلى واجهة برمجة التطبيقات.
`-H Content-Type: application/json`	نوع المحتوى لإرسال بيانات JSON.
`-H "Ocp-Apim-Subscription-Key:<key>`	تحديد مفتاح الوصول إلى واجهة برمجة التطبيقات.
`-d <documents>`	يحتوي JSON على المستندات التي تريد إرسالها.

يتم تنفيذ أوامر cURL التالية من BASH shell. قم بتحرير هذه الأوامر باستخدام اسم المورد الخاص بك ومفتاح المورد وقيم JSON.

التلخيص المستند إلى الاستعلام

واجهة برمجة تطبيقات تلخيص النص المستندة إلى الاستعلام هي ملحق لواجهة برمجة تطبيقات تلخيص النص الموجودة.

الفرق الأكبر هو حقل جديد query في نص الطلب (ضمن>tasksparameters>query ). بالإضافة إلى ذلك، هناك طريقة جديدة لتحديد المفضل summaryLength في "مستودعات" قصيرة/متوسطة/طويلة، والتي نوصي باستخدامها بدلا من sentenceCount، خاصة عند استخدام التجريد. فيما يلي مثال على الطلب:

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2023-11-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Text Extractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
"tasks": [
    {
      "kind": "AbstractiveSummarization",
      "taskName": "Query-based Abstractive Summarization",
      "parameters": {
          "query": "XYZ-code",
          "summaryLength": "short"
      }
    },    {
      "kind": "ExtractiveSummarization",
      "taskName": "Query_based Extractive Summarization",
      "parameters": {
          "query": "XYZ-code",
          "sentenceCount": 3
      }
    }
  ]
}
'

استخدام المعلمة summaryLength

بالنسبة للمعلمة summaryLength ، يتم قبول ثلاث قيم:

oneSentence: ينشئ ملخصا لجملة واحدة في الغالب، مع حوالي 80 رمزا مميزا.
قصير: ينشئ ملخصا لجملتين إلى 3 جمل في الغالب، مع حوالي 120 رمزا مميزا.
متوسط: ينشئ ملخصا من 4-6 جمل في الغالب، مع حوالي 170 رمزا مميزا.
long: ينشئ ملخصا لأكثر من 7 جمل في الغالب، مع حوالي 210 رموز مميزة.

حدود الخدمة والبيانات

للحصول على معلومات حول حجم الطلبات التي يمكنك إرسالها في الدقيقة والثانية وعددها، راجع مقال حدود البيانات.

(راجع أيضًا )

نظرة عامة على التلخيص

مشاركة عبر

كيفية استخدام تلخيص النص

الميزات

تحديد كيفية معالجة البيانات (اختياري)

إرسال البيانات

الحصول على نتائج تلخيص النص

جرب التلخيص الاستخراجي للنص

جرب التلخيص التجريدي للنص

استخدام المعلمة summaryLength

مثال تلخيص النص المجردة استجابة JSON

التلخيص المستند إلى الاستعلام

استخدام المعلمة summaryLength

حدود الخدمة والبيانات

(راجع أيضًا )

الموارد الإضافية