تحليل استجابة واجهة برمجة تطبيقات المستند

ينطبق هذا المحتوى على:checkmarkv4.0 (معاينة)checkmarkv3.1 (GA)checkmarkv3.0 (GA)

في هذه المقالة، دعنا نفحص الكائنات المختلفة التي تم إرجاعها كجزء من AnalyzeDocument الاستجابة وكيفية استخدام استجابة واجهة برمجة تطبيقات تحليل المستند في تطبيقاتك.

تحليل طلب المستند

تحلل واجهات برمجة التطبيقات الخاصة بذكاء المستند الصور وملفات PDF وملفات المستندات الأخرى لاستخراج المحتوى والتخطيط والنمط والعناصر الدلالية المختلفة واكتشافها. عملية التحليل هي واجهة برمجة تطبيقات غير متزامنة. يؤدي إرسال مستند إلى إرجاع عنوان Operation-Location الذي يحتوي على عنوان URL للاستقصاء لإكماله. عند اكتمال طلب تحليل بنجاح، تحتوي الاستجابة على العناصر الموضحة في استخراج بيانات النموذج.

عناصر الاستجابة

  • عناصر المحتوى هي عناصر النص الأساسية المستخرجة من المستند.

  • تجمع عناصر التخطيط عناصر المحتوى في وحدات هيكلية.

  • تصف عناصر النمط خط عناصر المحتوى ولغتها.

  • تعين العناصر الدلالية معنى لعناصر المحتوى المحددة.

يتم تجميع كافة عناصر المحتوى وفقا للصفحات، محددة حسب رقم الصفحة (1مفهرس). كما يتم فرزها حسب ترتيب القراءة الذي يرتب العناصر المتجاورة دلاليا معا، حتى لو تجاوزت حدود الخط أو العمود. عندما يكون ترتيب القراءة بين الفقرات وعناصر التخطيط الأخرى غامضا، تقوم الخدمة بشكل عام بإرجاع المحتوى بترتيب من اليسار إلى اليمين ومن أعلى إلى أسفل.

إشعار

حاليا، لا يدعم Document Intelligence ترتيب القراءة عبر حدود الصفحة. لا يتم وضع علامات التحديد داخل الكلمات المحيطة.

تحتوي خاصية المحتوى من المستوى الأعلى على سلسلة من كافة عناصر المحتوى في ترتيب القراءة. تحدد كافة العناصر موضعها في ترتيب القارئ عبر امتدادات داخل سلسلة المحتوى هذه. محتوى بعض العناصر ليس دائما متقاربا.

تحليل الاستجابة

ترجع استجابة التحليل لكل واجهة برمجة تطبيقات كائنات مختلفة. تحتوي استجابات واجهة برمجة التطبيقات على عناصر من نماذج المكونات حيثما ينطبق ذلك.

محتوى استجابة ‏‏الوصف واجهة برمجة التطبيقات (API)
صفحات يتم التعرف على الكلمات والخطوط والامتدادات من كل صفحة من صفحات مستند الإدخال. نماذج القراءة والتخطيط والمستند العام والنماذج المعدة مسبقا والمخصصة
الفقرات المحتوى الذي تم التعرف عليه كفقرات. نماذج القراءة والتخطيط والمستند العام والنماذج المعدة مسبقا والمخصصة
انماط خصائص عنصر النص المحدد. نماذج القراءة والتخطيط والمستند العام والنماذج المعدة مسبقا والمخصصة
لغات اللغة المحددة المقترنة بكل امتداد من النص المستخرج قراءة
الجداول تم تحديد المحتوى الجدولي واستخراجه من المستند. تتعلق الجداول بالجداول المحددة بواسطة نموذج التخطيط المدرب مسبقا. يتم استخراج المحتوى المسمى كجداول كالحقول المنظمة في كائن المستندات. التخطيط والمستند العام والفاتورة والنماذج المخصصة
الارقام تم التعرف على الأرقام (المخططات والصور) واستخراجها من المستند، ما يوفر تمثيلات مرئية تساعد في فهم المعلومات المعقدة. نموذج تخطيط
المقاطع تم تحديد بنية المستند الهرمية واستخراجها من المستند. مقطع أو قسم فرعي مع العناصر المقابلة (فقرة، جدول، رسم توضيحي) مرفقة به. نموذج تخطيط
keyValuePairs أزواج قيم المفاتيح التي تم التعرف عليها من قبل نموذج مدرب مسبقا. المفتاح عبارة عن نطاق نص من المستند بالقيمة المقترنة. نماذج المستندات والفواتير العامة
الوثائق يتم إرجاع الحقول التي fields تم التعرف عليها في القاموس ضمن قائمة المستندات نماذج تم إنشاؤها مسبقا، نماذج مخصصة.

لمزيد من المعلومات حول الكائنات التي تم إرجاعها بواسطة كل واجهة برمجة تطبيقات، راجع استخراج بيانات النموذج.

خصائص العنصر

يمتد

تحدد الامتدادات الموضع المنطقي لكل عنصر في ترتيب القراءة الإجمالي، مع تحديد كل امتداد إزاحة حرف وطول في خاصية سلسلة محتوى المستوى الأعلى. بشكل افتراضي، يتم إرجاع إزاحات الأحرف وأطوالها في وحدات من الأحرف المتصورة من قبل المستخدم (المعروفة أيضا باسم grapheme clusters أو عناصر النص). لاستيعاب بيئات التطوير المختلفة التي تستخدم وحدات أحرف مختلفة، يمكن للمستخدم تحديد معلمة stringIndexIndex الاستعلام لإرجاع إزاحات النطاق والأطوال في نقاط التعليمات البرمجية Unicode (Python 3) أو وحدات التعليمات البرمجية UTF16 (Java وJavaScript و.NET) أيضا. لمزيد من المعلومات، راجعدعم رموز المشاعر/اللغات المتعددة.

Screenshot of detected span example.

المنطقة الحدودية

تصف المناطق الحدودية الموضع المرئي لكل عنصر في الملف. عندما لا تكون العناصر متقاربة بصريا أو صفحات متقاطعة (جداول)، يتم وصف مواضع معظم العناصر عبر صفيف من المناطق المحيطة. تحدد كل منطقة رقم الصفحة (1المفهرس) والمضلع المحيط. يتم وصف المضلع المحيط على أنه تسلسل من النقاط، باتجاه عقارب الساعة من اليسار بالنسبة إلى الاتجاه الطبيعي للعنصر. بالنسبة للزوايا الرباعية، تكون نقاط الرسم أعلى اليسار وأعلى اليمين وأسفل اليمين وأسفل الزوايا اليمنى. تمثل كل نقطة إحداثيات x وy الخاصة بها في وحدة الصفحة المحددة بواسطة خاصية الوحدة. بشكل عام، وحدة القياس للصور هي وحدات البكسل بينما تستخدم ملفات PDF البوصة.

Screenshot of detected bounding regions example.

إشعار

حاليا، تقوم Document Intelligence بإرجاع أربعة رؤوس رباعية فقط كمضلعات إحاطة. قد ترجع الإصدارات المستقبلية عددا مختلفا من النقاط لوصف أشكال أكثر تعقيدا، مثل الخطوط المنحنية أو الصور غير المستطيلة. المناطق المحيطة المطبقة فقط على الملفات المعروضة، إذا لم يتم عرض الملف، فلن يتم إرجاع المناطق الحدودية. لا يتم حاليا عرض ملفات تنسيق docx/xlsx/pptx/html.

عناصر المحتوى

Word

الكلمة هي عنصر محتوى يتكون من تسلسل من الأحرف. باستخدام Document Intelligence، يتم تعريف الكلمة على أنها سلسلة من الأحرف المتجاورة، مع مسافة بيضاء تفصل الكلمات عن بعضها البعض. بالنسبة للغات التي لا تستخدم فواصل مسافات بين الكلمات، يتم إرجاع كل حرف ككلمة منفصلة، حتى إذا لم تكن تمثل وحدة كلمة دلالية.

Screenshot of detected words example.

علامات التحديد

علامة التحديد هي عنصر محتوى يمثل صورة مرئية تشير إلى حالة التحديد. خانة الاختيار هي شكل شائع من علامات التحديد. ومع ذلك، يتم تمثيلها أيضا عبر أزرار تبادلية أو خلية مربعة في شكل مرئي. يمكن تحديد حالة علامة التحديد أو إلغاء تحديدها، مع تمثيل مرئي مختلف للإشارة إلى الحالة.

Screenshot of detected selection marks example.

عناصر التخطيط

Line

السطر هو تسلسل مرتب لعناصر المحتوى المتتالية مفصولة بمسافة مرئية، أو تلك التي تكون متجاورة مباشرة للغات التي لا تحتوي على محددات مسافة بين الكلمات. غالبا ما يتم تقسيم عناصر المحتوى في نفس المستوى الأفقي (الصف) ولكن مفصولة بأكثر من مساحة مرئية واحدة إلى أسطر متعددة. بينما تقوم هذه الميزة أحيانا بتقسيم المحتوى المتجاورة دلاليا إلى أسطر منفصلة، فإنها تمكن تمثيل المحتوى النصي مقسما إلى أعمدة أو خلايا متعددة. يتم الكشف عن الخطوط في الكتابة العمودية في الاتجاه العمودي.

Screenshot of detected lines example.

الفقرة

الفقرة عبارة عن تسلسل مرتب من الأسطر التي تشكل وحدة منطقية. عادة ما تشترك الخطوط في المحاذاة والتباعد الشائع بين الخطوط. غالبا ما يتم تحديد الفقرات عبر المسافة البادئة أو التباعد المضاف أو التعداد النقطي/الترقيم. يمكن تعيين المحتوى إلى فقرة واحدة فقط. يمكن أيضا أن يقترن تحديد الفقرات بدور وظيفي في المستند. تتضمن الأدوار المدعومة حاليا رأس الصفحة وتذييل الصفحة ورقم الصفحة والعنوان وعنوان المقطع والحاشية السفلية.

Screenshot of detected paragraphs example.

صفحة

الصفحة عبارة عن تجميع للمحتوى الذي يتوافق عادة مع جانب واحد من ورقة. تتميز الصفحة المعروضة بالعرض والارتفاع في الوحدة المحددة. بشكل عام، تستخدم الصور البكسل بينما تستخدم ملفات PDF البوصة. تصف خاصية الزاوية زاوية النص الإجمالية بالدرجات للصفحات التي يمكن تدويرها.

إشعار

بالنسبة إلى جداول البيانات مثل Excel، يتم تعيين كل ورقة إلى صفحة. بالنسبة للعروض التقديمية، مثل PowerPoint، يتم تعيين كل شريحة إلى صفحة. بالنسبة لتنسيقات الملفات التي لا تحتوي على مفهوم أصلي للصفحات دون عرض مثل مستندات HTML أو Word، يعتبر المحتوى الرئيسي للملف صفحة واحدة.

جدول

ينظم الجدول المحتوى في مجموعة من الخلايا في تخطيط شبكة. يمكن فصل الصفوف والأعمدة بشكل مرئي بواسطة خطوط الشبكة أو تنسيق الألوان أو تباعد أكبر. يتم تحديد موضع خلية جدول عبر فهارس الصفوف والأعمدة الخاصة بها. يمكن أن تمتد الخلية عبر صفوف وأعمدة متعددة.

استنادا إلى موضعها وتصفيفها، يمكن تصنيف الخلية على أنها محتوى عام أو رأس صف أو رأس عمود أو رأس كعب رواق أو وصف:

  • عادة ما تكون خلية رأس الصف هي الخلية الأولى في صف تصف الخلايا الأخرى في الصف.

  • عادة ما تكون خلية رأس العمود هي الخلية الأولى في عمود تصف الخلايا الأخرى في عمود.

  • يمكن أن يحتوي صف أو عمود على خلايا رأس متعددة لوصف المحتوى الهرمي.

  • عادة ما تكون خلية رأس كعب الرواد هي الخلية الموجودة في الصف الأول وموضع العمود الأول. يمكن أن تكون فارغة أو تصف القيم الموجودة في خلايا الرأس في الصف/العمود نفسه.

  • تظهر خلية وصف بشكل عام في أعلى الجدول أو أسفله، مع وصف محتوى الجدول الكلي. ومع ذلك، قد يظهر أحيانا في منتصف الجدول لتقسيم الجدول إلى مقاطع. عادة ما تمتد خلايا الوصف عبر خلايا متعددة في صف واحد.

  • تحدد التسمية التوضيحية للجدول المحتوى الذي يشرح الجدول. يمكن أن يحتوي الجدول أيضا على تسمية توضيحية مقترنة ومجموعة من الحواشي السفلية. على عكس خلية الوصف، تقع التسمية التوضيحية عادة خارج تخطيط الشبكة. تقوم الحاشية السفلية للجدول بتعليق محتوى داخل الجدول، وغالبا ما يتم وضع علامة عليه برمز حاشية سفلية موجود أسفل شبكة الجدول.

تختلف جداول التخطيط عن حقول المستندات المستخرجة من البيانات الجدولية. يتم استخراج جداول التخطيط من المحتوى المرئي الجدولي في المستند دون مراعاة دلالات المحتوى. في الواقع، تم تصميم بعض جداول التخطيط فقط للتخطيط المرئي ولا تحتوي دائما على بيانات منظمة. تتطلب طريقة استخراج البيانات المنظمة من المستندات ذات التخطيط المرئي المتنوع، مثل التفاصيل التفصيلية للإيصال، معالجة بعد كبيرة بشكل عام. من الضروري تعيين رؤوس الصفوف أو الأعمدة إلى حقول منظمة بأسماء حقول تمت تسويتها. اعتمادا على نوع المستند، استخدم نماذج تم إنشاؤها مسبقا أو تدريب نموذج مخصص لاستخراج مثل هذا المحتوى المنظم. يتم عرض المعلومات الناتجة كالحقول المستند. يمكن لهذه النماذج المدربة أيضا التعامل مع البيانات الجدولية بدون رؤوس وبيانات منظمة في نماذج غير جدولية، على سبيل المثال قسم تجربة العمل في السيرة الذاتية.

Layout table

الارقام

تلعب الأرقام (المخططات والصور) في الوثائق دورا حاسما في استكمال وتعزيز المحتوى النصي، وتوفير تمثيلات مرئية تساعد في فهم المعلومات المعقدة. يحتوي كائن الرسوم التوضيحية الذي تم اكتشافه بواسطة نموذج التخطيط على خصائص رئيسية مثل boundingRegions (المواقع المكانية للرسم التوضيحي على صفحات المستند، بما في ذلك رقم الصفحة وإحداثيات المضلع التي تحدد حدود الرسم التوضيحي)، spans (تفاصيل تمتد النص المتعلقة بالرسم التوضيحي، وتحديد إزاحاتها وأطوالها داخل نص المستند. يساعد هذا الاتصال في إقران الشكل بالسياق النصي ذي الصلة)، elements (معرفات العناصر النصية أو الفقرات داخل المستند التي ترتبط بالشكل التوضيحي أو تصفه) وإذا caption كان هناك أي منها.

{
    "figures": [
      {
        "boundingRegions": [],
        "spans": [],
        "elements": [
          "/paragraphs/15",
          ...
        ],
        "caption": {
          "content": "Here is a figure with some text",
          "boundingRegions": [],
          "spans": [],
          "elements": [
            "/paragraphs/15"
          ]
        }
      }
    ]
}

الأقسام

يعد تحليل بنية المستندات الهرمية محوريا في تنظيم المستندات الشاملة وإدراكها ومعالجتها. يعد هذا النهج حيويا لتقسيم الوثائق الطويلة دلاليا لتعزيز الفهم وتسهيل التنقل وتحسين استرداد المعلومات. إن ظهور Retrieval Augmented Generation (RAG) في الذكاء الاصطناعي إنشاء المستندات يؤكد أهمية تحليل بنية المستند الهرمي. يدعم نموذج التخطيط المقاطع والأقسام الفرعية في الإخراج، والذي يحدد علاقة المقاطع والعنصر داخل كل مقطع. يتم الاحتفاظ بالبنية الهرمية في elements كل قسم.

{
    "sections": [
      {
        "spans": [],
        "elements": [
          "/paragraphs/0",
          "/sections/1",
          "/sections/2",
          "/sections/5"
        ]
      },
...
}

حقل النموذج (زوج قيمة المفتاح)

يتكون حقل النموذج من تسمية حقل (مفتاح) وقيمة. تسمية الحقل هي عموما سلسلة نصية وصفية تصف معنى الحقل. غالبا ما يظهر على يسار القيمة، على الرغم من أنه يمكن أن يظهر أيضا فوق القيمة أو تحتها. تحتوي قيمة الحقل على قيمة محتوى مثيل حقل معين. يمكن أن تتكون القيمة من كلمات وعلامات تحديد وعناصر محتوى أخرى. يمكن أن تكون فارغة أيضا لحقول النماذج غير المصفرة. يحتوي نوع خاص من حقل النموذج على قيمة علامة تحديد مع تسمية الحقل إلى يمينه. يعد حقل المستند مفهوما مشابها ولكنه متميز عن حقول النماذج العامة. يجب أن تظهر تسمية الحقل (المفتاح) في حقل نموذج عام في المستند. وبالتالي، لا يمكنه بشكل عام التقاط معلومات مثل اسم التاجر في إيصال. يتم تسمية حقول المستند ولا تستخرج مفتاحا. تعين حقول المستندات قيمة مستخرجة فقط إلى مفتاح مسمى. لمزيد من المعلومات، راجعحقول المستندات.

Screenshot of detected key-value pairs example.

عناصر النمط

نمط

يصف عنصر النمط نمط الخط الذي يجب تطبيقه على محتوى النص. يتم تحديد المحتوى عبر امتدادات إلى خاصية المحتوى العمومي. حاليا، نمط الخط المكتشف الوحيد هو ما إذا كان النص مكتوبا بخط اليد أم لا. عند إضافة أنماط أخرى، يمكن وصف النص عبر كائنات نمط متعددة غير متعارضة. للضغط، يتم وصف كل النصوص التي تشارك نمط الخط المحدد (بنفس الثقة) عبر كائن نمط واحد.

Screenshot of detected style handwritten text example.


{
    "confidence": 1,
    "spans": [
        {
            "offset": 2402,
            "length": 7
        }
    ],
    "isHandwritten": true
}

اللغة‬

يصف عنصر اللغة اللغة المكتشفة للمحتوى المحدد عبر امتدادات خاصية المحتوى العمومي. يتم تحديد اللغة المكتشفة عبر علامة لغة BCP-47 للإشارة إلى اللغة الأساسية والبرنامج النصي الاختياري ومعلومات المنطقة. على سبيل المثال، يتم التعرف على اللغة الإنجليزية والصينية التقليدية على أنها "en" وzh-Hant، على التوالي. يمكن أن تؤدي الاختلافات الإملائية الإقليمية للغة الإنجليزية في المملكة المتحدة إلى اكتشاف النص على أنه en-GB. لا تغطي عناصر اللغة النص بدون لغة مهيمنة (على سبيل المثال، الأرقام).

عناصر دلالية

إشعار

تنطبق العناصر الدلالية التي تمت مناقشتها هنا على النماذج التي تم إنشاؤها مسبقا ل Document Intelligence. قد ترجع النماذج المخصصة تمثيلات بيانات مختلفة. على سبيل المثال، قد يتم تمثيل التاريخ والوقت الذي تم إرجاعه بواسطة نموذج مخصص في نمط يختلف عن تنسيق ISO 8601 القياسي.

مستند

المستند عبارة عن وحدة كاملة دلاليا. يمكن أن يحتوي الملف على مستندات متعددة، مثل نماذج ضريبية متعددة داخل ملف PDF، أو إيصالات متعددة داخل صفحة واحدة. ومع ذلك، لا يؤثر ترتيب المستندات داخل الملف بشكل أساسي على المعلومات التي ينقلها.

إشعار

حاليا، لا يعتمد Document Intelligence مستندات متعددة على صفحة واحدة.

يصف نوع المستند المستندات التي تشترك في مجموعة شائعة من الحقول الدلالية، ممثلة بمخطط منظم، بغض النظر عن القالب أو التخطيط المرئي الخاص به. على سبيل المثال، يمكن أن تحتوي جميع المستندات من نوع "الإيصال" على اسم التاجر وتاريخ المعاملة وإجمالي المعاملات، على الرغم من أن إيصالات المطاعم والفنادق غالبا ما تختلف في المظهر.

يتضمن عنصر المستند قائمة الحقول التي تم التعرف عليها من بين الحقول المحددة بواسطة المخطط الدلالي لنوع المستند المكتشف:

  • يمكن استخراج حقل مستند أو استنتاجه. يتم تمثيل الحقول المستخرجة عبر المحتوى المستخرج وقيمتها التي تمت تسويتها اختياريا، إذا كان قابلا للتفسير.

  • لا يحتوي الحقل المستنتج على خاصية محتوى ويتم تمثيله فقط عبر قيمته.

  • لا يتضمن حقل الصفيف خاصية محتوى. يمكن تسلسل المحتوى من محتوى عناصر الصفيف.

  • يحتوي حقل الكائن على خاصية محتوى تحدد المحتوى الكامل الذي يمثل الكائن الذي يمكن أن يكون مجموعة فائقة من الحقول الفرعية المستخرجة.

يتم وصف المخطط الدلالي لنوع المستند عبر الحقول التي يحتوي عليها. يتم تحديد كل مخطط حقل عبر الاسم المتعارف عليه ونوع القيمة. تتضمن أنواع قيم الحقول أنواعا أساسية (مثل سلسلة) ومركبة (عنوان على سبيل المثال) وأنواع مصنفة (على سبيل المثال، صفيف، كائن). يحدد نوع قيمة الحقل أيضا التسوية الدلالية التي تم إجراؤها لتحويل المحتوى المكتشف إلى تمثيل تسوية. يمكن أن تكون التسوية تابعة للترجمة المحلية.

الأنواع الأساسية

نوع قيمة الحقل ‏‏الوصف تمثيل عادي مثال (محتوى الحقل -> القيمة)
سلسلة نص عادي مثل المحتوى اسم التاجر: "Contoso" → "Contoso"
date التاريخ ISO 8601 - YYYY-MM-DD تاريخ الفاتورة: "5/7/2022" → "2022-05-07"
time الوقت ISO 8601 - hh:mm:ss TransactionTime: "9:45 م" → "21:45:00"
phoneNumber رقم الهاتف E.164 - +{CountryCode}{SubscriberNumber} العمل الهاتف: "(800) 555-7676" → "+18005557676"
countryRegion البلد/المنطقة ISO 3166-1 alpha-3 CountryRegion: "الولايات المتحدة" → "USA"
علامة التحديد محدد "موقع" أو "غير موقع" AcceptEula: ☑ → "selected"
توقيع موقع مثل المحتوى LendeeSignature: {signature} → "signed"
رقم رقم الفاصلة العائمة رقم الفاصلة العائمة الكمية: "1.20" → 1.2
integer عدد صحيح رقم موقع 64 بت العدد: "123" → 123
boolean القيمة المنطقية خطأ صحيح IsStatutoryEmployee: ☑ → true

الأنواع المركبة

  • العملة: مبلغ العملة مع وحدة عملة اختيارية. قيمة، على سبيل المثال: InvoiceTotal: $123.45

    {
        "amount": 123.45,
        "currencySymbol": "$"
    }
    
  • العنوان: عنوان تم تحليله. على سبيل المثال: ShipToAddress: 123 Main St., Redmond, WA 98052

    {
    "poBox": "PO Box 12",
    "houseNumber": "123",
    "streetName": "Main St.",
    "city": "Redmond",
    "state": "WA",
    "postalCode": "98052",
    "countryRegion": "USA",
    "streetAddress": "123 Main St."
    }
    

الأنواع المنظمة

  • صفيف: قائمة الحقول من نفس النوع

    "Items": {
        "type": "array",
        "valueArray": [
    
        ]
    }
    
  • الكائن: قائمة مسماة من الحقول الفرعية من أنواع مختلفة محتملة

    "InvoiceTotal": {
      "type": "currency",
      "valueCurrency": {
          "currencySymbol": "$",
          "amount": 110
      },
      "content": "$110.00",
      "boundingRegions": [
          {
              "pageNumber": 1,
              "polygon": [
                  7.3842,
                  7.465,
                  7.9181,
                  7.465,
                  7.9181,
                  7.6089,
                  7.3842,
                  7.6089
              ]
          }
      ],
      "confidence": 0.945,
      "spans": [
          {
              "offset": 806,
              "length": 7
          }
      ]
    }
    

الخطوات التالية

  • حاول معالجة النماذج والمستندات الخاصة بك باستخدام Document Intelligence Studio.

  • أكمل التشغيل السريع ل Document Intelligence وابدأ في إنشاء تطبيق لمعالجة المستندات بلغة التطوير التي تختارها.