استدعاء واجهة برمجة تطبيقات قراءة Azure الذكاء الاصطناعي Vision 3.2 GA

يوضح لك هذا الدليل كيفية استدعاء v3.2 GA Read API لاستخراج النص من الصور. ستتعلم الطرق المختلفة التي يمكنك من خلالها تكوين سلوك واجهة برمجة التطبيقات هذه لتلبية احتياجاتك. يفترض هذا الدليل أنك قمت بالفعل بإنشاء مورد Vision وحصلت على عنوان URL للمفتاح ونقطة النهاية. إذا لم تكن قد فعلت ذلك، فاتبع التشغيل السريع للبدء.

إصدارات التعرف البصري على الحروف (قراءة)

هام

حدد إصدار Read الذي يناسب متطلباتك بشكل أفضل.

إدخال الأمثلة قراءة الإصدار الميزة
الصور: صور عامة في البرية الملصقات وعلامات الشوارع والملصقات التعرف البصري على الحروف للصور (الإصدار 4.0) تم تحسينه للصور العامة غير المستندية باستخدام واجهة برمجة تطبيقات متزامنة محسنة الأداء تسهل تضمين التعرف البصري على الحروف (OCR) في سيناريوهات تجربة المستخدم.
المستندات: رقمية وممسوحة ضوئيا، بما في ذلك الصور الكتب والمقالات والتقارير نموذج قراءة تحليل معلومات المستند تم تحسينه للمستندات الرقمية والممسوحة ضوئيا والمثقفة بالنص باستخدام واجهة برمجة تطبيقات غير متزامنة للمساعدة في أتمتة معالجة المستندات الذكية على نطاق واسع.

نبذة عن Azure الذكاء الاصطناعي Vision v3.2 GA Read

هل تبحث عن أحدث إصدار من Azure الذكاء الاصطناعي Vision v3.2 GA Read؟ تعد جميع تحسينات التعرف البصري على الحروف للقراءة المستقبلية جزءا من الخدمتين المذكورتين سابقا. لا توجد تحديثات أخرى على Azure الذكاء الاصطناعي Vision v3.2. لمزيد من المعلومات، راجع استدعاء واجهة برمجة تطبيقات قراءة Azure الذكاء الاصطناعي Vision 3.2 GA و Quickstart: Azure الذكاء الاصطناعي Vision v3.2 GA Read.

متطلبات الإدخال

يأخذ استدعاء واجهة برمجة تطبيقات القراءة الصور والمستندات كمدخل لها. له المتطلبات الآتية:

  • تنسيقات الملفات المدعومة: JPEG وPNG وBMP وPDF وTIFF
  • بالنسبة لملفات PDF وTIFF، تتم معالجة ما يصل إلى 2000 صفحة (أول صفحتين فقط للطبقة المجانية).
  • يجب أن يكون حجم ملف الصور أقل من 500 ميغابايت (4 ميغابايت للطبقة المجانية) وأبعاد 50 × 50 بكسل على الأقل و10000 × 10000 بكسل على الأكثر. لا تحتوي ملفات PDF على حد للحجم.
  • الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768. هذا يتوافق مع حوالي 8 نقاط لنص الخط بمعدل 150 نقطة في البوصة.

إشعار

لا تحتاج إلى قص صورة لخطوط النص. أرسل الصورة بأكملها إلى Read API وستتعرف على جميع النصوص.

تحديد كيفية معالجة البيانات (اختياري)

حدد نموذج التعرف الضوئي على الحروف OCR

بشكل افتراضي، تستخدم الخدمة أحدث نموذج متاح بشكل عام (GA) لاستخراج النص. بدءاً من Read 3.2، تتيح معلمة model-version الاختيار بين نماذج GA ونماذج المعاينة لإصدار معين من واجهة برمجة التطبيقات. سيتم استخدام النموذج الذي تحدده لاستخراج النص باستخدام عملية القراءة.

عند استخدام عملية القراءة، استخدم القيم التالية للمعلمة الاختيارية model-version.

القيمة‬ النموذج المستخدم
غير مزود أحدث نموذج GA
الأحدث أحدث نموذج GA
2022-04-30 أحدث نموذج GA. 164 لغة للنص المطبوع و9 لغات للنص المكتوب بخط اليد بالإضافة إلى العديد من التحسينات على الجودة والأداء
2022-01-30-preview يضيف نموذج المعاينة دعم نص الطباعة للغة الهندية والعربية واللغات ذات الصلة. بالنسبة للنص المكتوب بخط اليد، يضيف دعما لليابانية والكورية.
2021-09-30-preview يضيف نموذج المعاينة دعم نص الطباعة للغات الروسية واللغات السيريلية الأخرى. بالنسبة للنص المكتوب بخط اليد، يضيف دعما للغة الصينية المبسطة والفرنسية والألمانية والإيطالية والبرتغالية والإسبانية.
2021-04-12 موديل 2021 GA

لغة الإدخال

بشكل افتراضي، تستخرج الخدمة كل النصوص من صورك أو مستنداتك بما في ذلك اللغات المختلطة. تحتوي عملية القراءة على معلمة طلب اختيارية للغة. قم بتوفير تعليمة برمجية لغة فقط إذا كنت تريد فرض معالجة المستند على أنه تلك اللغة المحددة. وإلا، قد ترجع الخدمة نصًا غير كامل وغير صحيح.

إخراج ترتيب القراءة الطبيعي (اللغات اللاتينية فقط)

بشكل افتراضي، تقوم الخدمة بإخراج أسطر النص بالترتيب من اليسار إلى اليمين. اختيارياً، باستخدام معلمة الطلب readingOrder، استخدم natural لإخراج أمر قراءة أكثر ملاءمةً للإنسان كما هو موضح في المثال التالي. هذه الميزة مدعومة فقط للغات اللاتينية.

OCR Reading order example

تحديد صفحة (صفحات) أو نطاق (نطاقات) صفحات لاستخراج النص

بشكل افتراضي، تستخرج الخدمة النص من كل الصفحات في المستندات. اختيارياً، استخدم معلمة الطلب pages لتحديد أرقام الصفحات أو نطاقات الصفحات لاستخراج النص من تلك الصفحات فقط. يوضح المثال التالي مستنداً من 10 صفحات، مع نص مستخرج لكلتا الحالتين - جميع الصفحات (1-10) والصفحات المحددة (3-6).

Selected pages output

إرسال البيانات إلى الخدمة

يمكنك إرسال صورة محلية أو صورة بعيدة إلى واجهة برمجة التطبيقات للقراءة. بالنسبة للصورة المحلية، يمكنك وضع بيانات الصورة الثنائية في نص طلب HTTP. بالنسبة للصورة عن بُعد، يمكنك تحديد عنوان URL للصورة عن طريق تنسيق نص الطلب كما يلي: {"url":"http://example.com/images/test.jpg"}.

تأخذ استدعاء القراءة الخاصة بـ Read API للقراءة صورة أو مستند PDF كمدخلات وتستخرج النص بشكل غير متزامن.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

تعود المكالمة مع حقل رأس استجابة يسمى Operation-Location. قيمة Operation-Location هي عنوان URL يحتوي على معرف العملية لاستخدامه في الخطوة التالية.

رأس الاستجابة مثال للقيمة
موقع-العملية https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f

إشعار

الفواتير

تتضمن صفحة تسعير Azure الذكاء الاصطناعي Vision مستوى التسعير للقراءة. كل صورة أو صفحة تم تحليلها هي عملية واحدة. إذا اتصلت بالعملية باستخدام مستند PDF أو TIFF يحتوي على 100 صفحة، فإن عملية القراءة ستحسبها على أنها 100 عملية وستتم محاسبتك على 100 عملية. إذا أجريت 50 مكالمة للعملية وقدمت كل مكالمة مستنداً يحتوي على 100 صفحة، فستتم محاسبتك على 50 × 100 = 5000 عملية.

الحصول على نتائج من الخدمة

الخطوة الثانية هي استدعاء عملية الحصول على نتائج القراءة. تأخذ هذه العملية كإدخال معرّف العملية الذي تم إنشاؤه بواسطة عملية القراءة.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

تقوم بإرجاع استجابة JSON التي تحتوي على حقل status بالقيم المحتملة التالية.

القيمة‬ المعنى
notStarted العملية لم تبدأ.
running العملية قيد المعالجة.
failed فشلت العملية.
succeeded نجحت العملية.

يمكنك استدعاء هذه العملية بشكل متكرر حتى تعود بقيمة الناجحة. استخدم فاصل زمني من 1 إلى 2 ثانية لتجنب تجاوز معدل الطلبات في الثانية (RPS).

إشعار

تحد الطبقة المجانية من معدل الطلب إلى 20 مكالمة في الدقيقة. يسمح المستوى المدفوع ب 30 طلبا في الثانية (RPS) يمكن زيادتها عند الطلب. لاحظ معرف مورد Azure والمنطقة، وافتح بطاقة دعم Azure أو اتصل بفريق حسابك لطلب معدل طلب أعلى في الثانية (RPS).

عندما يحتوي حقل status على القيمة succeeded، فإن استجابة JSON تحتوي على محتوى النص المستخرج من صورتك أو مستندك. تحافظ استجابة JSON على مجموعات السطر الأصلية للكلمات التي تم التعرف عليها. يتضمن سطور النص المستخرجة وإحداثيات المربع المحيط بها. يتضمن كل سطر نصي جميع الكلمات المستخرجة بإحداثياتها ودرجات الثقة.

إشعار

يتم تشفير البيانات المرسلة إلى عملية القراءة مؤقتا وتخزينها في حالة الراحة لمدة قصيرة، ثم يتم حذفها. يتيح ذلك لتطبيقاتك استرداد النص المستخرج كجزء من استجابة الخدمة.

عينة إخراج JSON

اطلع على المثال التالي لاستجابة JSON الناجحة:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

التصنيف المكتوب بخط اليد لخطوط النص (اللغات اللاتينية فقط)

تتضمن الاستجابة تصنيفا حول ما إذا كان كل سطر من النص في نمط مكتوب بخط اليد أم لا، إلى جانب درجة الثقة. تتوفر هذه الميزة للغات اللاتينية فقط. يوضح المثال التالي التصنيف المكتوب بخط اليد للنص في الصورة.

OCR handwriting classification example

الخطوات التالية