كيفية فهرسة نقاط النص العادي والملفات في البحث المعرفي Azure

ينطبق على: مفهرسات Blob، مفهرساتالملفات

عند استخدام مفهرس لاستخراج نص أو محتوى ملف قابل للبحث في النص الكامل، يمكنك تعيين وضع تحليل للحصول على نتائج فهرسة أفضل. بشكل افتراضي، يقوم المفهرس بتحليل المحتوى كجزء واحد من النص. ومع ذلك، إذا كانت جميع النقاط والملفات تحتوي على نص عادي في نفس الترميز، فيمكنك تحسين أداء الفهرسة text بشكل كبير باستخدام وضع التحليل.

تشمل التوصيات استخدام text التحليل ما يلي:

  • نوع الملف .txt
  • الملفات من أي نوع ، ولكن المحتوى نفسه عبارة عن نص (على سبيل المثال ، شفرة مصدر البرنامج و HTML و XML وما إلى ذلك). بالنسبة للملفات بلغة ترميز، ستظهر أي أحرف بناء جملة كنص ثابت.

تذكر أن جميع المفهرسين تسلسل إلى JSON. بشكل افتراضي ، سيتم فهرسة محتويات الملف النصي بأكمله داخل حقل واحد كبير ك "content": "<file-contents>". يتم تضمين أي سطر جديد وتعليمات الإرجاع في حقل المحتوى ويتم التعبير عنها على أنها \r\n\.

إذا كنت تريد نتيجة أكثر دقة، وإذا كان نوع الملف متوافقا، ففكر في الحلول التالية:

يتطلب الخيار الثالث لتقسيم المحتوى إلى أجزاء متعددة ميزات متقدمة في شكل إثراء الذكاء الاصطناعي. يضيف تحليلا يحدد ويعين أجزاء من الملف إلى حقول بحث مختلفة. قد تجد حلا كاملا أو جزئيا من خلال المهارات المضمنة ، ولكن الحل الأكثر احتمالا هو نموذج التعلم الذي يفهم المحتوى الخاص بك ، والذي يتم توضيحه في نموذج تعلم مخصص ، ملفوف بمهارة مخصصة.

إعداد فهرسة النص العادي

لفهرسة نقاط النص العادي، قم بإنشاء تعريف مفهرس أو تحديثه باستخدام خاصية التكوين parsingMode إلى text طلب إنشاء مفهرس :

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2020-06-30
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

بشكل افتراضي ، UTF-8 يفترض الترميز. لتحديد ترميز مختلف، استخدم خاصية التكوين encoding :

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}

طلب مثال

يتم تحديد أوضاع التحليل في تعريف المفهرس.

POST https://[service name].search.windows.net/indexers?api-version=2020-06-30
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

الخطوات التالية