كيفية فهرسة نقاط CSV والملفات باستخدام وضع تحليل النص المحدد
ينطبق على: مفهرسات Blob، مفهرساتالملفات
في Azure Cognitive Search، تدعم delimitedText كل من مفهرسات blob ومفهرسات الملفات وضع تحليل لملفات CSV يعامل كل سطر في CSV كمستند بحث منفصل. على سبيل المثال، بالنظر إلى النص التالي المحدد بفواصل، delimitedText سيؤدي ذلك إلى مستندين في فهرس البحث:
id, datePublished, tags
1, 2016-01-12, "azure-search,azure,cloud"
2, 2016-07-07, "cloud,mobile"
delimitedText بدون وضع التحليل ، سيتم التعامل مع محتويات ملف CSV بالكامل كمستند بحث واحد.
عندما تقوم بإنشاء مستندات بحث متعددة من نقطة واحدة، تأكد من مراجعة نقاط الفهرسة لإنتاج مستندات بحث متعددة لفهم كيفية عمل مهام مفاتيح المستندات. مفهرس blob قادر على إيجاد أو توليد قيم تحدد بشكل فريد كل مستند جديد. على وجه التحديد ، يمكنه إنشاء مؤقت AzureSearch_DocumentKey يتم إنشاؤه عند تحليل نقطة إلى أجزاء أصغر ، حيث يتم استخدام القيمة بعد ذلك كمفتاح لمستند البحث في الفهرس.
إعداد فهرسة CSV
لفهرسة نقاط CSV، قم بإنشاء تعريف مفهرس أو تحديثه delimitedText باستخدام وضع التحليل على طلب إنشاء مفهرس :
{
"name" : "my-csv-indexer",
... other indexer properties
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "firstLineContainsHeaders" : true } }
}
firstLineContainsHeaders يشير إلى أن السطر الأول (غير الفارغ) من كل نقطة يحتوي على رؤوس.
إذا كانت النقط لا تحتوي على سطر رأس أولي، فيجب تحديد الرؤوس في تكوين المفهرس:
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
يمكنك تخصيص حرف المحدد باستخدام إعداد التكوين delimitedTextDelimiter . على سبيل المثال:
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextDelimiter" : "|" } }
ملاحظة
حاليا ، يتم دعم ترميز UTF-8 فقط. إذا كنت بحاجة إلى دعم ترميزات أخرى ، فقم بالتصويت عليها على UserVoice.
هام
عند استخدام وضع تحليل النص المحدد، يفترض Azure Cognitive Search أن جميع النقاط في مصدر البيانات ستكون CSV. إذا كنت بحاجة إلى دعم مزيج من نقاط CSV وغير CSV في نفس مصدر البيانات ، فيرجى التصويت له على UserVoice.
طلب أمثلة
بتجميع كل هذا معا ، إليك أمثلة الحمولة الكاملة.
مصدر البيانات:
POST https://[service name].search.windows.net/datasources?api-version=2020-06-30
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-blob-datasource",
"type" : "azureblob",
"credentials" : { "connectionString" : "DefaultEndpointsProtocol=https;AccountName=<account name>;AccountKey=<account key>;" },
"container" : { "name" : "my-container", "query" : "<optional, my-folder>" }
}
مفهرس:
POST https://[service name].search.windows.net/indexers?api-version=2020-06-30
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-csv-indexer",
"dataSourceName" : "my-blob-datasource",
"targetIndexName" : "my-target-index",
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}