Megosztás a következőn keresztül:


Egyszerű szöveges blobok és fájlok indexelése az Azure AI Searchben

A következőkre vonatkozik: Blobindexerek, Fájlindexelők

Ha egy indexelővel kereshető blobszöveget vagy fájltartalmat nyer ki teljes szöveges kereséshez, elemzési módot rendelhet hozzá a jobb indexelési eredmények eléréséhez. Alapértelmezés szerint az indexelő egy blob tulajdonságát content egyetlen szövegtömbként elemzi. Ha azonban minden blob és fájl egyszerű szöveget tartalmaz ugyanabban a kódolásban, az elemzési mód használatával jelentősen javíthatja az text indexelési teljesítményt.

Javaslatok elemzéshez text a következő jellemzők valamelyikét kell tartalmaznia:

  • A fájl típusa: .txt
  • A fájlok bármilyen típusúak, de maga a tartalom szöveg (például program forráskódja, HTML, XML stb.). A korrektúranyelven lévő fájlok esetében a szintaxis karakterek statikus szövegként jelennek meg.

Ne feledje, hogy minden indexelő szerializálva van a JSON-ra. Alapértelmezés szerint a teljes szövegfájl tartalma egy nagy mezőben van indexelve."content": "<file-contents>" Az új sor- és visszatérési utasítások be vannak ágyazva a tartalommezőbe, és a következőképpen vannak kifejezve \r\n\: .

Ha kifinomultabb vagy részletesebb eredményt szeretne, és ha a fájltípus kompatibilis, fontolja meg a következő megoldásokat:

A tartalom több részre való lebontásának alternatív harmadik lehetősége speciális funkciókat igényel AI-bővítés formájában. Elemzést ad hozzá, amely azonosítja és hozzárendeli a fájl egyes részeit a különböző keresési mezőkhöz. Előfordulhat, hogy egy teljes vagy részleges megoldást olyan beépített készségekkel talál, mint az entitásfelismerés vagy a kulcsszavak kinyerése, de valószínűbb megoldás lehet egy egyéni tanulási modell, amely egy egyéni képességbe csomagolva értelmezi a tartalmat.

Egyszerű szöveges indexelés beállítása

Egyszerű szöveges blobok indexeléséhez hozzon létre vagy frissítsen egy indexelődefiníciót az parsingMode Indexelő létrehozása kérelemhez textbeállított konfigurációs tulajdonsággal:

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Alapértelmezés szerint a UTF-8 kódolás feltételezve van. Másik kódolás megadásához használja a encoding konfigurációs tulajdonságot:

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}

Példa kérése

Az elemzési módok az indexelő definíciójában vannak megadva.

POST https://[service name].search.windows.net/indexers?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Következő lépések