Multimodális beágyazások (4.0-s verzió)

Cikk
02/22/2024

A multimodális beágyazás egy kép numerikus ábrázolásának létrehozásának folyamata, amely vektorformátumban rögzíti annak jellemzőit és jellemzőit. Ezek a vektorok úgy kódolják a kép tartalmát és környezetét, hogy kompatibilisek a szövegkereséssel ugyanazon a vektortéren.

A képlekérdezési rendszerek hagyományosan a képekből kinyert funkciókat használják, például tartalomfeliratokat, címkéket és képleírókat a képek összehasonlítására és hasonlóság alapján történő rangsorolására. A vektoros hasonlóság keresés azonban egyre népszerűbb a hagyományos kulcsszóalapú kereséssel szemben számos előnnyel, és a népszerű tartalomkeresési szolgáltatások alapvető összetevője.

Mi a különbség a vektoros keresés és a kulcsszóalapú keresés között?

A kulcsszókeresés az információk lekérésének legalapvetőbb és hagyományos módszere. Ebben a megközelítésben a keresőmotor megkeresi a felhasználó által a keresési lekérdezésben megadott kulcsszavak vagy kifejezések pontos egyezését, és összehasonlítja a képekhez megadott címkékkel és címkékkel. A keresőmotor ezután visszaadja azokat a képeket, amelyek tartalomcímkékként és képcímkékként tartalmazzák ezeket a kulcsszavakat. A kulcsszókeresés nagymértékben függ attól, hogy a felhasználó képes-e releváns és konkrét keresési kifejezéseket használni.

A vektorkeresés nagy méretű vektorgyűjteményeket keres a nagy méretű térben, hogy megkeresse az adott lekérdezéshez hasonló vektorokat. A vektoros keresés szemantikai hasonlóságokat keres a keresési lekérdezés kontextusának és jelentésének rögzítésével. Ez a megközelítés gyakran hatékonyabb, mint a hagyományos képlekérési technikák, mivel csökkentheti a keresési területet, és javíthatja az eredmények pontosságát.

Üzleti alkalmazások

A multimodális beágyazás különféle alkalmazásokkal rendelkezik különböző mezőkben, például:

Digitális eszközök kezelése: A multimodális beágyazással nagy mennyiségű digitális kép kezelhető, például múzeumokban, archívumokban vagy online galériákban. A felhasználók vizuális funkciók alapján kereshetnek képeket, és lekérhetik a feltételeknek megfelelő képeket.
Biztonság és megfigyelés: A vektorizálás biztonsági és felügyeleti rendszerekben használható képek keresésére meghatározott jellemzők vagy minták alapján, például személyek és objektumok nyomon követése vagy fenyegetésészlelés alapján.
Kriminalisztikai kép lekérése: A vektorizálás a törvényszéki vizsgálatokban a képek vizuális tartalma vagy metaadatai alapján történő keresésére használható, például kiberbűnözés esetén.
E-kereskedelem: A vektorizálás az online vásárlási alkalmazásokban használható hasonló termékek keresésére a jellemzőik vagy leírásuk alapján, vagy javaslatot tehet a korábbi vásárlások alapján.
Divat és tervezés: A vektorizálás a divatban és a tervezésben használható képek keresésére vizuális jellemzőik, például szín, minta vagy anyagminta alapján. Ez segíthet a tervezőknek vagy a kiskereskedőknek a hasonló termékek vagy trendek azonosításában.

Figyelemfelhívás

A multimodális beágyazás nem diagnosztikai jellemzők vagy betegségminták orvosi képeinek elemzésére szolgál. Ne használjon multimodális beágyazást orvosi célokra.

Mik azok a vektoros beágyazások?

A vektoros beágyazások a tartalmat – szöveget vagy képeket – valós számok vektoraként ábrázolják egy nagy dimenziós térben. A vektoros beágyazásokat gyakran nagy mennyiségű szöveges és vizuális adatból tanulják meg gépi tanulási algoritmusok, például neurális hálózatok használatával.

A vektor minden dimenziója a tartalom egy másik funkciójának vagy attribútumának felel meg, például szemantikai jelentésének, szintaktikai szerepének vagy kontextusának, amelyben gyakran megjelenik. Az Azure AI Visionben a kép- és szövegvektor-beágyazások 1024 dimenzióval rendelkeznek.

Fontos

A vektoros beágyazások csak akkor hasonlíthatók össze és illeszthetők össze, ha azonos modelltípusból származnak. Az egyik modell által vektorizált képek nem kereshetők egy másik modellen keresztül. A legújabb Image Analysis API két modellt kínál, 2023-04-15 amelyek számos nyelven támogatják a szöveges keresést, és az örökölt 2022-04-11 modellt, amely csak az angol nyelvet támogatja.

Hogyan működik?

A képlekérési folyamat fő lépései a multimodális beágyazások használatával.

Diagram of image retrieval process.

Képek és szöveg vektorizálása: a Multimodal embeddings API-k, VectorizeImage és VectorizeText funkcióvektorok kinyerésére használhatók képből vagy szövegből. Az API-k egyetlen funkcióvektort ad vissza, amely a teljes bemenetet jelöli.

Feljegyzés

A multimodális beágyazás nem végez emberi arcok biometrikus feldolgozását. Az arcfelismeréssel és -azonosítással kapcsolatban tekintse meg az Azure AI Face szolgáltatást.
Mérték hasonlósága: A vektorkeresési rendszerek általában távolságmetrikákat használnak, például koszinusz- vagy euklideszi távolságokat a vektorok összehasonlításához és a hasonlóság alapján történő rangsorolásukhoz. A Vision studio bemutatója a hasonlóság méréséhez koszinuszos távolságot használ.
Képek lekérése: Használja a keresési lekérdezéshez hasonló felső N vektorokat, és kérje le a képtárból az adott vektoroknak megfelelő képeket, hogy a végeredményt adja meg.

Relevancia pontszáma

A kép- és videolekérési szolgáltatások egy "relevancia" nevű mezőt ad vissza. A "relevancia" kifejezés a lekérdezések és a kép- vagy videokeretbeágyazások közötti hasonlósági pontszámot jelöli. A relevanciapont két részből áll:

A koszinusz hasonlósága (amely [0,1] tartományba esik) a lekérdezés és a kép- vagy videokeret-beágyazások között.
Metaadat-pontszám, amely tükrözi a lekérdezés és a képhez vagy videókerethez társított metaadatok közötti hasonlóságot.

Fontos

A relevanciapont jó mérték az eredmények, például képek vagy videoképek rangsorolásához egyetlen lekérdezés tekintetében. A relevancia pontszáma azonban nem hasonlítható össze pontosan a lekérdezések között. Ezért a relevanciapontot nem lehet könnyen megbízhatósági szintre képezni. Az sem lehetséges, hogy triviálisan hozzon létre egy küszöbérték-algoritmust, amely kiküszöböli az irreleváns eredményeket kizárólag a relevancia pontszáma alapján.

Bemeneti követelmények

Képbemenet

A kép fájlméretének 20 megabájtnál (MB) kisebbnek kell lennie
A kép méretének 10 x 10 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie

Szövegbevitel

A szöveges sztringnek (beleértve) egy szó és 70 szó között kell lennie.

Következő lépések

Engedélyezze a multimodális beágyazásokat a keresési szolgáltatáshoz, és kövesse a lépéseket a szöveghez és képekhez készült vektoros beágyazások létrehozásához.

Multimodális beágyazási API-k meghívása

Megosztás a következőn keresztül: