Multimodális beágyazások (4.0-s verzió)
A multimodális beágyazás egy kép numerikus ábrázolásának létrehozásának folyamata, amely vektorformátumban rögzíti annak jellemzőit és jellemzőit. Ezek a vektorok úgy kódolják a kép tartalmát és környezetét, hogy kompatibilisek a szövegkereséssel ugyanazon a vektortéren.
A képlekérdezési rendszerek hagyományosan a képekből kinyert funkciókat használják, például tartalomfeliratokat, címkéket és képleírókat a képek összehasonlítására és hasonlóság alapján történő rangsorolására. A vektoros hasonlóság keresés azonban egyre népszerűbb a hagyományos kulcsszóalapú kereséssel szemben számos előnnyel, és a népszerű tartalomkeresési szolgáltatások alapvető összetevője.
Mi a különbség a vektoros keresés és a kulcsszóalapú keresés között?
A kulcsszókeresés az információk lekérésének legalapvetőbb és hagyományos módszere. Ebben a megközelítésben a keresőmotor megkeresi a felhasználó által a keresési lekérdezésben megadott kulcsszavak vagy kifejezések pontos egyezését, és összehasonlítja a képekhez megadott címkékkel és címkékkel. A keresőmotor ezután visszaadja azokat a képeket, amelyek tartalomcímkékként és képcímkékként tartalmazzák ezeket a kulcsszavakat. A kulcsszókeresés nagymértékben függ attól, hogy a felhasználó képes-e releváns és konkrét keresési kifejezéseket használni.
A vektorkeresés nagy méretű vektorgyűjteményeket keres a nagy méretű térben, hogy megkeresse az adott lekérdezéshez hasonló vektorokat. A vektoros keresés szemantikai hasonlóságokat keres a keresési lekérdezés kontextusának és jelentésének rögzítésével. Ez a megközelítés gyakran hatékonyabb, mint a hagyományos képlekérési technikák, mivel csökkentheti a keresési területet, és javíthatja az eredmények pontosságát.
Üzleti alkalmazások
A multimodális beágyazás különféle alkalmazásokkal rendelkezik különböző mezőkben, például:
- Digitális eszközök kezelése: A multimodális beágyazással nagy mennyiségű digitális kép kezelhető, például múzeumokban, archívumokban vagy online galériákban. A felhasználók vizuális funkciók alapján kereshetnek képeket, és lekérhetik a feltételeknek megfelelő képeket.
- Biztonság és megfigyelés: A vektorizálás biztonsági és felügyeleti rendszerekben használható képek keresésére meghatározott jellemzők vagy minták alapján, például személyek és objektumok nyomon követése vagy fenyegetésészlelés alapján.
- Kriminalisztikai kép lekérése: A vektorizálás a törvényszéki vizsgálatokban a képek vizuális tartalma vagy metaadatai alapján történő keresésére használható, például kiberbűnözés esetén.
- E-kereskedelem: A vektorizálás az online vásárlási alkalmazásokban használható hasonló termékek keresésére a jellemzőik vagy leírásuk alapján, vagy javaslatot tehet a korábbi vásárlások alapján.
- Divat és tervezés: A vektorizálás a divatban és a tervezésben használható képek keresésére vizuális jellemzőik, például szín, minta vagy anyagminta alapján. Ez segíthet a tervezőknek vagy a kiskereskedőknek a hasonló termékek vagy trendek azonosításában.
Figyelemfelhívás
A multimodális beágyazás nem diagnosztikai jellemzők vagy betegségminták orvosi képeinek elemzésére szolgál. Ne használjon multimodális beágyazást orvosi célokra.
Mik azok a vektoros beágyazások?
A vektoros beágyazások a tartalmat – szöveget vagy képeket – valós számok vektoraként ábrázolják egy nagy dimenziós térben. A vektoros beágyazásokat gyakran nagy mennyiségű szöveges és vizuális adatból tanulják meg gépi tanulási algoritmusok, például neurális hálózatok használatával.
A vektor minden dimenziója a tartalom egy másik funkciójának vagy attribútumának felel meg, például szemantikai jelentésének, szintaktikai szerepének vagy kontextusának, amelyben gyakran megjelenik. Az Azure AI Visionben a kép- és szövegvektor-beágyazások 1024 dimenzióval rendelkeznek.
Fontos
A vektoros beágyazások csak akkor hasonlíthatók össze és illeszthetők össze, ha azonos modelltípusból származnak. Az egyik modell által vektorizált képek nem kereshetők egy másik modellen keresztül. A legújabb Image Analysis API két modellt kínál, 2023-04-15
amelyek számos nyelven támogatják a szöveges keresést, és az örökölt 2022-04-11
modellt, amely csak az angol nyelvet támogatja.
Hogyan működik?
A képlekérési folyamat fő lépései a multimodális beágyazások használatával.
Képek és szöveg vektorizálása: a Multimodal embeddings API-k, VectorizeImage és VectorizeText funkcióvektorok kinyerésére használhatók képből vagy szövegből. Az API-k egyetlen funkcióvektort ad vissza, amely a teljes bemenetet jelöli.
Feljegyzés
A multimodális beágyazás nem végez emberi arcok biometrikus feldolgozását. Az arcfelismeréssel és -azonosítással kapcsolatban tekintse meg az Azure AI Face szolgáltatást.
Mérték hasonlósága: A vektorkeresési rendszerek általában távolságmetrikákat használnak, például koszinusz- vagy euklideszi távolságokat a vektorok összehasonlításához és a hasonlóság alapján történő rangsorolásukhoz. A Vision studio bemutatója a hasonlóság méréséhez koszinuszos távolságot használ.
Képek lekérése: Használja a keresési lekérdezéshez hasonló felső N vektorokat, és kérje le a képtárból az adott vektoroknak megfelelő képeket, hogy a végeredményt adja meg.
Relevancia pontszáma
A kép- és videolekérési szolgáltatások egy "relevancia" nevű mezőt ad vissza. A "relevancia" kifejezés a lekérdezések és a kép- vagy videokeretbeágyazások közötti hasonlósági pontszámot jelöli. A relevanciapont két részből áll:
- A koszinusz hasonlósága (amely [0,1] tartományba esik) a lekérdezés és a kép- vagy videokeret-beágyazások között.
- Metaadat-pontszám, amely tükrözi a lekérdezés és a képhez vagy videókerethez társított metaadatok közötti hasonlóságot.
Fontos
A relevanciapont jó mérték az eredmények, például képek vagy videoképek rangsorolásához egyetlen lekérdezés tekintetében. A relevancia pontszáma azonban nem hasonlítható össze pontosan a lekérdezések között. Ezért a relevanciapontot nem lehet könnyen megbízhatósági szintre képezni. Az sem lehetséges, hogy triviálisan hozzon létre egy küszöbérték-algoritmust, amely kiküszöböli az irreleváns eredményeket kizárólag a relevancia pontszáma alapján.
Bemeneti követelmények
Képbemenet
- A kép fájlméretének 20 megabájtnál (MB) kisebbnek kell lennie
- A kép méretének 10 x 10 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie
Szövegbevitel
- A szöveges sztringnek (beleértve) egy szó és 70 szó között kell lennie.
Következő lépések
Engedélyezze a multimodális beágyazásokat a keresési szolgáltatáshoz, és kövesse a lépéseket a szöveghez és képekhez készült vektoros beágyazások létrehozásához.