Multimodální vkládání (verze 4.0)

Článek
02/22/2024

Multimodální vkládání je proces generování číselné reprezentace obrázku, který zachycuje jeho vlastnosti a vlastnosti ve formátu vektoru. Tyto vektory kódují obsah a kontext obrázku způsobem, který je kompatibilní s vyhledáváním textu ve stejném vektorovém prostoru.

Systémy načítání obrázků tradičně používaly funkce extrahované z obrázků, jako jsou popisky obsahu, značky a popisovače obrázků, k porovnání obrázků a jejich pořadí podle podobnosti. Hledání vektorové podobnosti ale získává větší popularitu díky řadě výhod oproti tradičnímu vyhledávání založenému na klíčových slovech a stává se důležitou součástí oblíbených vyhledávacích služeb obsahu.

Jaký je rozdíl mezi vektorovým vyhledáváním a vyhledáváním na základě klíčových slov?

Hledání klíčových slov je nejzákladnější a tradiční metoda načítání informací. V tomto přístupu vyhledávací web hledá přesnou shodu klíčových slov nebo frází zadaných uživatelem ve vyhledávacím dotazu a porovná ho s popisky a značkami zadanými pro obrázky. Vyhledávací web pak vrátí obrázky, které obsahují přesná klíčová slova jako značky obsahu a popisky obrázků. Vyhledávání klíčových slov spoléhá silně na schopnost uživatele používat relevantní a konkrétní hledané termíny.

Vektorové vyhledávání vyhledává velké kolekce vektorů ve vysokodimenzionálním prostoru a hledá vektory podobné danému dotazu. Vektorové vyhledávání hledá sémantické podobnosti zachycením kontextu a významu vyhledávacího dotazu. Tento přístup je často efektivnější než tradiční techniky načítání obrázků, protože může snížit prostor hledání a zlepšit přesnost výsledků.

Podnikové aplikace

Vícemodální vkládání má celou řadu aplikací v různých polích, mezi které patří:

Správa digitálních prostředků: Multimodální vkládání lze použít ke správě rozsáhlých kolekcí digitálních obrázků, jako jsou muzea, archivy nebo online galerie. Uživatelé můžou hledat obrázky na základě vizuálních funkcí a načítat obrázky, které odpovídají jejich kritériím.
Zabezpečení a dohled: Vektorizace se dá použít v systémech zabezpečení a dohledu k vyhledávání obrázků na základě konkrétních funkcí nebo vzorů, jako je sledování osob a objektů nebo detekce hrozeb.
Forenzní načítání obrázků: Vektorizace se dá použít při forenzních vyšetřováních k hledání obrázků na základě jejich vizuálního obsahu nebo metadat, například v případech kyberzločinců.
Elektronické obchodování: Vektorizace se dá použít v online nákupních aplikacích k vyhledání podobných produktů na základě jejich funkcí nebo popisu nebo poskytnutí doporučení na základě předchozích nákupů.
Móda a design: Vektorizace se dá použít v módě a designu k hledání obrázků na základě jejich vizuálních vlastností, jako je barva, vzor nebo textura. To může návrhářům nebo prodejcům pomoct identifikovat podobné produkty nebo trendy.

Upozornění

Multimodální vkládání není určeno k analýze lékařských obrázků pro diagnostické funkce nebo vzory onemocnění. Nepoužívejte multimodální vkládání pro lékařské účely.

Co jsou vektorové vkládání?

Vektorové vkládání představují způsob, jak reprezentovat obsah ( text nebo obrázky) jako vektory skutečných čísel ve vysoce dimenzionálním prostoru. Vektorové vkládání se často učí z velkých objemů textových a vizuálních dat pomocí algoritmů strojového učení, jako jsou neurální sítě.

Každá dimenze vektoru odpovídá jiné funkci nebo atributu obsahu, jako je sémantický význam, syntaktická role nebo kontext, ve kterém se běžně vyskytuje. V Azure AI Vision mají vložené obrázky a vektory textu 1024 dimenzí.

Důležité

Vektorové vkládání lze porovnávat a porovnávat pouze v případě, že pocházejí ze stejného typu modelu. Obrázky vektorizované jedním modelem nebudou prohledávatelné prostřednictvím jiného modelu. Nejnovější rozhraní API pro analýzu obrázků nabízí dva modely, 2023-04-15 které podporují vyhledávání textu v mnoha jazycích, a starší 2022-04-11 model, který podporuje pouze angličtinu.

Jak to funguje?

Následující kroky jsou hlavními kroky procesu načítání obrázků pomocí multimodálních vkládání.

Diagram of image retrieval process.

Vektorizace obrázků a textu: Multimodální vložené rozhraní API, VectorizeImage a VectorizeText lze použít k extrakci vektorů funkcí z obrázku nebo textu. Rozhraní API vrací jeden vektor funkce představující celý vstup.

Poznámka:

Multimodální vkládání neprovádí biometrické zpracování lidských tváří. Informace o detekci a identifikaci tváří najdete ve službě Azure AI Face.
Podobnost měření: Systémy vektorového vyhledávání obvykle používají metriky vzdálenosti, jako je kosinus nebo euklidská vzdálenost, k porovnání vektorů a jejich řazení podle podobnosti. Ukázka studia Vision používá kosinus vzdálenost k měření podobnosti.
Načíst obrázky: Použijte horní N vektory podobné vyhledávacímu dotazu a načtěte obrázky odpovídající těmto vektorům z vaší knihovny fotek, abyste získali konečný výsledek.

Skóre relevance

Služby načítání obrázků a videí vrací pole s názvem "relevance". Termín "relevance" označuje míru podobnosti skóre mezi dotazem a snímkem videa nebo snímky videa. Skóre relevance se skládá ze dvou částí:

Kosinus podobnost (která spadá do rozsahu [0,1]) mezi dotazem a snímkem obrázku nebo rámečkem videa.
Skóre metadat, které odráží podobnost mezi dotazem a metadaty přidruženými k obrázku nebo rámečku videa.

Důležité

Skóre relevance je dobrou mírou pro řazení výsledků, jako jsou obrázky nebo snímky videa s ohledem na jeden dotaz. Skóre relevance ale nelze přesně porovnat napříč dotazy. Proto není možné snadno mapovat skóre relevance na úroveň spolehlivosti. Není také možné triviálně vytvořit algoritmus prahové hodnoty, který eliminuje irelevantní výsledky pouze na základě skóre relevance.

Požadavky na vstup

Vstup obrázku

Velikost souboru obrázku musí být menší než 20 megabajtů (MB).
Rozměry obrázku musí být větší než 10 x 10 pixelů a menší než 16 000 × 16 000 pixelů.

Textové zadání

Textový řetězec musí být mezi (včetně) jednoho slova a 70 slov.

Další kroky

Povolte vícemodální vkládání pro vyhledávací službu a postupujte podle pokynů k vygenerování vektorových vkládání textu a obrázků.

Volání rozhraní API multimodal embeddings