Vysvětlení vkládání ve službě Azure OpenAI

Vkládání je speciální formát reprezentace dat, který můžou snadno používat modely a algoritmy strojového učení. Vkládání je informace hustá reprezentace sémantického významu části textu. Každé vložení je vektor čísel s plovoucí desetinou čárkou, aby vzdálenost mezi dvěma vkládáními ve vektorovém prostoru odpovídala sémantické podobnosti mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Vkládání hledání vektorů výkonu ve službě Azure Database, jako je Azure Cosmos DB pro virtuální jádro MongoDB, Azure SQL Database nebo Azure Database for PostgreSQL – flexibilní server.

Vkládání modelů

Pro konkrétní úlohu se vytvářejí různé modely vkládání Azure OpenAI:

  • Vkládání podobností je dobré při zachycení sémantické podobnosti mezi dvěma nebo více částmi textu.
  • Vkládání textu pomáhá měřit, jestli jsou dlouhé dokumenty relevantní pro krátký dotaz.
  • Vkládání kódu je užitečné pro vkládání fragmentů kódu a vkládání vyhledávacích dotazů přirozeného jazyka.

Vkládání usnadňuje strojové učení u velkých vstupů představujících slova zachycením sémantických podobností ve vektorovém prostoru. Proto můžete pomocí vkládání určit, jestli jsou dva bloky textu sémanticky související nebo podobné, a poskytnout skóre pro vyhodnocení podobnosti.

Kosinusová podobnost

Vkládání Azure OpenAI závisí na kosinusové podobnosti při výpočtu podobnosti mezi dokumenty a dotazem.

Z matematické perspektivy kosinus měří kosinus úhlu mezi dvěma vektory promítanými v multidimenzionálním prostoru. Toto měření je výhodné, protože pokud jsou dva dokumenty daleko od sebe vzhledem k euklidovské vzdálenosti, mohly by mezi nimi stále mít menší úhel, a proto vyšší kosinus podobnost. Další informace o kosinus podobnosti rovnic naleznete v tématu Kosinus podobnosti.

Alternativní metodou identifikace podobných dokumentů je spočítat počet běžných slov mezi dokumenty. Tento přístup se škáluje, protože rozšíření velikosti dokumentu pravděpodobně povede k většímu počtu zjištěných slov i mezi různorodými tématy. Z tohoto důvodu může kosinus podobnost nabídnout efektivnější alternativu.

Další kroky

  • Přečtěte si další informace o používání Azure OpenAI a vkládání k provádění hledání dokumentů pomocí našeho kurzu vkládání.
  • Ukládání vložených objektů a provádění vyhledávání vektorů (podobnosti) pomocí virtuálních jader Azure Cosmos DB pro MongoDB, Azure Cosmos DB for NoSQL, Azure SQL Database nebo Azure Database for PostgreSQL – Flexibilní server