Omówienie osadzania w usłudze Azure OpenAI Service

Osadzanie to specjalny format reprezentacji danych, z którego mogą łatwo korzystać modele i algorytmy uczenia maszynowego. Osadzanie to gęsta reprezentacja semantycznego znaczenia tekstu. Każde osadzanie jest wektorem liczb zmiennoprzecinkowych, tak aby odległość między dwoma osadzaniami w przestrzeni wektorowej została skorelowana z podobieństwem semantycznym między dwoma danymi wejściowymi w oryginalnym formacie. Jeśli na przykład dwa teksty są podobne, ich reprezentacje wektorowe również powinny być podobne. Osadzanie wyszukiwania wektorów zasilania w bazach danych platformy Azure, takich jak Azure Cosmos DB for MongoDB vCore , Azure SQL Database lub Azure Database for PostgreSQL — serwer elastyczny.

Osadzanie modeli

Różne modele osadzania usługi Azure OpenAI są tworzone, aby być dobrym w konkretnym zadaniu:

  • Osadzanie podobieństwa jest dobre w przechwytywaniu podobieństwa semantycznego między co najmniej dwoma fragmentami tekstu.
  • Osadzanie wyszukiwania tekstu pomaga zmierzyć, czy długie dokumenty są istotne dla krótkiego zapytania.
  • Osadzanie wyszukiwania kodu jest przydatne w przypadku osadzania fragmentów kodu i osadzania zapytań wyszukiwania języka naturalnego.

Osadzanie ułatwia uczenie maszynowe na dużych danych wejściowych reprezentujących wyrazy, przechwytując semantyczne podobieństwa w przestrzeni wektorowej. W związku z tym można użyć osadzania, aby określić, czy dwa fragmenty tekstu są semantycznie powiązane lub podobne, i zapewnić ocenę w celu oceny podobieństwa.

Podobieństwo cosinusowe

Osadzanie w usłudze Azure OpenAI polega na podobieństwie cosinus do obliczania podobieństwa między dokumentami a zapytaniem.

Z perspektywy matematycznej podobieństwo cosinus mierzy cosinus kąta między dwoma wektorami przewidywanymi w przestrzeni wielowymiarowej. Ta miara jest korzystna, ponieważ jeśli dwa dokumenty są dalekie od odległości euklidesowej ze względu na rozmiar, nadal mogą mieć mniejszy kąt między nimi, a tym samym wyższe podobieństwo cosinusu. Aby uzyskać więcej informacji na temat równań podobieństwa cosinus, zobacz Podobieństwo cosinus.

Alternatywną metodą identyfikowania podobnych dokumentów jest zliczanie liczby typowych słów między dokumentami. Takie podejście nie jest skalowane, ponieważ rozszerzenie rozmiaru dokumentu może prowadzić do większej liczby typowych słów wykrytych nawet wśród różnych tematów. Z tego powodu podobieństwo cosinus może zaoferować bardziej skuteczną alternatywę.

Następne kroki