多模式內嵌（4.0 版）

多模式內嵌是產生影像的數值表示，以向量格式擷取其特徵和特性的程式。這些向量會以與相同向量空間上的文字搜尋相容的方式來編碼影像的內容和內容。

影像擷取系統傳統上會使用從影像擷取的功能，例如內容標籤、標籤和影像描述元，比較影像，並依相似度來排名影像。不過，由於傳統關鍵詞型搜尋的一些優點，向量相似度搜尋越來越受歡迎，而且正成為熱門內容搜尋服務的重要元件。

向量搜尋與關鍵詞型搜尋之間的差異為何？

關鍵詞搜尋是資訊擷取的最基本和傳統方法。在該方法中，搜尋引擎會尋找使用者在搜尋查詢中輸入的關鍵詞或片語完全相符，並將其與影像提供的標籤和標籤進行比較。然後，搜尋引擎會傳回影像，其中包含這些確切關鍵詞做為內容標籤和影像標籤。關鍵詞搜尋嚴重依賴使用者使用相關和特定搜尋字詞的能力。

向量搜尋會在高維度空間中搜尋大量的向量集合，以尋找類似指定查詢的向量。向量搜尋藉由擷取搜尋查詢的內容和意義來尋找語意相似之處。這種方法通常比傳統影像擷取技術更有效率，因為它可以減少搜尋空間並改善結果的精確度。

多模式內嵌在不同的欄位中有各種不同的應用程式，包括：

警告

多模式內嵌並非設計來分析診斷特徵或疾病模式的醫療影像。請勿針對醫療目的使用多模式內嵌。

向量內嵌是一種在高維度空間中以實數向量表示內容的方式，即文字或影像。使用機器學習演算法，例如神經網路，通常會從大量的文字和視覺數據學習向量內嵌。

向量的每個維度都會對應至內容的不同特徵或屬性，例如其語意意義、語法角色或通常出現的內容。在 Azure AI 視覺中，影像和文字向量內嵌具有 1024 個維度。

重要

如果向量內嵌來自相同的模型類型，則只能進行比較和比對。由一個模型向量化的影像無法透過不同的模型進行搜尋。最新的影像分析 API 提供兩種模型：支援多種語言的文字搜尋版本 2023-04-15 ，以及僅支援英文的舊版 2022-04-11 模型。

以下是使用多模式內嵌的影像擷取程式的主要步驟。

Diagram of image retrieval process.

向量化影像和文字：多模式內嵌 API、 VectorizeImage 和 VectorizeText，可用來分別從影像或文字中擷取特徵向量。 API 會傳回代表整個輸入的單一特徵向量。

注意

多模式內嵌不會對人臉進行任何生物特徵辨識處理。如需臉部偵測和識別，請參閱 Azure AI 臉部服務。
量值相似度：向量搜尋系統通常會使用距離計量，例如餘弦距離或歐幾里德距離，比較向量，並依相似度來排名。 Vision Studio 示範會使用餘弦距離來測量相似度。
擷取影像：使用與搜尋查詢類似的前 N 個向量，並從相片庫擷取對應到這些向量的影像，以提供作為最終結果。

影像輸入

文字輸入

為您的搜尋服務啟用多模式內嵌，並遵循步驟來產生文字和影像的向量內嵌。