多模式內嵌 (4.0 版)

多模式內嵌是產生影像的數值表示,以向量格式擷取其特徵和特性的程式。 這些向量會以與相同向量空間上的文字搜尋相容的方式來編碼影像的內容和內容。

影像擷取系統傳統上會使用從影像擷取的功能,例如內容標籤、標籤和影像描述元,比較影像,並依相似度來排名影像。 不過,由於傳統關鍵詞型搜尋的一些優點,向量相似度搜尋越來越受歡迎,而且正成為熱門內容搜尋服務的重要元件。

關鍵詞搜尋是資訊擷取的最基本和傳統方法。 在該方法中,搜尋引擎會尋找使用者在搜尋查詢中輸入的關鍵詞或片語完全相符,並將其與影像提供的標籤和標籤進行比較。 然後,搜尋引擎會傳回影像,其中包含這些確切關鍵詞做為內容標籤和影像標籤。 關鍵詞搜尋嚴重依賴使用者使用相關和特定搜尋字詞的能力。

向量搜尋會在高維度空間中搜尋大量的向量集合,以尋找類似指定查詢的向量。 向量搜尋藉由擷取搜尋查詢的內容和意義來尋找語意相似之處。 這種方法通常比傳統影像擷取技術更有效率,因為它可以減少搜尋空間並改善結果的精確度。

商務應用程式

多模式內嵌在不同的欄位中有各種不同的應用程式,包括:

  • 數字資產管理:多模式內嵌可用來管理大型數位影像集合,例如博物館、檔案館或在線畫廊。 用戶可以根據視覺功能搜尋影像,並擷取符合其準則的影像。
  • 安全性和監視:向量化可用於安全性和監視系統,根據特定特徵或模式來搜尋影像,例如人員與對象追蹤或威脅偵測。
  • 鑑識影像擷取:向量化可用於鑑識調查,根據影像的視覺內容或元數據來搜尋影像,例如網路犯罪案例。
  • 電子商務:向量化可用於在線購物應用程式,根據其功能或描述搜尋類似產品,或根據先前購買提供建議。
  • 時尚和設計:向量化可用於時尚和設計,根據影像的視覺特徵來搜尋影像,例如色彩、圖樣或紋理。 這有助於設計師或零售商識別類似的產品或趨勢。

警告

多模式內嵌並非設計來分析診斷特徵或疾病模式的醫療影像。 請勿針對醫療目的使用多模式內嵌。

什麼是向量內嵌?

向量內嵌是一種在高維度空間中以實數向量表示內容的方式,即文字或影像。 使用機器學習演算法,例如神經網路,通常會從大量的文字和視覺數據學習向量內嵌。

向量的每個維度都會對應至內容的不同特徵或屬性,例如其語意意義、語法角色或通常出現的內容。 在 Azure AI 視覺中,影像和文字向量內嵌具有 1024 個維度。

重要

如果向量內嵌來自相同的模型類型,則只能進行比較和比對。 由一個模型向量化的影像無法透過不同的模型進行搜尋。 最新的影像分析 API 提供兩種模型:支援多種語言的文字搜尋版本 2023-04-15 ,以及僅支援英文的舊版 2022-04-11 模型。

如何運作?

以下是使用多模式內嵌的影像擷取程式的主要步驟。

Diagram of image retrieval process.

  1. 向量化影像和文字:多模式內嵌 API、 VectorizeImageVectorizeText,可用來分別從影像或文字中擷取特徵向量。 API 會傳回代表整個輸入的單一特徵向量。

    注意

    多模式內嵌不會對人臉進行任何生物特徵辨識處理。 如需臉部偵測和識別,請參閱 Azure AI 臉部服務

  2. 量值相似度:向量搜尋系統通常會使用距離計量,例如餘弦距離或歐幾里德距離,比較向量,並依相似度來排名。 Vision Studio 示範會使用餘弦距離來測量相似度。

  3. 擷取影像:使用與搜尋查詢類似的前 N 個向量,並從相片庫擷取對應到這些向量的影像,以提供作為最終結果。

相關性分數

影像和視訊擷取服務會傳回稱為「相關性」的字段。「相關性」一詞表示查詢與影像或影片畫面內嵌之間相似度分數的量值。 相關性分數是由兩個部分所組成:

  1. 查詢與影像或視訊畫面內嵌之間的餘弦相似性(落在 [0,1] 的範圍內。
  2. 元數據分數,反映查詢與與影像或視訊畫面相關聯之元數據之間的相似度。

重要

相關性分數是針對單一查詢排序結果的良好量值,例如影像或視訊畫面。 不過,在查詢之間無法準確地比較相關性分數。 因此,無法輕鬆地將相關性分數對應至信賴等級。 也不可能輕鬆建立臨界值演算法,只根據相關性分數來消除不相關的結果。

輸入需求

影像輸入

  • 映像的檔案大小必須小於 20 MB(MB)
  • 影像的維度必須大於 10 x 10 像素,且小於 16,000 x 16,000 像素

文字輸入

  • 文字字串必須介於一個單字和 70 個字之間。

下一步

為您的搜尋服務啟用多模式內嵌,並遵循步驟來產生文字和影像的向量內嵌。