什麼是影像分析?

Azure AI 視覺影像分析服務可以從影像中擷取各式各樣的視覺特徵。 例如,它可判斷影像是否包含成人內容、尋找特定的品牌或物件,或尋找人臉。

最新版的影像分析 4.0 現已正式推出,具有同步 OCR 和人員偵測等新功能。 建議您繼續進行此版本。

您可以透過用戶端連結庫 SDK 或使用直接呼叫 REST API 來使用影像分析。 請遵循快速入門以開始使用。

或者,您可以使用 Vision Studio 快速且輕鬆地在瀏覽器中試用影像分析的功能。

本檔案包含下列類型的文章:

  • 快速入門是逐步指示,可讓您呼叫服務,並在短時間內取得結果。
  • 操作 說明指南 包含以更具體或自定義方式使用服務的指示。
  • 念性文章 提供服務的功能和功能的深入說明。
  • 教學課程是較長的 指南,說明如何在更廣泛的商務解決方案中使用這項服務作為元件。

如需更為結構化的方法,請遵循影像分析的定型課程模組。

影像分析版本

重要

選取最符合您需求的影像分析 API 版本。

版本 可用的功能 建議
4.0 版 讀取文字、標題、密集標題、標籤、物件偵測、自訂影像分類/物件偵測、人員、智慧裁剪 更好的模型;如果支援您的使用案例,請使用 4.0 版。
3.2 版 標籤、物件、描述、品牌、臉部、影像類型、色彩配置、地標、名人、成人內容、智慧裁剪 更廣泛的功能;如果您的使用案例尚未在 4.0 版中受到支援,請使用 3.2 版

如果影像分析 4.0 API 支援您的使用案例,則建議您使用。 如果您的使用案例尚未受到 4.0 支援,請使用 3.2 版。

如果您想要進行影像標題描述,且您的視覺資源位於這些 Azure 區域之外,您也必須使用 3.2 版:美國東部、法國中部、南韓中部、北歐、東南亞、西歐,以及美國西部、東亞。 影像分析 4.0 中的影像標題功能僅支援這些 Azure 區域。 3.2 版中的影像標題適用於所有 Azure AI 視覺區域。

分析影像

您可以分析影像,以提供其視覺功能和特性的深入解析。 清單中的所有功能皆由分析影像 API 所提供。 請遵循快速入門以開始使用。

名稱 描述 概念頁面
模型自訂 (僅限 v4.0 預覽版) 您可以建立和定型自訂模型,以執行影像分類或物件偵測。 攜帶您自己的影像、使用自訂標籤進行標記,而影像分析會定型針對使用案例自訂的模型。 模型自定義
從影像 讀取文字 (僅限 v4.0) 影像分析 4.0 預覽版提供從影像擷取可閱讀文字的功能。 相較於非同步電腦視覺 3.2 Read API,新版本在整合的效能增強同步 API 中,提供熟悉的 Read OCR 引擎,可以在單一 API 呼叫中輕鬆取得 OCR 以及其他見解。 影像的 OCR
偵測影像 中的人員(僅限 v4.0) 影像分析 4.0 版提供偵測影像中出現人員的能力。 系統會傳回每個偵測到人員的周框方塊座標,以及信賴分數。 人員 偵測
產生影像標題 以一般人看得懂的標題,使用完整的句子產生整個影像的描述。 電腦視覺的演算法會根據在影像中識別出來的物件產生標題。

4.0 版影像標題模型是更進階的實作,可搭配更廣泛的輸入影像使用。 其僅適用於下列地理區域:美國東部、法國中部、南韓中部、北歐、東南亞、西歐、美國西部。

4.0 版也可讓您使用密集標題,這會產生影像中所找到個別物件的詳細標題。 API 會以像素為單位傳回影像中所找到每個物件的週框方塊,並加上標題。 您可以使用這項功能來產生影像個別部分的描述。

Photo of cows with a simple description on the right.
產生影像標題 (v3.2)
(v4.0)
偵測物件 對象偵測類似於標記,但 API 會針對套用的每個標記傳回周框方塊座標。 例如,如果影像包含狗、貓或人物,「偵測」作業就會列出這些物件及其在影像中的座標。 您可以使用這項功能來處理影像中對象之間的進一步關聯性。 它也可讓您知道影像中有多個相同標記的實例。

Photo of an office with a rectangle drawn around a laptop.
偵測物件 (v3.2)
(v4.0)
標記視覺效果功能 從一組數千個可辨識的物件、生活事物、風景和動作,識別並標記影像中的視覺特徵。 當標記模棱兩可或不常見的知識時,API 回應會提供提示來釐清標記的內容。 標記不限於主要主題,例如前景的人,但也包括設置(室內或戶外)、傢俱、工具、植物、動物、配件、小工具等。

Photo of a skateboarder with tags listed on the right.
標記視覺特徵 (v3.2)
(v4.0)
取得感興趣的區域/智慧作物 分析影像的內容,以傳回符合指定外觀比例之感興趣區域的座標。 電腦視覺 傳回區域的周框方塊座標,因此呼叫的應用程式可以視需要修改原始影像。

4.0 版智慧裁剪模型是更進階的實作,可搭配更廣泛的輸入影像使用。 其僅適用於下列地理區域:美國東部、法國中部、南韓中部、北歐、東南亞、西歐、美國西部。
產生縮圖 (v3.2)
(v4.0 預覽版)
偵測品牌 (僅限 v3.2) 從數千個全球標誌的資料庫識別影像或影片中的商業品牌。 例如,您可以使用這項功能來探索哪些品牌在社交媒體上最受歡迎,或在媒體產品放置中最為普遍。 偵測品牌
分類影像 (僅限 v3.2) 使用 類別分類 法搭配父/子繼承階層來識別和分類整個影像。 類別可以單獨使用,或與我們的新標記模型搭配使用。

目前,英文是標記和分類影像的唯一支持語言。
分類影像
偵測臉部 (僅限 v3.2) 偵測影像中的臉部,並提供每個偵測到臉部的相關信息。 Azure AI 視覺會針對每個偵測到的臉部傳回座標、矩形、性別和年齡。

您也可以針對這些用途使用專用 臉部 API 。 它提供更詳細的分析,例如臉部識別和姿勢偵測。
偵測臉部
偵測影像類型 (僅限 v3.2) 偵測影像的特性,例如影像是線條繪圖,或是影像是否為美工圖案的可能性。 偵測影像類型
偵測特定領域內容 (僅限 v3.2) 使用領域模型來偵測和識別影像中的領域特定內容,例如名人和地標。 例如,如果影像包含人物,Azure AI 視覺即可使用名人領域模型,判斷影像中偵測到的人物是否為知名人士。 偵測網域特定內容
偵測色彩配置 (僅限 v3.2) 分析影像內的色彩使用量。 Azure AI 視覺可以判斷影像是否為黑白或色彩,以及針對彩色影像,識別主要色彩和輔色。 偵測色彩配置
調節影像中的內容 (僅限 v3.2) 您可以使用 Azure AI 視覺在影像中偵測成人內容,並傳回不同分類的信賴分數。 標幟內容的臨界值可以在滑動尺規上設定,以配合您的喜好設定。 偵測成人內容

提示

您可以透過 Azure OpenAI 服務使用影像分析的讀取文字和物件偵測功能。 GPT-4 Turbo with Vision 模型可讓您與可分析您所共用影像的 AI 助理聊天,而視覺增強選項會使用影像分析來提供 AI 協助更多有關影像的詳細數據(可讀取的文字和物件位置)。 如需詳細資訊,請參閱 GPT-4 Turbo with Vision 快速入門

產品辨識 (僅限 v4.0 預覽版)

產品辨識 API 可讓您分析零售商店中的貨架相片。 您可以偵測產品是否存在,並取得其週框方塊座標。 將其與模型自訂搭配使用,定型模型以識別您的特定產品。 您也可以比較產品辨識結果與商店的貨架圖文件。

產品辨識

多模式內嵌 (僅限 v4.0)

多模式內嵌 API 可讓您 向量化 影像和文字查詢。 其會將影像轉換成多維度向量空間中的座標。 然後,傳入的文字查詢也可以轉換成向量,且影像可以根據語意接近程度來比對文字。 這可讓使用者使用文字搜尋一組影像,而不需要使用影像標記或其他元數據。 語意接近程度通常會在搜尋中產生更好的結果。

2024-02-01 API 包含多語種模型,可支援 102 種語言的文字搜尋。 原始的英文模型仍可供使用,但無法與相同搜尋索引中的新模型合併。 如果您使用僅限英文模型向量化文字和影像,則這些向量與多語系文字和影像向量不相容。

這些 API 僅適用於下列地理區域:美國東部、法國中部、南韓中部、北歐、東南亞、西歐、美國西部。

多模式內嵌

背景移除 (僅限 v4.0 預覽版)

影像分析 4.0 (預覽版) 可讓您移除影像的背景。 這項功能可以輸出透明背景所偵測前景物件的影像,或輸出顯示所偵測前景物件的不透明度的灰階 Alpha 遮罩影像。 背景移除

原始影像 已移除背景 透明圖層遮罩
Photo of a group of people using a tablet. Photo of a group of people using a tablet; background is transparent. Alpha matte of a group of people.

圖像需求

影像分析僅適用於符合下列需求的影像:

  • 影像必須以 JPEG、PNG、GIF、BMP、WEBP、ICO、TIFF 或 MPO 格式呈現
  • 映像的檔案大小必須小於 20 MB(MB)
  • 影像的維度必須大於 50 x 50 像素,且小於 16,000 x 16,000 像素

提示

多模式內嵌的輸入需求不同,並列在多模式內嵌中

資料隱私權和安全性

和所有 Azure AI 服務一樣,使用 Azure AI 視覺服務的開發人員應該要了解 Microsoft 對於客戶資料的政策。 請參閱 Microsoft 信任中心上的 Azure AI 服務頁面以深入了解。

下一步

遵循您慣用開發語言的快速入門指南,開始使用影像分析: