什麼是影像分析?
Azure AI 視覺影像分析服務可以從影像中擷取各式各樣的視覺特徵。 例如,它可判斷影像是否包含成人內容、尋找特定的品牌或物件,或尋找人臉。
最新版的影像分析 4.0 現已正式推出,具有同步 OCR 和人員偵測等新功能。 建議您繼續進行此版本。
您可以透過用戶端連結庫 SDK 或使用直接呼叫 REST API 來使用影像分析。 請遵循快速入門以開始使用。
或者,您可以使用 Vision Studio 快速且輕鬆地在瀏覽器中試用影像分析的功能。
本檔案包含下列類型的文章:
- 快速入門是逐步指示,可讓您呼叫服務,並在短時間內取得結果。
- 操作 說明指南 包含以更具體或自定義方式使用服務的指示。
- 概 念性文章 提供服務的功能和功能的深入說明。
- 本 教學課程是較長的 指南,說明如何在更廣泛的商務解決方案中使用這項服務作為元件。
如需更為結構化的方法,請遵循影像分析的定型課程模組。
影像分析版本
重要
選取最符合您需求的影像分析 API 版本。
版本 | 可用的功能 | 建議 |
---|---|---|
4.0 版 | 讀取文字、標題、密集標題、標籤、物件偵測、自訂影像分類/物件偵測、人員、智慧裁剪 | 更好的模型;如果支援您的使用案例,請使用 4.0 版。 |
3.2 版 | 標籤、物件、描述、品牌、臉部、影像類型、色彩配置、地標、名人、成人內容、智慧裁剪 | 更廣泛的功能;如果您的使用案例尚未在 4.0 版中受到支援,請使用 3.2 版 |
如果影像分析 4.0 API 支援您的使用案例,則建議您使用。 如果您的使用案例尚未受到 4.0 支援,請使用 3.2 版。
如果您想要進行影像標題描述,且您的視覺資源位於這些 Azure 區域之外,您也必須使用 3.2 版:美國東部、法國中部、南韓中部、北歐、東南亞、西歐,以及美國西部、東亞。 影像分析 4.0 中的影像標題功能僅支援這些 Azure 區域。 3.2 版中的影像標題適用於所有 Azure AI 視覺區域。
分析影像
您可以分析影像,以提供其視覺功能和特性的深入解析。 清單中的所有功能皆由分析影像 API 所提供。 請遵循快速入門以開始使用。
名稱 | 描述 | 概念頁面 |
---|---|---|
模型自訂 (僅限 v4.0 預覽版) | 您可以建立和定型自訂模型,以執行影像分類或物件偵測。 攜帶您自己的影像、使用自訂標籤進行標記,而影像分析會定型針對使用案例自訂的模型。 | 模型自定義 |
從影像 讀取文字 (僅限 v4.0) | 影像分析 4.0 預覽版提供從影像擷取可閱讀文字的功能。 相較於非同步電腦視覺 3.2 Read API,新版本在整合的效能增強同步 API 中,提供熟悉的 Read OCR 引擎,可以在單一 API 呼叫中輕鬆取得 OCR 以及其他見解。 | 影像的 OCR |
偵測影像 中的人員(僅限 v4.0) | 影像分析 4.0 版提供偵測影像中出現人員的能力。 系統會傳回每個偵測到人員的周框方塊座標,以及信賴分數。 | 人員 偵測 |
產生影像標題 | 以一般人看得懂的標題,使用完整的句子產生整個影像的描述。 電腦視覺的演算法會根據在影像中識別出來的物件產生標題。 4.0 版影像標題模型是更進階的實作,可搭配更廣泛的輸入影像使用。 其僅適用於下列地理區域:美國東部、法國中部、南韓中部、北歐、東南亞、西歐、美國西部。 4.0 版也可讓您使用密集標題,這會產生影像中所找到個別物件的詳細標題。 API 會以像素為單位傳回影像中所找到每個物件的週框方塊,並加上標題。 您可以使用這項功能來產生影像個別部分的描述。 |
產生影像標題 (v3.2) (v4.0) |
偵測物件 | 對象偵測類似於標記,但 API 會針對套用的每個標記傳回周框方塊座標。 例如,如果影像包含狗、貓或人物,「偵測」作業就會列出這些物件及其在影像中的座標。 您可以使用這項功能來處理影像中對象之間的進一步關聯性。 它也可讓您知道影像中有多個相同標記的實例。 |
偵測物件 (v3.2) (v4.0) |
標記視覺效果功能 | 從一組數千個可辨識的物件、生活事物、風景和動作,識別並標記影像中的視覺特徵。 當標記模棱兩可或不常見的知識時,API 回應會提供提示來釐清標記的內容。 標記不限於主要主題,例如前景的人,但也包括設置(室內或戶外)、傢俱、工具、植物、動物、配件、小工具等。 |
標記視覺特徵 (v3.2) (v4.0) |
取得感興趣的區域/智慧作物 | 分析影像的內容,以傳回符合指定外觀比例之感興趣區域的座標。 電腦視覺 傳回區域的周框方塊座標,因此呼叫的應用程式可以視需要修改原始影像。 4.0 版智慧裁剪模型是更進階的實作,可搭配更廣泛的輸入影像使用。 其僅適用於下列地理區域:美國東部、法國中部、南韓中部、北歐、東南亞、西歐、美國西部。 |
產生縮圖 (v3.2) (v4.0 預覽版) |
偵測品牌 (僅限 v3.2) | 從數千個全球標誌的資料庫識別影像或影片中的商業品牌。 例如,您可以使用這項功能來探索哪些品牌在社交媒體上最受歡迎,或在媒體產品放置中最為普遍。 | 偵測品牌 |
分類影像 (僅限 v3.2) | 使用 類別分類 法搭配父/子繼承階層來識別和分類整個影像。 類別可以單獨使用,或與我們的新標記模型搭配使用。 目前,英文是標記和分類影像的唯一支持語言。 |
分類影像 |
偵測臉部 (僅限 v3.2) | 偵測影像中的臉部,並提供每個偵測到臉部的相關信息。 Azure AI 視覺會針對每個偵測到的臉部傳回座標、矩形、性別和年齡。 您也可以針對這些用途使用專用 臉部 API 。 它提供更詳細的分析,例如臉部識別和姿勢偵測。 |
偵測臉部 |
偵測影像類型 (僅限 v3.2) | 偵測影像的特性,例如影像是線條繪圖,或是影像是否為美工圖案的可能性。 | 偵測影像類型 |
偵測特定領域內容 (僅限 v3.2) | 使用領域模型來偵測和識別影像中的領域特定內容,例如名人和地標。 例如,如果影像包含人物,Azure AI 視覺即可使用名人領域模型,判斷影像中偵測到的人物是否為知名人士。 | 偵測網域特定內容 |
偵測色彩配置 (僅限 v3.2) | 分析影像內的色彩使用量。 Azure AI 視覺可以判斷影像是否為黑白或色彩,以及針對彩色影像,識別主要色彩和輔色。 | 偵測色彩配置 |
調節影像中的內容 (僅限 v3.2) | 您可以使用 Azure AI 視覺在影像中偵測成人內容,並傳回不同分類的信賴分數。 標幟內容的臨界值可以在滑動尺規上設定,以配合您的喜好設定。 | 偵測成人內容 |
提示
您可以透過 Azure OpenAI 服務使用影像分析的讀取文字和物件偵測功能。 GPT-4 Turbo with Vision 模型可讓您與可分析您所共用影像的 AI 助理聊天,而視覺增強選項會使用影像分析來提供 AI 協助更多有關影像的詳細數據(可讀取的文字和物件位置)。 如需詳細資訊,請參閱 GPT-4 Turbo with Vision 快速入門。
產品辨識 (僅限 v4.0 預覽版)
產品辨識 API 可讓您分析零售商店中的貨架相片。 您可以偵測產品是否存在,並取得其週框方塊座標。 將其與模型自訂搭配使用,定型模型以識別您的特定產品。 您也可以比較產品辨識結果與商店的貨架圖文件。
多模式內嵌 (僅限 v4.0)
多模式內嵌 API 可讓您 向量化 影像和文字查詢。 其會將影像轉換成多維度向量空間中的座標。 然後,傳入的文字查詢也可以轉換成向量,且影像可以根據語意接近程度來比對文字。 這可讓使用者使用文字搜尋一組影像,而不需要使用影像標記或其他元數據。 語意接近程度通常會在搜尋中產生更好的結果。
2024-02-01
API 包含多語種模型,可支援 102 種語言的文字搜尋。 原始的英文模型仍可供使用,但無法與相同搜尋索引中的新模型合併。 如果您使用僅限英文模型向量化文字和影像,則這些向量與多語系文字和影像向量不相容。
這些 API 僅適用於下列地理區域:美國東部、法國中部、南韓中部、北歐、東南亞、西歐、美國西部。
背景移除 (僅限 v4.0 預覽版)
影像分析 4.0 (預覽版) 可讓您移除影像的背景。 這項功能可以輸出透明背景所偵測前景物件的影像,或輸出顯示所偵測前景物件的不透明度的灰階 Alpha 遮罩影像。 背景移除
原始影像 | 已移除背景 | 透明圖層遮罩 |
---|---|---|
圖像需求
影像分析僅適用於符合下列需求的影像:
- 影像必須以 JPEG、PNG、GIF、BMP、WEBP、ICO、TIFF 或 MPO 格式呈現
- 映像的檔案大小必須小於 20 MB(MB)
- 影像的維度必須大於 50 x 50 像素,且小於 16,000 x 16,000 像素
資料隱私權和安全性
和所有 Azure AI 服務一樣,使用 Azure AI 視覺服務的開發人員應該要了解 Microsoft 對於客戶資料的政策。 請參閱 Microsoft 信任中心上的 Azure AI 服務頁面以深入了解。
下一步
遵循您慣用開發語言的快速入門指南,開始使用影像分析: