Mi az a képelemzés?

Cikk
02/20/2024

Az Azure AI Vision Image Analysis szolgáltatás számos különféle vizuális funkciót képes kinyerni a képekből. Meghatározhatja például, hogy egy kép felnőtt tartalmat tartalmaz-e, konkrét márkákat vagy objektumokat keres, vagy emberi arcokat keres.

A Képelemzés legújabb verziója, a 4.0, amely jelenleg általánosan elérhető, olyan új funkciókkal rendelkezik, mint a szinkron OCR és a személyek észlelése. Javasoljuk, hogy ezt a verziót használja tovább.

A képelemzést egy ügyfélkódtár SDK-ján keresztül vagy közvetlenül a REST API meghívásával használhatja. Az első lépésekhez kövesse a rövid útmutatót .

Gyors útmutató

Vagy kipróbálhatja a Képelemzés képességeit gyorsan és egyszerűen a böngészőben a Vision Studióval.

A Vision Studio kipróbálása

Ez a dokumentáció a következő típusú cikkeket tartalmazza:

A rövid útmutatók részletes útmutatók , amelyek segítségével hívásokat kezdeményezhet a szolgáltatáshoz, és rövid időn belül eredményeket kaphat.
Az útmutatók konkrétabb vagy testre szabottabb módon tartalmazzák a szolgáltatás használatára vonatkozó utasításokat.
Az elméleti cikkek részletesen ismertetik a szolgáltatás funkcióit és funkcióit.
Az oktatóanyagok hosszabb útmutatók , amelyek bemutatják, hogyan használhatja ezt a szolgáltatást összetevőként a szélesebb körű üzleti megoldásokban.

Strukturáltabb megközelítésért kövesse a Képelemzés betanítási modulját.

Képek elemzése az Azure AI Vision szolgáltatással

Képelemzési verziók

Fontos

Válassza ki a követelményeknek leginkább megfelelő Image Analysis API-verziót.

Verzió	Elérhető funkciók	Ajánlás
4.0-s verzió	Szöveg olvasása, Feliratok, Sűrű képaláírás, Címkék, Objektumészlelés, Egyéni képbesorolás/ objektumészlelés, Kapcsolatok, Intelligens körülvágás	Jobb modellek; használja a 4.0-s verziót, ha támogatja a használati esetet.
3.2-es verzió	Címkék, Objektumok, Leírások, Márkák, Arcok, Képtípus, Színséma, Nevezetességek, Hírességek, Felnőtt tartalom, Intelligens körülvágás	Szélesebb körű funkciók; használja a 3.2-es verziót, ha a használati eset még nem támogatott a 4.0-s verzióban

Javasoljuk, hogy használja a Image Analysis 4.0 API-t, ha támogatja a használati esetet. Használja a 3.2-es verziót, ha a 4.0 még nem támogatja a használati esetet.

A 3.2-es verziót is használnia kell, ha képi képaláírás szeretne végezni, és a Vision-erőforrása ezeken az Azure-régiókon kívül található: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, usa nyugati régiója, Kelet-Ázsia. Az Image Analysis 4.0 rendszerkép-képaláírás funkció csak ezekben az Azure-régiókban támogatott. A kép képaláírás a 3.2-es verzióban minden Azure AI Vision-régióban elérhető.

Kép elemzése

Elemezheti a képeket, hogy betekintést nyújtson a vizuális jellemzőikbe és jellemzőikbe. A lista összes funkcióját az Analyze Image API biztosítja. Az első lépésekhez kövesse a rövid útmutatót.

Név	Leírás	Koncepció lap
Modell testreszabása (csak 4.0-s verziójú előzetes verzió)	Egyéni modelleket hozhat létre és taníthat be képbesorolásra vagy objektumészlelésre. Saját képeket hozhat létre, egyéni címkékkel címkézheti meg őket, és az Image Analysis betanít egy, a használati esethez testre szabott modellt.	Modell testreszabása
Szöveg olvasása képekből (csak 4.0-s verzió)	A Képelemzés 4.0-s verziójának előzetes verziója lehetővé teszi, hogy olvasható szöveget nyerjen ki a képekből. Az aszinkron Computer Vision 3.2 Read API-val összehasonlítva az új verzió a jól ismert Read OCR motort kínálja egy egységes, teljesítmény-továbbfejlesztett szinkron API-ban, amely megkönnyíti az OCR és más elemzések lekérését egyetlen API-hívásban.	OCR képekhez
Személyek észlelése képeken (csak 4.0-s verzió esetén)	A Képelemzés 4.0-s verziója lehetővé teszi a képeken megjelenő személyek észlelését. A rendszer visszaadja az észlelt személyek határolókeret-koordinátáit, valamint egy megbízhatósági pontszámot.	Kapcsolatok észlelés
Kép képaláírás létrehozása	Teljes mondatok használatával képaláírás hozhat létre egy képet emberi olvasásra alkalmas nyelven. A Computer Vision algoritmusai képaláírás hoznak létre a képen azonosított objektumok alapján. A 4.0-s verziójú kép képaláírás modell egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak az alábbi földrajzi régiókban érhető el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója. A 4.0-s verzió lehetővé teszi a sűrű képaláírás használatát is, amely részletes képaláírás hoz létre a képen található egyes objektumokhoz. Az API a képen található objektumok határolókeret-koordinátáit (képpontban) adja vissza, valamint egy képaláírás. Ezzel a funkcióval leírásokat hozhat létre egy kép különálló részeiről.	Kép képaláírás létrehozása (3.2-s verzió) (4.0-s verzió)
Objektumok észlelése	Az objektumészlelés hasonló a címkézéshez, de az API az egyes címkék határolókeret-koordinátáit adja vissza. Ha például egy kép egy kutyát, macskát és személyt tartalmaz, az Észlelés művelet felsorolja ezeket az objektumokat a képen lévő koordinátákkal együtt. Ezzel a funkcióval további kapcsolatokat dolgozhat fel a kép objektumai között. Azt is tudatja, hogy egy képen több példány is szerepel ugyanahhoz a címkéhez.	Objektumok észlelése (v3.2) (4.0-s verzió)
Vizuális jellemzők címkézése	A kép vizuális funkcióinak azonosítása és címkézése több ezer felismerhető objektumból, élőlényből, tájból és műveletből. Ha a címkék nem egyértelműek vagy nem általánosak, az API-válasz tippeket ad a címke kontextusának tisztázásához. A címkézés nem korlátozódik a kép fő témájára, például az előtérben szereplő személyre, hanem magában foglalja a környezetet (beltér vagy kültér), bútorokat, eszközöket, növényeket, állatokat, kiegészítőket, készülékeket stb.	Vizuális funkciók címkézése (3.2-s verzió) (4.0-s verzió)
Az érdeklődési terület / intelligens körülvágás lekérése	Elemezze a kép tartalmát a megadott méretaránynak megfelelő terület koordinátáinak visszaadásához. A Computer Vision visszaadja a régió határolókeret-koordinátáit, így a hívó alkalmazás tetszés szerint módosíthatja az eredeti képet. A 4.0-s verzió intelligens körülvágási modellje egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak az alábbi földrajzi régiókban érhető el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója.	Miniatűr létrehozása (3.2-s verzió) (4.0-s verzió előzetes verzió)
Márkák észlelése (csak 3.2-s verzió esetén)	Kereskedelmi márkák azonosítása képekben vagy videókban több ezer globális emblémát ábrázoló adatbázisból. Ezzel a funkcióval például felfedezheti, hogy mely márkák a legnépszerűbbek a közösségi médiában, vagy melyek a leggyakrabban elterjedtek a médiatermék-elhelyezésben.	Márkák észlelése
Kép kategorizálása (csak 3.2-s verzió esetén)	Felismeri és kategorizálja a teljes képet egy kategóriaelnevezési rendszer segítségével, szülő/gyermek hierarchiák használatával. A kategóriák egyedül vagy az új címkéző modellekkel együtt is használhatóak. Jelenleg az egyetlen támogatott nyelv a képek címkézéséhez és kategorizálásához az angol.	Képek kategorizálása
Arcok észlelése (csak 3.2-s verzió esetén)	Felismeri a képen található arcokat, és információval szolgál minden felismert arccal kapcsolatban. Az Azure AI Vision minden észlelt arc koordinátáit, téglalapjait, nemét és életkorát adja vissza. Ezekhez a célokhoz használhatja a dedikált Face API-t is. Részletesebb elemzést biztosít, például az arcfelismerést és a pózfelismerést.	Arcfelismerés
Képtípusok észlelése (csak 3.2-s verzió esetén)	Észleli a kép jellemzőit, például hogy a kép vonalrajz-e, vagy annak a valószínűségét, hogy a kép ClipArt.	Képek típusának észlelése
Tartományspecifikus tartalom észlelése (csak 3.2-s verzió esetén)	Tartománymodellek segítségével észleli és felismeri a kép tartományspecifikus tartalmát, például a hírességeket vagy nevezetességeket. Ha például egy kép személyeket tartalmaz, az Azure AI Vision egy tartománymodell használatával állapíthatja meg, hogy a képen észlelt személyek ismert hírességek-e.	Tartományspecifikus tartalom észlelése
A színséma észlelése (csak 3.2-s verzió esetén)	A képen használt színek elemzése. Az Azure AI Vision meghatározhatja, hogy egy kép fekete és fehér vagy színes-e, és a színképek esetében azonosítja a domináns és a hangsúlyos színeket.	Színséma észlelése
Mérsékelt tartalom képekben (csak 3.2-s verzió esetén)	Az Azure AI Vision használatával észlelheti a képek felnőtt tartalmát, és megbízhatósági pontszámokat adhat vissza a különböző besorolásokhoz. A tartalom megjelölésének küszöbértéke beállítható csúsztatási skálán a beállításoknak megfelelően.	Felnőtt tartalom észlelése

Tipp.

Az Azure OpenAI szolgáltatáson keresztül használhatja a képelemzés szöveg- és objektumészlelési funkcióit. A GPT-4 Turbo with Vision modell lehetővé teszi, hogy csevegjen egy AI-asszisztenssel, amely elemezni tudja a megosztott képeket, és a Vision Enhancement lehetőség képelemzést használ, hogy a mesterséges intelligenciával kapcsolatos további részleteket (olvasható szöveg és objektumhelyeket) nyújtson a képről. További információkért tekintse meg a GPT-4 Turbo with Vision rövid útmutatót.

Termékfelismerés (csak 4.0-s verziójú előzetes verzió)

A Termékfelismerés API-k segítségével elemezheti a kiskereskedelmi üzletek polcainak fényképeit. Észlelheti a termékek jelenlétét vagy hiányát, és lekérheti a határolókeret koordinátáit. A modell testreszabásával kombinálva betanítanak egy modellt az adott termékek azonosítására. A termékfelismerési eredményeket összehasonlíthatja az áruház planogram-dokumentumához is.

Termékfelismerés

Multimodális beágyazások (csak 4.0-s verzió)

A multimodális beágyazási API-k lehetővé teszik a képek és szöveges lekérdezések vektorizálását . Többdimenziós vektortérben lévő koordinátákká alakítják a képeket. Ezután a bejövő szöveges lekérdezések vektorokká is konvertálhatók, és a képek szemantikai közelség alapján megfeleltethetők a szövegnek. Ez lehetővé teszi, hogy a felhasználó szöveg használatával keressen képeket anélkül, hogy képcímkéket vagy más metaadatokat kellene használnia. A szemantikai közelség gyakran jobb eredményeket eredményez a keresésben.

Az 2024-02-01 API egy többnyelvű modellt tartalmaz, amely 102 nyelven támogatja a szöveges keresést. Az eredeti csak angol nyelvű modell továbbra is elérhető, de nem kombinálható az új modellel ugyanabban a keresési indexben. Ha csak angol nyelvű modellel vektorizált szöveget és képeket, ezek a vektorok nem lesznek kompatibilisek a többnyelvű szöveg- és képvektorokkal.

Ezek az API-k csak az alábbi földrajzi régiókban érhetők el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója.

Multimodális beágyazások

Háttér eltávolítása (csak 4.0-s verziójú előzetes verzió)

Az Image Analysis 4.0 (előzetes verzió) lehetővé teszi a kép hátterének eltávolítását. Ez a funkció megjelenítheti az észlelt előtérobjektum képét átlátszó háttérrel, vagy egy szürkeárnyalatos alfa matt képet, amely az észlelt előtérobjektum átlátszóságát mutatja.

Háttér eltávolítása

Eredeti kép	Háttér eltávolítása	Alfa matt

A képelemzés az alábbi követelményeknek megfelelő képek esetében működik:

A képet JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF vagy MPO formátumban kell használni
A kép fájlméretének 20 megabájtnál (MB) kisebbnek kell lennie
A kép méretének 50 x 50 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie

Tipp.

A multimodális beágyazások bemeneti követelményei eltérőek, és a multimodális beágyazásokban szerepelnek

Adatvédelem és biztonság

Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.

Következő lépések

Első lépések a képelemzésben az előnyben részesített fejlesztési nyelv rövid útmutatójának követésével: