Mi az a képelemzés?
Az Azure AI Vision Image Analysis szolgáltatás számos különféle vizuális funkciót képes kinyerni a képekből. Meghatározhatja például, hogy egy kép felnőtt tartalmat tartalmaz-e, konkrét márkákat vagy objektumokat keres, vagy emberi arcokat keres.
A Képelemzés legújabb verziója, a 4.0, amely jelenleg általánosan elérhető, olyan új funkciókkal rendelkezik, mint a szinkron OCR és a személyek észlelése. Javasoljuk, hogy ezt a verziót használja tovább.
A képelemzést egy ügyfélkódtár SDK-ján keresztül vagy közvetlenül a REST API meghívásával használhatja. Az első lépésekhez kövesse a rövid útmutatót .
Vagy kipróbálhatja a Képelemzés képességeit gyorsan és egyszerűen a böngészőben a Vision Studióval.
Ez a dokumentáció a következő típusú cikkeket tartalmazza:
- A rövid útmutatók részletes útmutatók , amelyek segítségével hívásokat kezdeményezhet a szolgáltatáshoz, és rövid időn belül eredményeket kaphat.
- Az útmutatók konkrétabb vagy testre szabottabb módon tartalmazzák a szolgáltatás használatára vonatkozó utasításokat.
- Az elméleti cikkek részletesen ismertetik a szolgáltatás funkcióit és funkcióit.
- Az oktatóanyagok hosszabb útmutatók , amelyek bemutatják, hogyan használhatja ezt a szolgáltatást összetevőként a szélesebb körű üzleti megoldásokban.
Strukturáltabb megközelítésért kövesse a Képelemzés betanítási modulját.
Képelemzési verziók
Fontos
Válassza ki a követelményeknek leginkább megfelelő Image Analysis API-verziót.
Verzió | Elérhető funkciók | Ajánlás |
---|---|---|
4.0-s verzió | Szöveg olvasása, Feliratok, Sűrű képaláírás, Címkék, Objektumészlelés, Egyéni képbesorolás/ objektumészlelés, Kapcsolatok, Intelligens körülvágás | Jobb modellek; használja a 4.0-s verziót, ha támogatja a használati esetet. |
3.2-es verzió | Címkék, Objektumok, Leírások, Márkák, Arcok, Képtípus, Színséma, Nevezetességek, Hírességek, Felnőtt tartalom, Intelligens körülvágás | Szélesebb körű funkciók; használja a 3.2-es verziót, ha a használati eset még nem támogatott a 4.0-s verzióban |
Javasoljuk, hogy használja a Image Analysis 4.0 API-t, ha támogatja a használati esetet. Használja a 3.2-es verziót, ha a 4.0 még nem támogatja a használati esetet.
A 3.2-es verziót is használnia kell, ha képi képaláírás szeretne végezni, és a Vision-erőforrása ezeken az Azure-régiókon kívül található: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, usa nyugati régiója, Kelet-Ázsia. Az Image Analysis 4.0 rendszerkép-képaláírás funkció csak ezekben az Azure-régiókban támogatott. A kép képaláírás a 3.2-es verzióban minden Azure AI Vision-régióban elérhető.
Kép elemzése
Elemezheti a képeket, hogy betekintést nyújtson a vizuális jellemzőikbe és jellemzőikbe. A lista összes funkcióját az Analyze Image API biztosítja. Az első lépésekhez kövesse a rövid útmutatót.
Név | Leírás | Koncepció lap |
---|---|---|
Modell testreszabása (csak 4.0-s verziójú előzetes verzió) | Egyéni modelleket hozhat létre és taníthat be képbesorolásra vagy objektumészlelésre. Saját képeket hozhat létre, egyéni címkékkel címkézheti meg őket, és az Image Analysis betanít egy, a használati esethez testre szabott modellt. | Modell testreszabása |
Szöveg olvasása képekből (csak 4.0-s verzió) | A Képelemzés 4.0-s verziójának előzetes verziója lehetővé teszi, hogy olvasható szöveget nyerjen ki a képekből. Az aszinkron Computer Vision 3.2 Read API-val összehasonlítva az új verzió a jól ismert Read OCR motort kínálja egy egységes, teljesítmény-továbbfejlesztett szinkron API-ban, amely megkönnyíti az OCR és más elemzések lekérését egyetlen API-hívásban. | OCR képekhez |
Személyek észlelése képeken (csak 4.0-s verzió esetén) | A Képelemzés 4.0-s verziója lehetővé teszi a képeken megjelenő személyek észlelését. A rendszer visszaadja az észlelt személyek határolókeret-koordinátáit, valamint egy megbízhatósági pontszámot. | Kapcsolatok észlelés |
Kép képaláírás létrehozása | Teljes mondatok használatával képaláírás hozhat létre egy képet emberi olvasásra alkalmas nyelven. A Computer Vision algoritmusai képaláírás hoznak létre a képen azonosított objektumok alapján. A 4.0-s verziójú kép képaláírás modell egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak az alábbi földrajzi régiókban érhető el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója. A 4.0-s verzió lehetővé teszi a sűrű képaláírás használatát is, amely részletes képaláírás hoz létre a képen található egyes objektumokhoz. Az API a képen található objektumok határolókeret-koordinátáit (képpontban) adja vissza, valamint egy képaláírás. Ezzel a funkcióval leírásokat hozhat létre egy kép különálló részeiről. |
Kép képaláírás létrehozása (3.2-s verzió) (4.0-s verzió) |
Objektumok észlelése | Az objektumészlelés hasonló a címkézéshez, de az API az egyes címkék határolókeret-koordinátáit adja vissza. Ha például egy kép egy kutyát, macskát és személyt tartalmaz, az Észlelés művelet felsorolja ezeket az objektumokat a képen lévő koordinátákkal együtt. Ezzel a funkcióval további kapcsolatokat dolgozhat fel a kép objektumai között. Azt is tudatja, hogy egy képen több példány is szerepel ugyanahhoz a címkéhez. |
Objektumok észlelése (v3.2) (4.0-s verzió) |
Vizuális jellemzők címkézése | A kép vizuális funkcióinak azonosítása és címkézése több ezer felismerhető objektumból, élőlényből, tájból és műveletből. Ha a címkék nem egyértelműek vagy nem általánosak, az API-válasz tippeket ad a címke kontextusának tisztázásához. A címkézés nem korlátozódik a kép fő témájára, például az előtérben szereplő személyre, hanem magában foglalja a környezetet (beltér vagy kültér), bútorokat, eszközöket, növényeket, állatokat, kiegészítőket, készülékeket stb. |
Vizuális funkciók címkézése (3.2-s verzió) (4.0-s verzió) |
Az érdeklődési terület / intelligens körülvágás lekérése | Elemezze a kép tartalmát a megadott méretaránynak megfelelő terület koordinátáinak visszaadásához. A Computer Vision visszaadja a régió határolókeret-koordinátáit, így a hívó alkalmazás tetszés szerint módosíthatja az eredeti képet. A 4.0-s verzió intelligens körülvágási modellje egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak az alábbi földrajzi régiókban érhető el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója. |
Miniatűr létrehozása (3.2-s verzió) (4.0-s verzió előzetes verzió) |
Márkák észlelése (csak 3.2-s verzió esetén) | Kereskedelmi márkák azonosítása képekben vagy videókban több ezer globális emblémát ábrázoló adatbázisból. Ezzel a funkcióval például felfedezheti, hogy mely márkák a legnépszerűbbek a közösségi médiában, vagy melyek a leggyakrabban elterjedtek a médiatermék-elhelyezésben. | Márkák észlelése |
Kép kategorizálása (csak 3.2-s verzió esetén) | Felismeri és kategorizálja a teljes képet egy kategóriaelnevezési rendszer segítségével, szülő/gyermek hierarchiák használatával. A kategóriák egyedül vagy az új címkéző modellekkel együtt is használhatóak. Jelenleg az egyetlen támogatott nyelv a képek címkézéséhez és kategorizálásához az angol. |
Képek kategorizálása |
Arcok észlelése (csak 3.2-s verzió esetén) | Felismeri a képen található arcokat, és információval szolgál minden felismert arccal kapcsolatban. Az Azure AI Vision minden észlelt arc koordinátáit, téglalapjait, nemét és életkorát adja vissza. Ezekhez a célokhoz használhatja a dedikált Face API-t is. Részletesebb elemzést biztosít, például az arcfelismerést és a pózfelismerést. |
Arcfelismerés |
Képtípusok észlelése (csak 3.2-s verzió esetén) | Észleli a kép jellemzőit, például hogy a kép vonalrajz-e, vagy annak a valószínűségét, hogy a kép ClipArt. | Képek típusának észlelése |
Tartományspecifikus tartalom észlelése (csak 3.2-s verzió esetén) | Tartománymodellek segítségével észleli és felismeri a kép tartományspecifikus tartalmát, például a hírességeket vagy nevezetességeket. Ha például egy kép személyeket tartalmaz, az Azure AI Vision egy tartománymodell használatával állapíthatja meg, hogy a képen észlelt személyek ismert hírességek-e. | Tartományspecifikus tartalom észlelése |
A színséma észlelése (csak 3.2-s verzió esetén) | A képen használt színek elemzése. Az Azure AI Vision meghatározhatja, hogy egy kép fekete és fehér vagy színes-e, és a színképek esetében azonosítja a domináns és a hangsúlyos színeket. | Színséma észlelése |
Mérsékelt tartalom képekben (csak 3.2-s verzió esetén) | Az Azure AI Vision használatával észlelheti a képek felnőtt tartalmát, és megbízhatósági pontszámokat adhat vissza a különböző besorolásokhoz. A tartalom megjelölésének küszöbértéke beállítható csúsztatási skálán a beállításoknak megfelelően. | Felnőtt tartalom észlelése |
Tipp.
Az Azure OpenAI szolgáltatáson keresztül használhatja a képelemzés szöveg- és objektumészlelési funkcióit. A GPT-4 Turbo with Vision modell lehetővé teszi, hogy csevegjen egy AI-asszisztenssel, amely elemezni tudja a megosztott képeket, és a Vision Enhancement lehetőség képelemzést használ, hogy a mesterséges intelligenciával kapcsolatos további részleteket (olvasható szöveg és objektumhelyeket) nyújtson a képről. További információkért tekintse meg a GPT-4 Turbo with Vision rövid útmutatót.
Termékfelismerés (csak 4.0-s verziójú előzetes verzió)
A Termékfelismerés API-k segítségével elemezheti a kiskereskedelmi üzletek polcainak fényképeit. Észlelheti a termékek jelenlétét vagy hiányát, és lekérheti a határolókeret koordinátáit. A modell testreszabásával kombinálva betanítanak egy modellt az adott termékek azonosítására. A termékfelismerési eredményeket összehasonlíthatja az áruház planogram-dokumentumához is.
Multimodális beágyazások (csak 4.0-s verzió)
A multimodális beágyazási API-k lehetővé teszik a képek és szöveges lekérdezések vektorizálását . Többdimenziós vektortérben lévő koordinátákká alakítják a képeket. Ezután a bejövő szöveges lekérdezések vektorokká is konvertálhatók, és a képek szemantikai közelség alapján megfeleltethetők a szövegnek. Ez lehetővé teszi, hogy a felhasználó szöveg használatával keressen képeket anélkül, hogy képcímkéket vagy más metaadatokat kellene használnia. A szemantikai közelség gyakran jobb eredményeket eredményez a keresésben.
Az 2024-02-01
API egy többnyelvű modellt tartalmaz, amely 102 nyelven támogatja a szöveges keresést. Az eredeti csak angol nyelvű modell továbbra is elérhető, de nem kombinálható az új modellel ugyanabban a keresési indexben. Ha csak angol nyelvű modellel vektorizált szöveget és képeket, ezek a vektorok nem lesznek kompatibilisek a többnyelvű szöveg- és képvektorokkal.
Ezek az API-k csak az alábbi földrajzi régiókban érhetők el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója.
Háttér eltávolítása (csak 4.0-s verziójú előzetes verzió)
Az Image Analysis 4.0 (előzetes verzió) lehetővé teszi a kép hátterének eltávolítását. Ez a funkció megjelenítheti az észlelt előtérobjektum képét átlátszó háttérrel, vagy egy szürkeárnyalatos alfa matt képet, amely az észlelt előtérobjektum átlátszóságát mutatja.
Eredeti kép | Háttér eltávolítása | Alfa matt |
---|---|---|
Képpel kapcsolatos követelmények
A képelemzés az alábbi követelményeknek megfelelő képek esetében működik:
- A képet JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF vagy MPO formátumban kell használni
- A kép fájlméretének 20 megabájtnál (MB) kisebbnek kell lennie
- A kép méretének 50 x 50 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie
Tipp.
A multimodális beágyazások bemeneti követelményei eltérőek, és a multimodális beágyazásokban szerepelnek
Adatvédelem és biztonság
Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.
Következő lépések
Első lépések a képelemzésben az előnyben részesített fejlesztési nyelv rövid útmutatójának követésével: