Mi az a képelemzés?

Az Azure AI Vision Image Analysis szolgáltatás számos különféle vizuális funkciót képes kinyerni a képekből. Meghatározhatja például, hogy egy kép felnőtt tartalmat tartalmaz-e, konkrét márkákat vagy objektumokat keres, vagy emberi arcokat keres.

A Képelemzés legújabb verziója, a 4.0, amely jelenleg általánosan elérhető, olyan új funkciókkal rendelkezik, mint a szinkron OCR és a személyek észlelése. Javasoljuk, hogy ezt a verziót használja tovább.

A képelemzést egy ügyfélkódtár SDK-ján keresztül vagy közvetlenül a REST API meghívásával használhatja. Az első lépésekhez kövesse a rövid útmutatót .

Vagy kipróbálhatja a Képelemzés képességeit gyorsan és egyszerűen a böngészőben a Vision Studióval.

Ez a dokumentáció a következő típusú cikkeket tartalmazza:

  • A rövid útmutatók részletes útmutatók , amelyek segítségével hívásokat kezdeményezhet a szolgáltatáshoz, és rövid időn belül eredményeket kaphat.
  • Az útmutatók konkrétabb vagy testre szabottabb módon tartalmazzák a szolgáltatás használatára vonatkozó utasításokat.
  • Az elméleti cikkek részletesen ismertetik a szolgáltatás funkcióit és funkcióit.
  • Az oktatóanyagok hosszabb útmutatók , amelyek bemutatják, hogyan használhatja ezt a szolgáltatást összetevőként a szélesebb körű üzleti megoldásokban.

Strukturáltabb megközelítésért kövesse a Képelemzés betanítási modulját.

Képelemzési verziók

Fontos

Válassza ki a követelményeknek leginkább megfelelő Image Analysis API-verziót.

Verzió Elérhető funkciók Ajánlás
4.0-s verzió Szöveg olvasása, Feliratok, Sűrű képaláírás, Címkék, Objektumészlelés, Egyéni képbesorolás/ objektumészlelés, Kapcsolatok, Intelligens körülvágás Jobb modellek; használja a 4.0-s verziót, ha támogatja a használati esetet.
3.2-es verzió Címkék, Objektumok, Leírások, Márkák, Arcok, Képtípus, Színséma, Nevezetességek, Hírességek, Felnőtt tartalom, Intelligens körülvágás Szélesebb körű funkciók; használja a 3.2-es verziót, ha a használati eset még nem támogatott a 4.0-s verzióban

Javasoljuk, hogy használja a Image Analysis 4.0 API-t, ha támogatja a használati esetet. Használja a 3.2-es verziót, ha a 4.0 még nem támogatja a használati esetet.

A 3.2-es verziót is használnia kell, ha képi képaláírás szeretne végezni, és a Vision-erőforrása ezeken az Azure-régiókon kívül található: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, usa nyugati régiója, Kelet-Ázsia. Az Image Analysis 4.0 rendszerkép-képaláírás funkció csak ezekben az Azure-régiókban támogatott. A kép képaláírás a 3.2-es verzióban minden Azure AI Vision-régióban elérhető.

Kép elemzése

Elemezheti a képeket, hogy betekintést nyújtson a vizuális jellemzőikbe és jellemzőikbe. A lista összes funkcióját az Analyze Image API biztosítja. Az első lépésekhez kövesse a rövid útmutatót.

Név Leírás Koncepció lap
Modell testreszabása (csak 4.0-s verziójú előzetes verzió) Egyéni modelleket hozhat létre és taníthat be képbesorolásra vagy objektumészlelésre. Saját képeket hozhat létre, egyéni címkékkel címkézheti meg őket, és az Image Analysis betanít egy, a használati esethez testre szabott modellt. Modell testreszabása
Szöveg olvasása képekből (csak 4.0-s verzió) A Képelemzés 4.0-s verziójának előzetes verziója lehetővé teszi, hogy olvasható szöveget nyerjen ki a képekből. Az aszinkron Computer Vision 3.2 Read API-val összehasonlítva az új verzió a jól ismert Read OCR motort kínálja egy egységes, teljesítmény-továbbfejlesztett szinkron API-ban, amely megkönnyíti az OCR és más elemzések lekérését egyetlen API-hívásban. OCR képekhez
Személyek észlelése képeken (csak 4.0-s verzió esetén) A Képelemzés 4.0-s verziója lehetővé teszi a képeken megjelenő személyek észlelését. A rendszer visszaadja az észlelt személyek határolókeret-koordinátáit, valamint egy megbízhatósági pontszámot. Kapcsolatok észlelés
Kép képaláírás létrehozása Teljes mondatok használatával képaláírás hozhat létre egy képet emberi olvasásra alkalmas nyelven. A Computer Vision algoritmusai képaláírás hoznak létre a képen azonosított objektumok alapján.

A 4.0-s verziójú kép képaláírás modell egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak az alábbi földrajzi régiókban érhető el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója.

A 4.0-s verzió lehetővé teszi a sűrű képaláírás használatát is, amely részletes képaláírás hoz létre a képen található egyes objektumokhoz. Az API a képen található objektumok határolókeret-koordinátáit (képpontban) adja vissza, valamint egy képaláírás. Ezzel a funkcióval leírásokat hozhat létre egy kép különálló részeiről.

A tehenek fényképe egyszerű leírással a jobb oldalon.
Kép képaláírás létrehozása (3.2-s verzió)
(4.0-s verzió)
Objektumok észlelése Az objektumészlelés hasonló a címkézéshez, de az API az egyes címkék határolókeret-koordinátáit adja vissza. Ha például egy kép egy kutyát, macskát és személyt tartalmaz, az Észlelés művelet felsorolja ezeket az objektumokat a képen lévő koordinátákkal együtt. Ezzel a funkcióval további kapcsolatokat dolgozhat fel a kép objektumai között. Azt is tudatja, hogy egy képen több példány is szerepel ugyanahhoz a címkéhez.

Fénykép egy irodáról egy laptop köré rajzolt téglalaptal.
Objektumok észlelése (v3.2)
(4.0-s verzió)
Vizuális jellemzők címkézése A kép vizuális funkcióinak azonosítása és címkézése több ezer felismerhető objektumból, élőlényből, tájból és műveletből. Ha a címkék nem egyértelműek vagy nem általánosak, az API-válasz tippeket ad a címke kontextusának tisztázásához. A címkézés nem korlátozódik a kép fő témájára, például az előtérben szereplő személyre, hanem magában foglalja a környezetet (beltér vagy kültér), bútorokat, eszközöket, növényeket, állatokat, kiegészítőket, készülékeket stb.

Egy gördeszka fotója a jobb oldalon felsorolt címkékkel.
Vizuális funkciók címkézése (3.2-s verzió)
(4.0-s verzió)
Az érdeklődési terület / intelligens körülvágás lekérése Elemezze a kép tartalmát a megadott méretaránynak megfelelő terület koordinátáinak visszaadásához. A Computer Vision visszaadja a régió határolókeret-koordinátáit, így a hívó alkalmazás tetszés szerint módosíthatja az eredeti képet.

A 4.0-s verzió intelligens körülvágási modellje egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak az alábbi földrajzi régiókban érhető el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója.
Miniatűr létrehozása (3.2-s verzió)
(4.0-s verzió előzetes verzió)
Márkák észlelése (csak 3.2-s verzió esetén) Kereskedelmi márkák azonosítása képekben vagy videókban több ezer globális emblémát ábrázoló adatbázisból. Ezzel a funkcióval például felfedezheti, hogy mely márkák a legnépszerűbbek a közösségi médiában, vagy melyek a leggyakrabban elterjedtek a médiatermék-elhelyezésben. Márkák észlelése
Kép kategorizálása (csak 3.2-s verzió esetén) Felismeri és kategorizálja a teljes képet egy kategóriaelnevezési rendszer segítségével, szülő/gyermek hierarchiák használatával. A kategóriák egyedül vagy az új címkéző modellekkel együtt is használhatóak.

Jelenleg az egyetlen támogatott nyelv a képek címkézéséhez és kategorizálásához az angol.
Képek kategorizálása
Arcok észlelése (csak 3.2-s verzió esetén) Felismeri a képen található arcokat, és információval szolgál minden felismert arccal kapcsolatban. Az Azure AI Vision minden észlelt arc koordinátáit, téglalapjait, nemét és életkorát adja vissza.

Ezekhez a célokhoz használhatja a dedikált Face API-t is. Részletesebb elemzést biztosít, például az arcfelismerést és a pózfelismerést.
Arcfelismerés
Képtípusok észlelése (csak 3.2-s verzió esetén) Észleli a kép jellemzőit, például hogy a kép vonalrajz-e, vagy annak a valószínűségét, hogy a kép ClipArt. Képek típusának észlelése
Tartományspecifikus tartalom észlelése (csak 3.2-s verzió esetén) Tartománymodellek segítségével észleli és felismeri a kép tartományspecifikus tartalmát, például a hírességeket vagy nevezetességeket. Ha például egy kép személyeket tartalmaz, az Azure AI Vision egy tartománymodell használatával állapíthatja meg, hogy a képen észlelt személyek ismert hírességek-e. Tartományspecifikus tartalom észlelése
A színséma észlelése (csak 3.2-s verzió esetén) A képen használt színek elemzése. Az Azure AI Vision meghatározhatja, hogy egy kép fekete és fehér vagy színes-e, és a színképek esetében azonosítja a domináns és a hangsúlyos színeket. Színséma észlelése
Mérsékelt tartalom képekben (csak 3.2-s verzió esetén) Az Azure AI Vision használatával észlelheti a képek felnőtt tartalmát, és megbízhatósági pontszámokat adhat vissza a különböző besorolásokhoz. A tartalom megjelölésének küszöbértéke beállítható csúsztatási skálán a beállításoknak megfelelően. Felnőtt tartalom észlelése

Tipp.

Az Azure OpenAI szolgáltatáson keresztül használhatja a képelemzés szöveg- és objektumészlelési funkcióit. A GPT-4 Turbo with Vision modell lehetővé teszi, hogy csevegjen egy AI-asszisztenssel, amely elemezni tudja a megosztott képeket, és a Vision Enhancement lehetőség képelemzést használ, hogy a mesterséges intelligenciával kapcsolatos további részleteket (olvasható szöveg és objektumhelyeket) nyújtson a képről. További információkért tekintse meg a GPT-4 Turbo with Vision rövid útmutatót.

Termékfelismerés (csak 4.0-s verziójú előzetes verzió)

A Termékfelismerés API-k segítségével elemezheti a kiskereskedelmi üzletek polcainak fényképeit. Észlelheti a termékek jelenlétét vagy hiányát, és lekérheti a határolókeret koordinátáit. A modell testreszabásával kombinálva betanítanak egy modellt az adott termékek azonosítására. A termékfelismerési eredményeket összehasonlíthatja az áruház planogram-dokumentumához is.

Termékfelismerés

Multimodális beágyazások (csak 4.0-s verzió)

A multimodális beágyazási API-k lehetővé teszik a képek és szöveges lekérdezések vektorizálását . Többdimenziós vektortérben lévő koordinátákká alakítják a képeket. Ezután a bejövő szöveges lekérdezések vektorokká is konvertálhatók, és a képek szemantikai közelség alapján megfeleltethetők a szövegnek. Ez lehetővé teszi, hogy a felhasználó szöveg használatával keressen képeket anélkül, hogy képcímkéket vagy más metaadatokat kellene használnia. A szemantikai közelség gyakran jobb eredményeket eredményez a keresésben.

Az 2024-02-01 API egy többnyelvű modellt tartalmaz, amely 102 nyelven támogatja a szöveges keresést. Az eredeti csak angol nyelvű modell továbbra is elérhető, de nem kombinálható az új modellel ugyanabban a keresési indexben. Ha csak angol nyelvű modellel vektorizált szöveget és képeket, ezek a vektorok nem lesznek kompatibilisek a többnyelvű szöveg- és képvektorokkal.

Ezek az API-k csak az alábbi földrajzi régiókban érhetők el: USA keleti régiója, Közép-Franciaország, Közép-Korea, Észak-Európa, Délkelet-Ázsia, Nyugat-Európa, USA nyugati régiója.

Multimodális beágyazások

Háttér eltávolítása (csak 4.0-s verziójú előzetes verzió)

Az Image Analysis 4.0 (előzetes verzió) lehetővé teszi a kép hátterének eltávolítását. Ez a funkció megjelenítheti az észlelt előtérobjektum képét átlátszó háttérrel, vagy egy szürkeárnyalatos alfa matt képet, amely az észlelt előtérobjektum átlátszóságát mutatja.

Háttér eltávolítása

Eredeti kép Háttér eltávolítása Alfa matt
Egy táblagépet használó csoport fényképe. Táblagépet használó személyek csoportjának fényképe; háttér transzparens. Alfa matt egy csoport ember.

Képpel kapcsolatos követelmények

A képelemzés az alábbi követelményeknek megfelelő képek esetében működik:

  • A képet JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF vagy MPO formátumban kell használni
  • A kép fájlméretének 20 megabájtnál (MB) kisebbnek kell lennie
  • A kép méretének 50 x 50 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie

Tipp.

A multimodális beágyazások bemeneti követelményei eltérőek, és a multimodális beágyazásokban szerepelnek

Adatvédelem és biztonság

Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.

Következő lépések

Első lépések a képelemzésben az előnyben részesített fejlesztési nyelv rövid útmutatójának követésével: