Worum handelt es sich bei maschinellem Sehen?What is Computer Vision?

Über den Azure-Dienst für maschinelles Sehen haben Entwickler Zugriff auf erweiterte Algorithmen, die Bilder verarbeiten und Informationen zurückgeben.Azure's Computer Vision service provides developers with access to advanced algorithms that process images and return information. Für die Bildanalyse können Sie entweder ein Bild hochladen oder eine Bild-URL angeben.To analyze an image, you can either upload an image or specify an image URL. Die Bildverarbeitungsalgorithmen können Inhalte auf unterschiedliche Weise analysieren – je nachdem, für welche visuellen Merkmale Sie sich interessieren.The images processing algorithms can analyze content in several different ways, depending on the visual features you're interested in. So kann maschinelles Sehen beispielsweise erkennen, ob ein Bild anzügliche oder nicht jugendfreie Inhalte enthält, oder alle menschlichen Gesichter in einem Bild finden.For example, Computer Vision can determine if an image contains adult or racy content, or it can find all of the human faces in an image.

Sie können maschinelles Sehen in Ihrer Anwendung entweder über ein natives SDK oder durch direktes Aufrufen der REST-API nutzen.You can use Computer Vision in your application by using either a native SDK or invoking the REST API directly. Auf dieser Seite erfahren Sie ganz allgemein, welche Möglichkeiten maschinelles Sehen bietet.This page broadly covers what you can do with Computer Vision.

Analysieren von Bildern, um Erkenntnisse zu gewinnenAnalyze images for insight

Sie können Bilder analysieren, um visuelle Merkmale und Eigenschaften zu erkennen und Erkenntnisse zu gewinnen.You can analyze images to detect and provide insights about their visual features and characteristics. Alle Features in der folgenden Tabelle werden von der API für die Bildanalyse bereitgestellt.All of the features in the table below are provided by the Analyze Image API.

AktionAction BESCHREIBUNGDescription
Markieren visueller MerkmaleTag visual features Erkennen und markieren Sie visuelle Merkmale in einem Bild auf der Grundlage von Tausenden von erkennbaren Objekten, Lebewesen, Landschaften und Aktionen.Identify and tag visual features in an image, from a set of thousands of recognizable objects, living things, scenery, and actions. Wenn die Tags nicht eindeutig sind oder nicht zum Allgemeinwissen gehören, enthält die API-Antwort „Hinweise“, um die Bedeutung des Tags in einem bekannten Kontext zu erläutern.When the tags are ambiguous or not common knowledge, the API response provides 'hints' to clarify the meaning of the tag in the context of a known setting. Die Markierung ist nicht auf den Hauptinhalt (etwa eine Person im Vordergrund) beschränkt, sondern bezieht auch die Umgebung (Innen- oder Außenbereich), Möbel, Werkzeuge, Pflanzen, Tiere, Zubehör, Geräte und Ähnliches mit ein.Tagging isn't limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.
Erkennen von ObjektenDetect objects Die Objekterkennung ähnelt dem Tagging, die API gibt jedoch die Koordinaten des Begrenzungsrahmens für jedes angewendete Tag zurück.Object detection is similar to tagging, but the API returns the bounding box coordinates for each tag applied. Wenn ein Bild z. B. einen Hund, eine Katze sowie eine Person enthält, werden diese Objekte bei der Erkennung zusammen mit ihren Koordinaten im Bild aufgelistet.For example, if an image contains a dog, cat and person, the Detect operation will list those objects together with their coordinates in the image. Sie können diese Funktion verwenden, um weitere Beziehungen zwischen den Objekten in einem Bild zu verarbeiten.You can use this functionality to process further relationships between the objects in an image. Außerdem können Sie feststellen, ob mehrere Instanzen des gleichen Tags in einem Bild enthalten sind.It also lets you know when there are multiple instances of the same tag in an image.
Erkennen von MarkenDetect brands Erkennen Sie auf Bildern oder in Videos kommerzielle Marken auf der Grundlage einer Datenbank mit Tausenden Logos aus der ganzen Welt.Identify commercial brands in images or videos from a database of thousands of global logos. Mit diesem Feature können Sie beispielsweise ermitteln, welche Marken in sozialen Medien besonders beliebt sind oder besonders gerne in Medien platziert werden.You can use this feature, for example, to discover which brands are most popular on social media or most prevalent in media product placement.
Kategorisieren eines BildsCategorize an image Erkennen und kategorisieren Sie ein gesamtes Bild unter Verwendung einer Kategorietaxonomie mit über-/untergeordneten vererbbaren Hierarchien.Identify and categorize an entire image, using a category taxonomy with parent/child hereditary hierarchies. Kategorien können einzeln oder in Kombination mit unseren neuen Markierungsmodellen verwendet werden.Categories can be used alone, or with our new tagging models.
Als Sprache für die Markierung und Kategorisierung von Bildern wird derzeit nur Englisch unterstützt.Currently, English is the only supported language for tagging and categorizing images.
Beschreiben eines BildsDescribe an image Generieren Sie eine Beschreibung eines gesamten Bilds mit vollständigen Sätzen in lesbarer Sprache.Generate a description of an entire image in human-readable language, using complete sentences. Algorithmen für maschinelles Sehen generieren verschiedene Beschreibungen auf der Grundlage der im Bild erkannten Objekte.Computer Vision's algorithms generate various descriptions based on the objects identified in the image. Die Beschreibungen werden jeweils ausgewertet, und eine Zuverlässigkeitsbewertung wird generiert.The descriptions are each evaluated and a confidence score generated. Dann wird eine Liste in der Reihenfolge von höchster Zuverlässigkeitsbewertung zu niedrigster zurückgegeben.A list is then returned ordered from highest confidence score to lowest.
Erkennen von GesichternDetect faces Erkennen Sie Gesichter in einem Bild, und stellen Sie Informationen zu den einzelnen Gesichtern bereit.Detect faces in an image and provide information about each detected face. Maschinelles Sehen gibt für jedes erkannte Gesicht die Koordinaten, ein Rechteck, das Geschlecht und das Alter zurück.Computer Vision returns the coordinates, rectangle, gender, and age for each detected face.
Maschinelles Sehen bietet einen Teil der Funktionen aus der Gesichtserkennung. Der Gesichtserkennungsdienst ermöglicht eine detailliertere Analyse zur Erkennung von Gesichtsausdruck, Kopfhaltung und Ähnlichem.Computer Vision provides a subset of the functionality that can be found in Face, and you can use the Face service for more detailed analysis, such as facial identification and pose detection.
Erkennen von BildtypenDetect image types Erkennen Sie Merkmale eines Bilds – also beispielsweise, ob es sich bei dem Bild um eine Strichzeichnung handelt oder wie wahrscheinlich es ist, dass es sich bei dem Bild um ein ClipArt handelt.Detect characteristics about an image, such as whether an image is a line drawing or the likelihood of whether an image is clip art.
Erkennen domänenspezifischer InhalteDetect domain-specific content Verwenden Sie Domänenmodelle, um domänenspezifische Inhalte (etwa berühmte Personen und Orientierungspunkte) in einem Bild zu erkennen.Use domain models to detect and identify domain-specific content in an image, such as celebrities and landmarks. Wenn ein Bild also beispielsweise Personen enthält, kann maschinelles Sehen auf ein im Dienst enthaltenes Domänenmodell für berühmte Personen zurückgreifen und so ermitteln, ob es sich bei den Personen auf dem Bild um berühmte Personen handelt.For example, if an image contains people, Computer Vision can use a domain model for celebrities included with the service to determine if the people detected in the image match known celebrities.
Erkennen des FarbschemasDetect the color scheme Analysieren Sie die Farben eines Bilds.Analyze color usage within an image. Maschinelles Sehen kann ermitteln, ob es sich um ein Schwarzweißbild oder um ein Farbbild handelt. Bei Farbbildern kann maschinelles Sehen außerdem die dominante Farbe sowie Akzentfarben erkennen.Computer Vision can determine whether an image is black & white or color and, for color images, identify the dominant and accent colors.
Generieren einer MiniaturansichtGenerate a thumbnail Analysieren Sie den Inhalt eines Bilds, um eine geeignete Miniaturansicht für das Bild zu generieren.Analyze the contents of an image to generate an appropriate thumbnail for that image. Die Maschinelles Sehen-API generiert zunächst eine hochwertige Miniaturansicht und analysiert dann die Objekte im Bild, um den relevanten Bereich zu bestimmen.Computer Vision first generates a high-quality thumbnail and then analyzes the objects within the image to determine the area of interest. Anschließend wird das Bild auf den relevanten Bereich zugeschnitten.Computer Vision then crops the image to fit the requirements of the area of interest. Das Seitenverhältnis der generierten Miniaturansicht kann sich bei Bedarf vom Seitenverhältnis des ursprünglichen Bilds unterscheiden.The generated thumbnail can be presented using an aspect ratio that is different from the aspect ratio of the original image, depending on your needs.
Abrufen des relevanten BereichsGet the area of interest Analysieren Sie den Inhalt eines Bilds, um die Koordinaten des relevanten Bereichs zurückzugeben.Analyze the contents of an image to return the coordinates of the area of interest. Hierbei handelt es sich um die gleiche Funktion, die auch zum Generieren einer Miniaturansicht verwendet wird. Anstatt das Bild zuzuschneiden, gibt die Maschinelles Sehen-API jedoch die Koordinaten des Begrenzungsrahmens des Bereichs zurück, sodass die aufrufende Anwendung das ursprüngliche Bild nach Bedarf ändern kann.This is the same function that is used to generate a thumbnail, but instead of cropping the image, Computer Vision returns the bounding box coordinates of the region, so the calling application can modify the original image as desired.

Extrahieren von Text aus BildernExtract text from images

Mit maschinellem Sehen können Sie Text aus einem Bild unter Verwendung von optischer Zeichenerkennung (Optical Character Recognition, OCR) in eine computerlesbare Zeichenfolge extrahieren.You can use Computer Vision to extract text from an image into a machine-readable character stream using optical character recognition (OCR). Bei Bedarf korrigiert die optische Zeichenerkennung die Drehung des erkannten Texts und liefert die Frame-Koordinaten der einzelnen Wörter.If needed, OCR corrects the rotation of the recognized text and provides the frame coordinates of each word. Die optische Zeichenerkennung unterstützt 25 Sprachen und ermittelt automatisch die Sprache des erkannten Texts.OCR supports 25 languages and automatically detects the language of the recognized text.

Sie können auch die Read-API verwenden, um sowohl gedruckten als auch handschriftlichen Text aus Bildern und textlastigen Dokumenten zu extrahieren.You can also use the Read API to extract both printed and handwritten text from images and text-heavy documents. Die Read-API verwendet aktualisierte Modelle und kann für verschiedene Objekte mit unterschiedlichen Oberflächen und Hintergründen verwendet werden. Hierzu zählen etwa Belege, Poster, Visitenkarten, Briefe und Whiteboards.The Read API uses updated models and works for a variety objects with different surfaces and backgrounds, such as receipts, posters, business cards, letters, and whiteboards. Englisch ist derzeit die einzige unterstützte Sprache.Currently, English is the only supported language.

Moderieren von BildinhaltenModerate content in images

Maschinelles Sehen ermöglicht die Erkennung anzüglicher und nicht jugendfreier Inhalte in einem Bild sowie die Rückgabe einer Zuverlässigkeitsbewertung für beides.You can use Computer Vision to detect adult and racy content in an image and return a confidence score for both. Der Filter für die Erkennung anzüglicher und nicht jugendfreier Inhalte kann mithilfe eines Schiebereglers nach Bedarf angepasst werden.The filter for adult and racy content detection can be set on a sliding scale to accommodate your preferences.

Verwenden von ContainernUse containers

Verwenden Sie Container für maschinelles Sehen, um gedruckten und handschriftlichen Text lokal zu erkennen. Installieren Sie dazu einen standardisierten Docker-Container, der sich näher bei Ihren Daten befindet.Use Computer Vision containers to recognize printed and handwritten text locally by installing a standardized Docker container closer to your data.

Anforderungen an ImagesImage requirements

Maschinelles Sehen kann Bilder analysieren, die folgende Anforderungen erfüllen:Computer Vision can analyze images that meet the following requirements:

  • Das Bild muss im JPEG-, PNG-, GIF- oder BMP-Format vorliegen.The image must be presented in JPEG, PNG, GIF, or BMP format
  • Die Dateigröße muss weniger als 4 MB betragen.The file size of the image must be less than 4 megabytes (MB)
  • Das Bild muss größer als 50 x 50 Pixel sein.The dimensions of the image must be greater than 50 x 50 pixels
    • Für OCR muss die Größe des Bilds zwischen 50 x 50 und 4.200 x 4.200 Pixel liegen.For OCR, the dimensions of the image must be between 50 x 50 and 4200 x 4200 pixels

Datenschutz und SicherheitData privacy and security

Wie bei allen Cognitive Services-Diensten müssen Entwickler, die den Maschinelles Sehen-Dienst nutzen, die Microsoft-Richtlinien zu Kundendaten beachten.As with all of the Cognitive Services, developers using the Computer Vision service should be aware of Microsoft's policies on customer data. Weitere Informationen finden Sie im Microsoft Trust Center auf der Seite zu Cognitive Services.See the Cognitive Services page on the Microsoft Trust Center to learn more.

Nächste SchritteNext steps

Nutzen Sie die folgende Schnellstartanleitung als Einführung in die Verwendung von maschinellem Sehen:Get started with Computer Vision by following a quickstart guide: