Gesichtserkennung, Attribute und Eingabedaten

Artikel
04/30/2024

Achtung

Der Zugriff auf den Gesichtserkennungsdienst ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt, um unsere Prinzipien für verantwortungsvolle KI zu unterstützen. Der Gesichtserkennungsdienst ist nur für von Microsoft verwaltete Kunden und Partner verfügbar. Verwenden Sie das Aufnahmeformular für die Gesichtserkennung, um sich für den Zugriff zu bewerben. Weitere Informationen finden Sie auf der Seite Eingeschränkter Zugriff auf die Gesichtserkennung.

Wichtig

Gesichtsattribute werden mithilfe statistischer Algorithmen vorhergesagt. Sie sind möglicherweise nicht immer genau. Treffen Sie Entscheidungen auf Grundlage von Attributdaten mit Umsicht. Verzichten Sie darauf, diese Attribute für Spoofingbekämpfung zu verwenden. Wir empfehlen stattdessen die Face Liveness-Erkennung. Weitere Informationen finden Sie im Tutorial: Erkennen von Gesichtsaktivität im Livezustand.

Dieser Artikel erläutert die Konzepte der Gesichtserkennung und der Attributdaten für Gesichter. Bei der Gesichtserkennung werden menschliche Gesichter in einem Bild gesucht und optional verschiedene Arten von gesichtsbezogenen Daten zurückgegeben.

Sie verwenden die Erkennungs-API, um Gesichter in einem Bild zu erkennen. Für die ersten Schritte mit der REST-API oder einem Client-SDK führen Sie einen Schnellstart durch. Einen ausführlicheren Leitfaden finden Sie unter Aufrufen der Erkennungs-API.

Gesichtsrechteck

Jedes erkannte Gesicht entspricht mindestens einem faceRectangle-Feld in der Antwort. Dieser Satz von Pixelkoordinaten für links, oben, Breite und Höhe kennzeichnet das erkannte Gesicht. Mithilfe dieser Koordinaten können Sie die Position des Gesichts und seine Größe abrufen. In der API-Antwort werden Gesichter in Reihenfolge nach Größe – vom größten zum kleinsten Gesicht – aufgeführt.

Testen Sie mithilfe von Vision Studio ganz schnell und einfach die Funktionen der Gesichtserkennung.

Vision Studio testen

Gesichts-ID

Die Gesichtserkennungs-ID ist eine Zeichenfolge mit dem eindeutigen Bezeichner für jedes erkannte Gesicht in einem Bild. Die Gesichts-ID erfordert eine eingeschränkte Zugriffsgenehmigung, die Sie durch Ausfüllen des Aufnahmeformulars beantragen können. Weitere Informationen finden Sie auf der Seite Eingeschränkter Zugriff auf die Gesichtserkennung. Sie können eine Gesicht-ID in Ihrem Erkennungs-API-Aufruf anfordern.

Gesichtszüge

Gesichtsmerkmale bestehen aus mehreren einfach zu findenden Punkten im Gesicht. Beispiel sind die Pupillen oder die Nasenspitze. Standardmäßig sind 27 Bezugspunkte vordefiniert. Die folgende Abbildung zeigt alle 27 Punkte:

Abbildung eines Gesichts mit allen 27 beschrifteten Gesichtsmerkmalpunkten

Die Koordinaten der Punkte werden in Pixel zurückgegeben.

Das Modell „Detection_03“ verfügt derzeit über die genaueste Erkennung von Merkmalen. Die zurückgegebenen Augen- und Pupillenmerkmale sind ausreichend präzise, um die Blicknachverfolgung des Gesichts zu ermöglichen.

Attributes

Achtung

Microsoft hat alle Gesichtserkennungsfunktionen zurückgezogen, mit denen sich emotionale Zustände und Identitätsattribute ableiten lassen, die bei missbräuchlicher Nutzung zu einer Stereotypisierung oder Diskriminierung von Personen oder zu einer unlauteren Verweigerung von Dienstleistungen führen können. Dazu gehören Funktionen, die Emotionen, Geschlecht, Alter, Lächeln, Gesichtsbehaarung, Haare und Make-up voraussagen können. Weitere Informationen zu dieser Entscheidung finden Sie hier.

Attribute sind ein Satz von Merkmalen, die optional durch die Erkennungs-API erkannt werden können. Die folgenden Attribute können erkannt werden:

Accessoires Gibt an, ob das Gesicht Accessoires aufweist. Dieses Attribut gibt die möglichen Accessoires zurück, einschließlich Kopfbedeckung, Brille und Maske, mit einem Vertrauenswert zwischen 0 (null) und 1 für jedes Accessoire.
Weichzeichnung: Die Unschärfe des Gesichts im Bild. Dieses Attribut gibt einen Wert zwischen 0 und 1 und eine informelle Bewertung von gering, mittel oder hoch zurück.
Belichtung: Die Belichtung des Gesichts im Bild. Dieses Attribut gibt einen Wert zwischen 0 und 1 und die informelle Bewertung underExposure, goodExposure oder overExposure zurück.
Brille: Gibt an, ob das Gesicht eine Brille aufweist. Mögliche Werte sind NoGlasses, ReadingGlasses, SunGlasses und SwimmingGoggles.
Kopfhaltung: Die Ausrichtung des Gesichts im dreidimensionalen Raum. Dieses Attribut wird durch die Roll-, Gier- und Nickwinkel in Grad beschrieben, die nach der rechten Regel definiert sind. Die Reihenfolge der drei Winkel ist Rollwinkel-Gierwinkel-Nickwinkel, und der Wertebereich jedes Winkels reicht von -180 Grad bis 180 Grad. Die 3D-Ausrichtung des Gesichts wird der Reihe nach durch den Roll-, Gier- und Nickwinkel geschätzt. Die Winkelzuordnungen sind im folgenden Diagramm dargestellt:

Weitere Informationen zur Verwendung dieser Werte finden Sie in der Schrittanleitung zur Kopfhaltung.
Maske: Gibt an, ob das Gesicht eine Maske trägt. Dieses Attribut gibt einen möglichen Maskentyp und einen booleschen Wert zurück, um anzugeben, ob Nase und Mund bedeckt sind.
Rauschen: Visuelle Störungen, die im Gesicht erkannt wurden. Dieses Attribut gibt einen Wert zwischen 0 und 1 und eine informelle Bewertung von gering, mittel oder hoch zurück.
Okklusion: Gibt an, ob Objekte Teile des Gesichts verdecken. Dieses Attribut gibt einen booleschen Wert für die eyeOccluded, foreheadOccluded und mouthOccluded zurück.
QualityForRecognition Die allgemeine Bildqualität in Bezug darauf, ob das bei der Erkennung verwendete Bild von ausreichender Qualität ist, um die Gesichtserkennung durchzuführen. Der Wert ist eine informelle Bewertung von niedrig, mittel oder hoch. Für die Registrierung von Personen werden nur Bilder mit hoher Qualität empfohlen und die Qualität „mittel“ oder höher wird bei Identifikationen empfohlen.

Hinweis

Die Verfügbarkeit der einzelnen Attribute hängt vom angegebenen Erkennungsmodell ab. Das QualityForRecognition-Attribut hängt auch vom Erkennungsmodell ab, da es derzeit nur verfügbar ist, wenn eine Kombination aus detection model detection_01 (Erkennungsmodellerkennung_01) oder detection_03 (Erkennung_03) und recognition model recognition_03 (Wiedererkennungsmodellwiedererkennung_03) oder recognition_04 (Wiedererkennung_04) verwendet wird.

Eingabeanforderungen

Anhand der folgenden Tipps können Sie sicherstellen, dass Ihre Eingabebilder möglichst genaue Erkennungsergebnisse liefern:

Als Eingabebildformate werden JPEG, PNG, GIF (der erste Frame), BMP unterstützt.
Die Bilddateien dürfen maximal 6 MB groß sein.

Die minimal erkennbare Gesichtsgröße beträgt 36×36 Pixel auf einem Bild, das selbst nicht größer als 1.920×1.080 Pixel sein darf. Auf Bildern, die größer als 1.920×1.080 Pixel sind, ist eine proportional größere minimale Gesichtsgröße möglich. Eine Verkleinerung der Gesichtsgröße kann dazu führen, dass einige Gesichter nicht erkannt werden, selbst wenn sie größer als die minimal erkennbare Gesichtsgröße sind.
Die maximal erkennbare Gesichtsgröße beträgt 4.096×4.096 Pixel.
Gesichter außerhalb der Größenspanne von 36×36 bis 4.096×4.096 Pixel werden nicht erkannt.

Eingabedaten mit Ausrichtungsinformationen:

Einige Eingabebilder im JPEG-Format können Ausrichtungsinformationen in EXIF-Metadaten (Exchangeable Image File Format) enthalten. Wenn die EXIF-Ausrichtung verfügbar ist, werden die Bilder automatisch in die richtige Ausrichtung gedreht, bevor sie zur Gesichtserkennung gesendet werden. Das Gesichtsrechteck, die Orientierungspunkte und die Kopfhaltung für jedes erkannte Gesicht werden auf der Grundlage des gedrehten Bildes geschätzt.

Um das Gesichtsrechteck und die Orientierungspunkte richtig anzuzeigen, müssen Sie sicherstellen, dass das Bild richtig gedreht ist. Die meisten Tools zur Bildvisualisierung drehen das Bild standardmäßig automatisch entsprechend seiner EXIF-Ausrichtung. Bei anderen Tools müssen Sie die Drehung möglicherweise mithilfe Ihres eigenen Codes anwenden. Die folgenden Beispiele zeigen ein Gesichtsrechteck auf einem gedrehten Bild (links) und einem nicht gedrehten Bild (rechts).

Bilder mit zwei Gesichtern mit und ohne Drehung

Videoeingang

Wenn Sie Gesichter in einem Videofeed ermitteln möchten, können Sie die Leistung verbessern, indem Sie bestimmte Einstellungen an Ihrer Videokamera anpassen:

Glättung: Viele Videokameras wenden einen glättenden Effekt an. Sie sollten diesen deaktivieren, da er einen Weichzeichnungseffekt zwischen den Frames einfügt und damit die Schärfe reduziert.
Belichtungszeit: Eine kürzere Belichtungszeit verringert die Anzahl der Bewegungen zwischen den Frames und macht damit die einzelnen Frame deutlicher. Es werden Belichtungszeiten von 1/60 Sekunde oder kürzer empfohlen.
Verschlusswinkel: Einige Kameras geben anstelle der Belichtungszeit den Verschlusswinkel an. Sie sollten nach Möglichkeit einen niedrigeren Verschlusswinkel verwenden. Dies führt zu deutlicheren Videoframes.

Hinweis

Eine Kamera mit einem niedrigeren Verschlusswinkel nimmt pro Frame weniger Licht auf, sodass das Bild dunkler wird. Sie müssen die beste Einstellung selbst bestimmen.

Nächste Schritte

Nachdem Sie nun mit den Konzepten der Gesichtserkennung vertraut sind, erfahren Sie, wie Sie ein Skript schreiben, das Gesichter in einem vorgegebenen Bild erkennt.

Aufrufen der Erkennungs-API