Détection des visages, attributs et données d’entrée

Article
07/27/2023

Attention

L’accès au service visage est limité en fonction des critères d’éligibilité et d’utilisation afin de prendre en charge nos principes d’IA responsable. Le service visage est disponible uniquement pour les clients et partenaires gérés par Microsoft. Utilisez le Formulaire d’admission de la reconnaissance faciale pour demander l’accès. Pour plus d’informations, consultez la page Accès limité visage.

Important

Les attributs de visage sont prévus via l’utilisation d’algorithmes statistiques. Ils peuvent ne pas toujours être exacts. Soyez prudent lorsque vous prenez des décisions basées sur les données d’attribut. Veuillez-vous abstenir d’utiliser ces attributs pour la lutte contre l’usurpation d’identité numérique. À la place, nous recommandons d’utiliser la détection d’activité faciale. Pour plus d’informations, consultez Tutoriel : Détecter l’activité faciale.

Cet article explique les concepts de détection des visages et des données d’attribut de visage. La détection des visages est le processus visant à localiser des visages humains dans une image et à retourner, si vous le souhaitez, différents types de données liées aux visages.

Vous utilisez l’API Visage - Détecter pour détecter les visages dans une image. Pour commencer à utiliser l’API REST ou un kit SDK client, suivez un démarrage rapide. Ou, pour obtenir un guide plus détaillé, consultez Appeler l’API detect.

Rectangle du visage

Chaque visage détecté correspond à un champ faceRectangle dans la réponse. Il s’agit d’un ensemble de coordonnées de pixels left (gauche), top (haut), width (largeur) et height (hauteur) du visage détecté. Ces coordonnées vous permettent d’obtenir l’emplacement et la taille du visage. Dans la réponse de l’API, les visages sont répertoriés par ordre de taille, du plus grand au plus petit.

Essayez les fonctionnalités de détection des visages rapidement et facilement à l’aide de Vision Studio.

Essayez Vision Studio

ID du visage

L’ID de visage est une chaîne d’identification unique pour chaque visage détecté dans une image. Face ID nécessite une autorisation d’accès limité, que vous pouvez demander en remplissant le formulaire d’admission. Pour plus d’informations, consultez la page Accès limité visage. Vous pouvez demander un ID de visage dans votre appel d’API Visage - Détecter.

Points de repère du visage

Les points de repère de visage sont un ensemble de points faciles à trouver sur un visage, tels que les pupilles ou la pointe du nez. Il existe 27 points de repères prédéfinis par défaut. La figure suivante montre l’ensemble des 27 points :

A face diagram with all 27 landmarks labeled

Les coordonnées des points sont retournées en unités de pixels.

Le modèle Detection_03 a actuellement la détection de points de repère la plus précise. Les points de repère des yeux et des pupilles qu’il renvoie sont suffisamment précis pour permettre le suivi du regard sur le visage.

Attributs

Attention

Microsoft a mis fin aux fonctionnalités de reconnaissance faciale pouvant être utilisées pour essayer de déduire des états émotionnels et des attributs d’identité qui, s’ils sont mal utilisés, peuvent soumettre des personnes à des stéréotypes, à la discrimination ou à des dénis de services injustes. Il s’agit notamment de fonctionnalités qui prédisent l’émotion, le sexe, l’âge, le sourire, la pilosité faciale, les cheveux et le maquillage. Pour en savoir plus sur cette décision, cliquez ici.

Les attributs sont un ensemble de fonctionnalités qui peuvent éventuellement être détectées par l’API Visage - Détecter. Les attributs suivants peuvent être détectés :

Accessories. Indique si le visage donné possède des accessoires. Cet attribut retourne les accessoires possibles, y compris casques, lunettes et masques, avec un score de confiance entre zéro et un pour chaque accessoire.
blur. L’aspect flouté du visage dans l’image. Cet attribut retourne une valeur comprise entre 0 et 1, ainsi qu’une évaluation informelle low (faible), medium (moyenne) ou high (élevée).
exposure. L’exposition du visage dans l’image. Cet attribut retourne une valeur comprise entre 0 et 1, ainsi qu’une évaluation informelle underExposure (sous-exposition), goodExposure (bonne exposition) ou overExposure (surexposition).
glasses. Indique si le visage donné porte des lunettes. Les valeurs possibles sont NoGlasses (pas de lunettes), ReadingGlasses (lunettes de lecture), Sunglasses (lunettes de soleil) et Swimming Goggles (lunettes de natation).
headPose. Orientation du visage dans l’espace 3D. Cet attribut est décrit par les angles d’inclinaison latérale (roll), de lacet (yaw) et d’inclinaison longitudinale (pitch), en degrés, qui sont définis en fonction de la règle de droite. L’ordre de trois angles est inclinaison latérale-lacet-inclinaison longitudinale, et la plage de valeurs de chaque angle est comprise entre -180 degrés et 180 degrés. L’orientation 3D du visage est estimée par les angles d’inclinaison latérale (roll), de lacet (yaw) et d’inclinaison longitudinale, dans cet ordre. Consultez le diagramme suivant pour les mappages des angles :

Pour plus d’informations sur l’utilisation de ces valeurs, consultez le Guide pratique sur la posture de tête.
mask. Indique si le visage porte un masque. Cet attribut retourne un type de masque possible et une valeur booléenne pour indiquer si le nez et la bouche sont couverts.
noise. Le bruit visuel détecté dans l’image du visage. Cet attribut retourne une valeur comprise entre 0 et 1, ainsi qu’une évaluation informelle low (faible), medium (moyenne) ou high (élevée).
occlusion. Indique si des objets obstruent des parties du visage. Cet attribut retourne une valeur booléenne pour eyeOccluded (obstruction des yeux), foreheadOccluded (obstruction du front) et mouthOccluded (obstruction de la bouche).
QualityForRecognition Qualité d’image globale indiquant si l’image utilisée dans la détection est d’une qualité suffisante pour tenter une reconnaissance faciale. La valeur est une évaluation informelle de faible, moyenne ou élevée. Seules des images de qualité « élevée » sont recommandées pour l’inscription de personnes, et une qualité supérieure à « moyenne » est recommandée pour les scénarios d’identification.

Notes

La disponibilité de chaque attribut dépend du modèle de détection spécifié. L’attribut QualityForRecognition dépend également du modèle de reconnaissance, car il n’est actuellement disponible que lors de l’utilisation d’une combinaison de modèle de détection detection_01 ou detection_03, et du modèle de reconnaissance recognition_03 ou recognition_04.

Critères des entrées

Utilisez les conseils suivants pour vous assurer que vos images d’entrée fournissent les résultats de détection les plus précis :

Les formats d’image d’entrée pris en charge sont JPEG, PNG, GIF (la première image) et BMP.
La taille du fichier image ne doit pas dépasser 6 Mo.

La taille de visage minimale détectable est de 36 x 36 pixels dans une image dont la taille n’est pas supérieure à 1920 x 1080 pixels. Les images dont la taille est supérieure à 1920 x 1080 pixels ont une taille de visage minimale proportionnellement supérieure. La réduction de la taille du visage peut entraîner la non-détection de certains visages, même si leur taille est supérieure à la taille minimale détectable.
La taille de visage maximale détectable est de 4096 x 4096 pixels.
Les visages dont la taille n’est pas comprise entre 36 x 36 et 4096 x 4096 pixels ne sont pas détectés.

Données d’entrée avec les informations d’orientation :

Certaines images d’entrée au format JPEG peuvent contenir des informations d’orientation dans les métadonnées Exchangeable image file format (EXIF). Si l’orientation EXIF est disponible, les images sont automatiquement pivotées pour obtenir l’orientation appropriée avant d’être envoyées pour une détection de visages. Le rectangle de visage, les points de repère et la posture de tête de chaque visage détecté sont estimés en fonction de l’image pivotée.

Pour afficher correctement le rectangle de visage et les points de repère, vous devez vérifier que l’image est correctement pivotée. La plupart des outils de visualisation d’images pivotent automatiquement l’image en fonction de son orientation EXIF par défaut. Pour d’autres outils, vous devrez peut-être appliquer la rotation à l’aide de votre propre code. Les exemples suivants montrent un rectangle de visage sur une image pivotée (à gauche) et une image non pivotée (à droite).

Two face images with and without rotation

Entrée vidéo

Si vous détectez les visages à partir d’un flux vidéo, vous pouvez éventuellement améliorer les performances en ajustant certains paramètres de votre caméra vidéo :

Lissage : De nombreuses caméras vidéo appliquent un effet de lissage. Vous devez désactiver cette option si vous le pouvez, car elle crée un effet de flou entre les images et réduit la clarté.
Vitesse d’obturation : Une plus grande vitesse d’obturation réduit l’ampleur des mouvements entre les images et rend chaque image plus claire. Nous vous recommandons une vitesse d’obturation de 1/60 seconde ou plus.
Angle d’obturation : Certaines caméras spécifient un angle d’obturation à la place d’une vitesse d’obturation. Vous devez utiliser un angle d’obturation inférieur si possible. Cela permet de générer des images vidéo plus claires.

Notes

Une caméra avec un angle d’obturation inférieur recevra moins de lumière pour chaque image et l’image sera plus sombre. Vous devrez déterminer le niveau approprié à utiliser.

Étapes suivantes

Maintenant que vous êtes familiarisé avec les concepts de détection des visages, découvrez comment écrire un script pour détecter les visages dans une image donnée.

Appeler l’API de détection