顔検出と顔属性Face detection and attributes

この記事では、顔検出と顔属性のデータの概念について説明します。This article explains the concepts of face detection and face attribute data. 顔検出は、画像内の人間の顔を特定し、必要に応じて顔に関連するさまざまなデータを返すアクションです。Face detection is the action of locating human faces in an image and optionally returning different kinds of face-related data.

画像内の顔を検出するには、Face - Detect (顔 - 検出) 操作を使用します。You use the Face - Detect operation to detect faces in an image. 少なくとも、検出されたそれぞれの顔は応答の faceRectangle フィールドに対応します。At a minimum, each detected face corresponds to a faceRectangle field in the response. 左、上、幅、高さを示すこのピクセル座標のセットによって、特定された顔がマークされます。This set of pixel coordinates for the left, top, width, and height mark the located face. これらの座標を使用して、顔の位置とそのサイズを取得できます。Using these coordinates, you can get the location of the face and its size. API 応答では、顔はサイズの大きいものから小さいものの順に一覧表示されます。In the API response, faces are listed in size order from largest to smallest.

顔 IDFace ID

顔 ID は、画像内で検出されたそれぞれの顔に対する一意識別子文字列です。The face ID is a unique identifier string for each detected face in an image. 顔 ID は、Face - Detect (顔 - 検出) API 呼び出しで要求することができます。You can request a face ID in your Face - Detect API call.

顔のランドマークFace landmarks

顔のランドマークとは、瞳孔、鼻の先端など、顔の中の見つけやすいポイントのセットのことです。Face landmarks are a set of easy-to-find points on a face, such as the pupils or the tip of the nose. 既定では、27個 の定義済みランドマーク ポイントがあります。By default, there are 27 predefined landmark points. 次の図は、27 か所のポイントを示したものです。The following figure shows all 27 points:

顔のランドマーク (全 27 か所) とラベルを示した図

ポイントの座標はピクセル単位で返されます。The coordinates of the points are returned in units of pixels.

属性Attributes

属性は、Face - Detect (顔 - 検出) API で必要に応じて検出できる特徴のセットです。Attributes are a set of features that can optionally be detected by the Face - Detect API. 次の属性を検出できます。The following attributes can be detected:

  • 年齢Age. 特定の顔の推定年齢。The estimated age in years of a particular face.

  • ぼかしBlur. 画像内の顔のぼかしの程度。The blurriness of the face in the image. この属性は、0 から 1 までの間の値と、非公式の評価 (低、中、または高) を返します。This attribute returns a value between zero and one and an informal rating of low, medium, or high.

  • 感情Emotion. 感情のリストと、特定の顔に対する検出の信頼度。A list of emotions with their detection confidence for the given face. 信頼度スコアは正規化され、すべての感情スコアの合計は 1 になります。Confidence scores are normalized, and the scores across all emotions add up to one. 返される感情は、喜び、悲しみ、中立、怒り、軽蔑、嫌悪感、驚き、恐怖です。The emotions returned are happiness, sadness, neutral, anger, contempt, disgust, surprise, and fear.

  • 露出Exposure. 画像内の顔の露出の程度。The exposure of the face in the image. この属性は、0 から 1 までの間の値と、非公式の評価 (underExposure、goodExposure、または overExposure) を返します。This attribute returns a value between zero and one and an informal rating of underExposure, goodExposure, or overExposure.

  • 顔ひげFacial hair. 特定の顔について推定される顔ひげの有無と長さ。The estimated facial hair presence and the length for the given face.

  • 性別Gender. 特定の顔について推定される性別。The estimated gender of the given face. 可能な値は、男性、女性、および性別なしです。Possible values are male, female, and genderless.

  • 眼鏡Glasses. 特定の顔に眼鏡があるかどうか。Whether the given face has eyeglasses. 可能な値は、NoGlasses、ReadingGlasses、Sunglasses、および Swimming Goggles です。Possible values are NoGlasses, ReadingGlasses, Sunglasses, and Swimming Goggles.

  • 髪の毛Hair. 顔の髪質。The hair type of the face. この属性は、髪の毛が見えるかどうか、はげが検出されたかどうか、どのような髪の色が検出されたかを示します。This attribute shows whether the hair is visible, whether baldness is detected, and what hair colors are detected.

  • 頭部姿勢Head pose. 3 次元空間での顔の向き。The face's orientation in 3D space. この属性は、ピッチ、ロール、およびヨー角度 (度数) で表現されます。This attribute is described by the pitch, roll, and yaw angles in degrees. 値の範囲は、それぞれ -90 度から 90 度、- 180 度から 180 度、-90 度から 90 度です。The value ranges are -90 degrees to 90 degrees, -180 degrees to 180 degrees, and -90 degrees to 90 degrees, respectively. 角度のマッピングについては以下の図を参照してください。See the following diagram for angle mappings:

    ピッチ、ロール、およびヨーの軸のラベルが付いた頭部

  • 化粧Makeup. 顔に化粧があるかどうか。Whether the face has makeup. この属性は eyeMakeup および lipMakeup についてのブール値を返します。This attribute returns a Boolean value for eyeMakeup and lipMakeup.

  • ノイズNoise. 顔の画像で検出された視覚ノイズ。The visual noise detected in the face image. この属性は、0 から 1 までの間の値と、非公式の評価 (低、中、または高) を返します。This attribute returns a value between zero and one and an informal rating of low, medium, or high.

  • オクルージョンOcclusion. 顔のパーツをブロックするオブジェクトがあるかどうか。Whether there are objects blocking parts of the face. この属性は、eyeOccluded、foreheadOccluded、および mouthOccluded についてのブール値を返します。This attribute returns a Boolean value for eyeOccluded, foreheadOccluded, and mouthOccluded.

  • 笑顔Smile. 特定の顔の笑顔表現。The smile expression of the given face. この値は、0 (笑顔なし) から 1 (鮮明な笑顔) までです。This value is between zero for no smile and one for a clear smile.

重要

顔属性は統計的アルゴリズムを使用して予測されます。Face attributes are predicted through the use of statistical algorithms. 必ずしも正確とは限りません。They might not always be accurate. 属性データに基づいて意思決定を行う場合は、注意が必要です。Use caution when you make decisions based on attribute data.

入力データInput data

次のヒントを使用して、入力画像から最も正確な検出結果が得られるようにしてください。Use the following tips to make sure that your input images give the most accurate detection results:

  • サポートされている入力画像形式は、JPEG、PNG、GIF (最初のフレーム)、BMP です。The supported input image formats are JPEG, PNG, GIF for the first frame, and BMP.
  • 画像ファイル サイズは 4 MB 以内であることが必要です。The image file size should be no larger than 4 MB.
  • 検出可能な顔のサイズの範囲は、36 x 36 ~ 4096 x 4096 ピクセルです。The detectable face size range is 36 x 36 to 4096 x 4096 pixels. この範囲に含まれない顔は検出されません。Faces outside of this range won't be detected.
  • 技術的な課題のために、一部の顔を検出できない場合があります。Some faces might not be detected because of technical challenges. 顔の角度 (頭部姿勢) や顔のオクルージョン (顔のパーツをブロックするサングラスや手などの物体) が極端に大きい場合、検出に影響することがあります。Extreme face angles (head pose) or face occlusion (objects such as sunglasses or hands that block part of the face) can affect detection. 顔が正面または正面に近い方向を向いているときに、最善の結果が得られます。Frontal and near-frontal faces give the best results.

ビデオ フィードから顔を検出する場合は、ビデオ カメラの特定の設定を調整することによってパフォーマンスを改善できる場合があります。If you're detecting faces from a video feed, you may be able to improve performance by adjusting certain settings on your video camera:

  • スムージング:多くのビデオ カメラではスムージング効果が適用されます。Smoothing: Many video cameras apply a smoothing effect. これによりフレーム間にぼかしが発生して鮮明さが失われるため、可能な場合はオフにしてください。You should turn this off if you can because it creates a blur between frames and reduces clarity.

  • シャッター速度:シャッター速度が速いほど、フレーム間の動きが少なくなり、各フレームがより鮮明になります。Shutter Speed: A faster shutter speed reduces the amount of motion between frames and makes each frame clearer. 1/60 秒よりも速いシャッター速度をお勧めします。We recommend shutter speeds of 1/60 second or faster.

  • シャッター角度:一部のカメラでは、シャッター速度の代わりにシャッター角度を指定します。Shutter Angle: Some cameras specify shutter angle instead of shutter speed. 可能であれば低いシャッター角度を使用してください。You should use a lower shutter angle if possible. これにより、ビデオ フレームがより鮮明になります。This will result in clearer video frames.

    注意

    シャッター角度が小さいカメラは、各フレームで受ける光量が少なくなるため、画像が暗くなります。A camera with a lower shutter angle will receive less light in each frame, so the image will be darker. 使用する適切なレベルを決定する必要があります。You'll need to determine the right level to use.

次の手順Next steps

顔検出の概念が理解できたので、特定の画像内の顔を検出するスクリプトを作成する方法について説明します。Now that you're familiar with face detection concepts, learn how to write a script that detects faces in a given image.