画像分析とは

Computer Vision Image Analysis サービスでは、画像からさまざまな視覚的特徴を抽出できます。 たとえば、成人向けコンテンツが画像に含まれているかどうかを判断したり、特定のブランドや物体、人の顔を検出したりすることができます。

画像分析は、クライアント ライブラリ SDK を通じて、または REST API を直接呼び出すことで使用できます。 使用を開始するには、クイックスタートに従ってください。

または、Vision Studio を使用して、ブラウザーですばやく簡単に画像分析の機能を試すことができます。

このドキュメントには、次のような記事が記載されています。

  • クイックスタートは、サービスの呼び出しと結果の取得を短時間で行えるようにする、ステップバイステップの手順です。
  • 攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。
  • 概念の記事では、サービスの機能と特長について詳しく説明します。
  • チュートリアルはより長文のガイドであり、より広範なビジネス ソリューションの 1 コンポーネントとしてこのサービスを使用する方法を示すものです。

より構造化されたアプローチについては、画像分析の Microsoft Learn モジュールに従ってください。

画像分析の機能

画像を分析し、その視覚的特徴や性質に関する分析情報を提示できます。 次の一覧のすべての機能は、Analyze Image API に備わっています。 クイックスタートに従って始めてください。

視覚的特徴のタグ付け

数千個の認識可能なオブジェクト、生物、風景、および動作のセットから、画像内の視覚的な特徴を識別してタグ付けします。 タグが不明確な場合や、常識的でない場合は、API 応答により、タグのコンテキストを明確にするためのヒントが示されます。 タグ付けの対象は、前景の人物などの被写体に限らず、背景 (屋内または屋外)、家具、道具、植物、動物、アクセサリ、ガジェットなども含まれます。 視覚的特徴のタグ付け

An images of a skateboarder with tags listen on the right

物体を検出する

オブジェクトの検出はタグ付けに似ていますが、API で返されるのは、各タグが適用された境界ボックスの座標です。 たとえば犬や猫、人物が画像に含まれている場合、検出操作によって、それらのオブジェクトが、画像における対応する座標と共に一覧表示されます。 この機能を使用して、画像内のオブジェクト間のリレーションシップをさらに処理できます。 画像内に同じタグの複数のインスタンスが存在する場合はそれも知ることができます。 物体を検出する

An image of an office with a rectangle drawn around a laptop

ブランドを検出する

数千点ものグローバル ロゴのデータベースから、画像または動画に含まれる商業ブランドを識別します。 この機能は、たとえば、ソーシャル メディアで最も人気のあるブランドや、メディアのプロダクト プレイスメントの中で最も普及しているブランドを検出する目的で使用できます。 ブランドを検出する

イメージの分類

親/子で引き継がれる階層を備えたカテゴリの分類を使用して、イメージ全体を識別してタグ付けします。 カテゴリは単独で、または新しいタグ付けモデルと共に使用できます。
現時点では、イメージのタグ付けと分類でサポートされている言語は、英語のみです。 イメージの分類

イメージの説明

完全な文を使用して、人間が判読できる言語でイメージ全体の説明を生成します。 Computer Vision のアルゴリズムでは、イメージ内の識別されるオブジェクトに基づいて、さまざまな説明が生成されます。 説明はそれぞれ評価され、信頼度スコアが生成されます。 その後、信頼度スコアが最も高いものから最も低いものの順に並べられたリストが返されます。 イメージの説明

An image of cows with a simple description on the right

顔を検出する

イメージ内の人物の顔を検出して、検出されたそれぞれの顔に関する情報を提示します。 Computer Vision は検出された各顔の座標、四角い枠、性別、および年齢を返します。 顔を検出する

これらの目的で専用の Face API を使用することもできます。 顔識別や姿勢検出など、より詳細な分析に使用できます。

イメージの種類の検出

イメージが線による描画かクリップ アートのようになっているかなど、イメージの性質を検出します。 イメージの種類の検出

ドメイン固有のコンテンツの検出

ドメイン モデルを使用して、有名人やランドマークなど、イメージ内のドメイン固有のコンテンツを検出して識別します。 たとえば、画像に人物が含まれている場合、Computer Vision では、有名人用のドメイン モデルを使用して、画像内で検出された人物が既知の有名人と一致するかどうかを判断できます。 ドメイン固有のコンテンツの検出

配色の検出

イメージ内にある色の使用状況を分析します。 Computer Vision では、イメージが白黒かカラーかを特定すると共に、カラーのイメージの場合、主要な色やアクセントになる色を識別できます。 配色の検出

サムネイルの生成

イメージのコンテンツを分析して、そのイメージの適切なサムネイルを生成します。 Computer Vision では、最初に高品質のサムネイルを生成した後、画像内のオブジェクトを分析して "関心領域" を特定します。 Computer Vision では、その後、関心領域の要件に合わせて、画像がトリミングされます。 ユーザーのニーズに応じて、元のイメージの縦横比とは異なる縦横比を使用して、生成されたサムネイルを表示することができます。 サムネイルの生成

An image of a person on a mountain, with cropped versions to the right

関心領域を取得する

画像の内容が分析され、"関心領域" の座標が返されます。 画像をクロップしたり、サムネイルを生成したりする代わりに、Computer Vision では領域の境界ボックスの座標が返されるため、呼び出し元のアプリケーションで必要に応じて元の画像を変更できます。 関心領域を取得する

画像内のコンテンツを調整する

Computer Vision を使用すると、画像内の成人向けコンテンツを検出し、さまざまな分類の信頼度スコアを返すことができます。 コンテンツをフラグ設定するためのしきい値は、自分の都合に合わせて、スライディング スケールで設定することができます。

イメージの要件

画像分析は、次の要件を満たす画像で動作します。

  • イメージが、JPEG、PNG、GIF、または BMP で提示されている
  • イメージのファイル サイズが 4 メガバイト (MB) 未満である
  • イメージのディメンションが 50 x 50 ピクセルよりも大きい値である

データのプライバシーとセキュリティ

Cognitive Services 全般に言えることですが、Computer Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。 詳細については、Microsoft セキュリティ センターの Cognitive Services のページを参照してください。

次のステップ

使用する開発言語のクイックスタート ガイドに従って、画像分析の使用を開始します。