Computer Vision とはWhat is Computer Vision?

Azure の Computer Vision サービスを使用すると、開発者は、画像を処理して情報を返す高度なアルゴリズムにアクセスできます。Azure's Computer Vision service provides developers with access to advanced algorithms that process images and return information. イメージを分析するには、イメージをアップロードするか、またはイメージの URL を指定します。To analyze an image, you can either upload an image or specify an image URL. この画像処理アルゴリズムでは、目的の視覚的特徴に応じて、さまざまな方法でコンテンツを分析できます。The images processing algorithms can analyze content in several different ways, depending on the visual features you're interested in. たとえば、Computer Vision では、成人向けまたはきわどいコンテンツが画像に含まれているかどうかを判断したり、画像内の人の顔をすべて検索したりすることができます。For example, Computer Vision can determine if an image contains adult or racy content or find all of the human faces in an image.

Computer Vision は、アプリケーションからネイティブ SDK を使用するか、REST API を直接呼び出すことで使用できます。You can use Computer Vision in your application by using either a native SDK or invoking the REST API directly. このページでは、Computer Vision でできることを大まかに取り上げます。This page broadly covers what you can do with Computer Vision.

画像を分析して分析情報を得るAnalyze images for insight

画像を分析し、その視覚的特徴や性質に関する分析情報を検出して提示できます。You can analyze images to detect and provide insights about their visual features and characteristics. 次の表に示したすべての機能は Analyze Image API に備わっています。All of the features in the table below are provided by the Analyze Image API.

ActionAction 説明Description
視覚的特徴のタグ付けTag visual features 数千個の認識可能なオブジェクト、生物、風景、および動作のセットから、画像内の視覚的な特徴を識別してタグ付けします。Identify and tag visual features in an image, from a set of thousands of recognizable objects, living things, scenery, and actions. タグが不明確な場合や、常識的でない場合は、API 応答により、タグのコンテキストを明確にするためのヒントが示されます。When the tags are ambiguous or not common knowledge, the API response provides hints to clarify the context of the tag. タグ付けの対象は、前景の人物などの被写体に限らず、背景 (屋内または屋外)、家具、道具、植物、動物、アクセサリ、ガジェットなども含まれます。Tagging isn't limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.
オブジェクトの検出Detect objects オブジェクトの検出はタグ付けに似ていますが、API で返されるのは、各タグが適用された境界ボックスの座標です。Object detection is similar to tagging, but the API returns the bounding box coordinates for each tag applied. たとえば、犬、猫、および人物が画像に含まれている場合、検出操作では、これらのオブジェクトと画像内での各オブジェクトの座標の一覧が表示されます。For example, if an image contains a dog, cat and person, the Detect operation will list those objects together with their coordinates in the image. この機能を使用して、画像内のオブジェクト間のリレーションシップをさらに処理できます。You can use this functionality to process further relationships between the objects in an image. 画像内に同じタグの複数のインスタンスが存在する場合はそれも知ることができます。It also lets you know when there are multiple instances of the same tag in an image.
ブランドの検出Detect brands 数千点ものグローバル ロゴのデータベースから、画像または動画に含まれる商業ブランドを識別します。Identify commercial brands in images or videos from a database of thousands of global logos. この機能は、たとえばソーシャル メディアで最も人気のあるブランドや、メディアのプロダクト プレイスメントの中で最も普及しているブランドを検出する目的で使用できます。You can use this feature, for example, to discover which brands are most popular on social media or most prevalent in media product placement.
イメージの分類Categorize an image 親/子で引き継がれる階層を備えたカテゴリの分類を使用して、イメージ全体を識別してタグ付けします。Identify and categorize an entire image, using a category taxonomy with parent/child hereditary hierarchies. カテゴリは単独で、または新しいタグ付けモデルと共に使用できます。Categories can be used alone, or with our new tagging models.
現時点では、イメージのタグ付けと分類でサポートされている言語は、英語のみです。Currently, English is the only supported language for tagging and categorizing images.
イメージの説明Describe an image 完全な文を使用して、人間が判読できる言語でイメージ全体の説明を生成します。Generate a description of an entire image in human-readable language, using complete sentences. Computer Vision のアルゴリズムでは、イメージ内の識別されるオブジェクトに基づいて、さまざまな説明が生成されます。Computer Vision's algorithms generate various descriptions based on the objects identified in the image. 説明はそれぞれ評価され、信頼度スコアが生成されます。The descriptions are each evaluated and a confidence score generated. その後、信頼度スコアが最も高いものから最も低いものの順に並べられたリストが返されます。A list is then returned ordered from highest confidence score to lowest.
顔の検出Detect faces イメージ内の人物の顔を検出して、検出されたそれぞれの顔に関する情報を提示します。Detect faces in an image and provide information about each detected face. Computer Vision は検出された各顔の座標、四角い枠、性別、および年齢を返します。Computer Vision returns the coordinates, rectangle, gender, and age for each detected face.
Computer Vision では、Face サービス機能のサブセットが提供されます。Computer Vision provides a subset of the Face service functionality. Face サービスは、顔識別や姿勢検出など、より詳細な分析に使用できます。You can use the Face service for more detailed analysis, such as facial identification and pose detection.
イメージの種類の検出Detect image types イメージが線による描画かクリップ アートのようになっているかなど、イメージの性質を検出します。Detect characteristics about an image, such as whether an image is a line drawing or the likelihood of whether an image is clip art.
ドメイン固有のコンテンツの検出Detect domain-specific content ドメイン モデルを使用して、有名人やランドマークなど、イメージ内のドメイン固有のコンテンツを検出して識別します。Use domain models to detect and identify domain-specific content in an image, such as celebrities and landmarks. たとえば、画像に人物が含まれている場合、Computer Vision では、有名人用のドメイン モデルを使用して、画像内で検出された人物が既知の有名人と一致するかどうかを判断できます。For example, if an image contains people, Computer Vision can use a domain model for celebrities to determine if the people detected in the image are known celebrities.
配色の検出Detect the color scheme イメージ内にある色の使用状況を分析します。Analyze color usage within an image. Computer Vision では、イメージが白黒かカラーかを特定すると共に、カラーのイメージの場合、主要な色やアクセントになる色を識別できます。Computer Vision can determine whether an image is black & white or color and, for color images, identify the dominant and accent colors.
サムネイルの生成Generate a thumbnail イメージのコンテンツを分析して、そのイメージの適切なサムネイルを生成します。Analyze the contents of an image to generate an appropriate thumbnail for that image. Computer Vision では、最初に高品質のサムネイルを生成した後、画像内のオブジェクトを分析して "関心領域" を特定します。Computer Vision first generates a high-quality thumbnail and then analyzes the objects within the image to determine the area of interest. Computer Vision では、その後、関心領域の要件に合わせて、画像がトリミングされます。Computer Vision then crops the image to fit the requirements of the area of interest. ユーザーのニーズに応じて、元のイメージの縦横比とは異なる縦横比を使用して、生成されたサムネイルを表示することができます。The generated thumbnail can be presented using an aspect ratio that is different from the aspect ratio of the original image, depending on your needs.
関心領域を取得するGet the area of interest 画像の内容が分析され、"関心領域" の座標が返されます。Analyze the contents of an image to return the coordinates of the area of interest. 画像をクロップしたり、サムネイルを生成したりする代わりに、Computer Vision では領域の境界ボックスの座標が返されるため、呼び出し元のアプリケーションで必要に応じて元の画像を変更できます。Instead of cropping the image and generating a thumbnail, Computer Vision returns the bounding box coordinates of the region, so the calling application can modify the original image as desired.

画像からテキストを抽出するExtract text from images

Computer Vision の Read API を使用して、画像から印刷されたテキストと手書きのテキストをコンピューターで読み取り可能な文字ストリームに抽出できます。You can use Computer Vision Read API to extract printed and handwritten text from images into a machine-readable character stream. 読み取り API では、最新モデルを使用し、レシート、ポスター、名刺、手紙、ホワイトボードなど、さまざまなサーフェスや背景でテキストを使用します。The Read API uses our latest models and works with text on a variety of surfaces and backgrounds, such as receipts, posters, business cards, letters, and whiteboards. 現在、サポートされている言語は英語だけです。Currently, English is the only supported language.

また、光学文字認識 (OCR) API を使用して、複数の言語で印刷されたテキストを抽出することもできます。You can also use the optical character recognition (OCR) API to extract printed text in several languages. 必要に応じて、OCR では、認識されたテキストの回転を修正し、各語句のフレーム座標を提供します。If needed, OCR corrects the rotation of the recognized text and provides the frame coordinates of each word. OCR は 25 の言語をサポートし、認識されたテキストの言語を自動的に検出します。OCR supports 25 languages and automatically detects the language of the recognized text.

画像内のコンテンツを調整するModerate content in images

Computer Vision を使用して、イメージ内の成人向けやきわどいコンテンツを検出し、その両方の信頼度スコアを返します。You can use Computer Vision to detect adult and racy content in an image and return a confidence score for both. スライディング スケールで成人向けのきわどいコンテンツを検出するためのフィルターを設定し、自分の設定を反映させることができます。You can set the filter for adult and racy content detection on a sliding scale to accommodate your preferences.

コンテナーの使用Use containers

印刷されたテキストと手書きのテキストをローカルに認識するには、標準化された Docker コンテナーをデータの近くにインストールして、Computer Vision コンテナーを使用します。Use Computer Vision containers to recognize printed and handwritten text locally by installing a standardized Docker container closer to your data.

イメージの要件Image requirements

Computer Vision では、次の要件に合ったイメージを分析できます。Computer Vision can analyze images that meet the following requirements:

  • イメージが、JPEG、PNG、GIF、または BMP で提示されているThe image must be presented in JPEG, PNG, GIF, or BMP format
  • イメージのファイル サイズが 4 メガバイト (MB) 未満であるThe file size of the image must be less than 4 megabytes (MB)
  • イメージのディメンションが 50 x 50 ピクセルよりも大きい値であるThe dimensions of the image must be greater than 50 x 50 pixels
    • OCR 用に、画像の寸法が 50 x 50 から 4,200 x 4,200 ピクセルの間であるFor OCR, the dimensions of the image must be between 50 x 50 and 4200 x 4200 pixels

データのプライバシーとセキュリティData privacy and security

Cognitive Services 全般に言えることですが、Computer Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。As with all of the Cognitive Services, developers using the Computer Vision service should be aware of Microsoft's policies on customer data. 詳細については、Microsoft セキュリティ センターの Cognitive Services のページを参照してください。See the Cognitive Services page on the Microsoft Trust Center to learn more.

次の手順Next steps

以下のクイック スタート ガイドに従って、実際に Computer Vision を使ってみましょう。Get started with Computer Vision by following a quickstart guide: