Computer Vision이란?What is Computer Vision?

개발자는 관심 있는 시각적 기능에 따라 Azure의 Computer Vision 서비스를 통해 이미지를 처리하고 정보를 반환하는 고급 알고리즘을 사용할 수 있습니다.Azure's Computer Vision service provides developers with access to advanced algorithms that process images and return information, depending on the visual features you're interested in. 예를 들어 Computer Vision은 이미지에 성인 콘텐츠가 포함되어 있는지 확인하거나 이미지에서 모든 사람 얼굴을 찾을 수 있습니다.For example, Computer Vision can determine if an image contains adult content, or it can find all of the human faces in an image.

네이티브 SDK를 통해 또는 REST API를 직접 호출하여 애플리케이션에서 Computer Vision을 사용할 수 있습니다.You can use Computer Vision in your application through a native SDK or by invoking the REST API directly. 이 페이지는 Computer Vision에서 수행할 수 있는 작업을 광범위하게 다룹니다.This page broadly covers what you can do with Computer Vision.

디지털 자산 관리를 위한 Computer VisionComputer Vision for digital asset management

Computer Vision은 여러 DAM(디지털 자산 관리) 시나리오를 구현할 수 있습니다.Computer Vision can power many digital asset management (DAM) scenarios. DAM은 풍부한 미디어 자산을 구성, 저장, 검색하고 디지털 권한 및 사용 권한을 관리하는 비즈니스 프로세스입니다.DAM is the business process of organizing, storing, and retrieving rich media assets and managing digital rights and permissions. 예를 들어 기업에서 시각적 로고, 면, 개체, 색 등을 기준으로 이미지를 그룹화하고 식별하기를 원할 수 있습니다.For example, a company may want to group and identify images based on visible logos, faces, objects, colors, and so on. 또는 이미지를 검색할 수 있도록 이미지에 대한 자막을 자동으로 생성하고 키워드를 연결하기를 원할 수 있습니다.Or, you might want to automatically generate captions for images and attach keywords so they're searchable. Cognitive Services, Azure Cognitive Search 및 인텔리전트 보고를 사용하는 올인원 DAM 솔루션은 GitHub의 정보 마이닝 솔루션 가속기 가이드를 참조하세요.For an all-in-one DAM solution using Cognitive Services, Azure Cognitive Search, and intelligent reporting, see the Knowledge Mining Solution Accelerator Guide on GitHub. 다른 DAM 예제는 Computer Vision 솔루션 템플릿 리포지토리를 참조하세요.For other DAM examples, see the Computer Vision Solution Templates repository.

인사이트를 위한 이미지 분석Analyze images for insight

이미지를 분석하여 이미지의 시각적 기능 및 특성에 대한 인사이트를 검색하고 제공할 수 있습니다.You can analyze images to detect and provide insights about their visual features and characteristics. 아래 표의 모든 기능이 Analyze Image API로 제공됩니다.All of the features in the table below are provided by the Analyze Image API.

작업Action DescriptionDescription
시각적 기능 태그 지정Tag visual features 수천 개의 인식 가능한 사물, 생물, 풍경 및 동작 세트를 기반으로 하여 이미지의 시각적 기능을 식별하고 태그를 지정합니다.Identify and tag visual features in an image, from a set of thousands of recognizable objects, living things, scenery, and actions. 태그가 모호하거나 누구나 알 수 있는 것이 아닌 경우 API 응답은 태그의 컨텍스트를 명확히 설명하는 ‘힌트’를 제공합니다.When the tags are ambiguous or not common knowledge, the API response provides hints to clarify the context of the tag. 태그 지정은 전면에 있는 사람과 같은 주요 주체로 국한되지 않고, 환경(실내 또는 실외), 가구, 도구, 식물, 동물, 액세서리, 가젯 등을 포함합니다.Tagging isn't limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.
개체 검색Detect objects 개체 검색은 태그 지정과 유사하지만, API는 적용된 각 태그의 경계 상자 좌표를 반환합니다.Object detection is similar to tagging, but the API returns the bounding box coordinates for each tag applied. 예를 들어 이미지에 개, 고양이 및 사람이 포함된 경우 검색 작업을 실행하면 해당 개체를 해당 좌표와 함께 이미지에 나열합니다.For example, if an image contains a dog, cat and person, the Detect operation will list those objects together with their coordinates in the image. 이 기능을 사용하여 이미지의 개체 간 관계를 추가로 처리할 수 있습니다.You can use this functionality to process further relationships between the objects in an image. 또한 이 기능을 통해 이미지에 동일한 태그의 여러 인스턴스가 있는 경우 이를 알 수 있습니다.It also lets you know when there are multiple instances of the same tag in an image.
브랜드 검색Detect brands 수천 개의 글로벌 로고 데이터베이스에서 이미지 또는 비디오에 있는 상업용 브랜드를 식별합니다.Identify commercial brands in images or videos from a database of thousands of global logos. 예를 들어 이 기능을 사용하여 소셜 미디어에서 가장 인기 있거나 미디어 제품 배치에서 가장 일반적인 브랜드를 검색할 수 있습니다.You can use this feature, for example, to discover which brands are most popular on social media or most prevalent in media product placement.
이미지 분류Categorize an image 부모/자식 유전적 계층 구조가 있는 범주 분류를 사용하여 전체 이미지를 식별하고 분류합니다.Identify and categorize an entire image, using a category taxonomy with parent/child hereditary hierarchies. 범주는 단독으로 사용하거나 새 태그 지정 모델을 통해 사용할 수 있습니다.Categories can be used alone, or with our new tagging models.
현재 영어는 이미지에 대한 태그 지정 및 분류에 지원되는 유일한 언어입니다.Currently, English is the only supported language for tagging and categorizing images.
이미지 설명Describe an image 완전한 문장을 사용하여 사람이 읽을 수 있는 언어로 전체 이미지에 대한 설명을 생성합니다.Generate a description of an entire image in human-readable language, using complete sentences. Computer Vision의 알고리즘은 이미지에서 식별된 개체에 따라 다양한 설명을 생성합니다.Computer Vision's algorithms generate various descriptions based on the objects identified in the image. 설명이 각각 평가되고 신뢰도 점수가 생성됩니다.The descriptions are each evaluated and a confidence score generated. 그런 다음, 가장 높은 신뢰도 점수부터 가장 낮은 점수 순으로 정렬된 목록이 반환됩니다.A list is then returned ordered from highest confidence score to lowest.
얼굴 감지Detect faces 이미지에서 얼굴을 감지하고, 감지된 얼굴 각각에 대한 정보를 제공합니다.Detect faces in an image and provide information about each detected face. Computer Vision은 감지된 얼굴 각각에 대한 좌표, 사각형, 성별 및 나이를 반환합니다.Computer Vision returns the coordinates, rectangle, gender, and age for each detected face.
Computer Vision은 Face 서비스 기능의 하위 집합을 제공합니다.Computer Vision provides a subset of the Face service functionality. 얼굴 인식 및 포즈 감지와 같이 더 자세한 분석을 위한 Face 서비스를 사용할 수 있습니다.You can use the Face service for more detailed analysis, such as facial identification and pose detection.
이미지 유형 감지Detect image types 이미지가 선 그리기인지, 아니면 이미지가 클립 아트인지 여부와 같은 이미지에 대한 특성을 감지합니다.Detect characteristics about an image, such as whether an image is a line drawing or the likelihood of whether an image is clip art.
도메인 특정 콘텐츠 감지Detect domain-specific content 도메인 모델을 사용하여 유명인 및 랜드마크와 같은 이미지의 도메인 관련 콘텐츠를 감지하고 식별합니다.Use domain models to detect and identify domain-specific content in an image, such as celebrities and landmarks. 예를 들어 이미지에 사람이 포함되어있는 경우 Computer Vision은 유명인에 대한 도메인 모델을 사용하여 이미지에서 감지된 사람이 알려진 유명인과 일치하는지 확인합니다.For example, if an image contains people, Computer Vision can use a domain model for celebrities to determine if the people detected in the image are known celebrities.
색 구성표 감지Detect the color scheme 이미지 내의 색 사용을 분석합니다.Analyze color usage within an image. Computer Vision은 이미지가 흑백인지, 아니면 컬러인지 여부를 결정할 수 있고, 컬러 이미지의 경우 기준 컬러와 테마 컬러를 식별할 수 있습니다.Computer Vision can determine whether an image is black & white or color and, for color images, identify the dominant and accent colors.
썸네일 생성Generate a thumbnail 이미지의 콘텐츠를 분석하여 해당 이미지에 대한 적절한 썸네일을 생성합니다.Analyze the contents of an image to generate an appropriate thumbnail for that image. Computer Vision은 먼저 고품질 썸네일을 생성한 다음, 이미지 내의 개체를 분석하여 ‘관심 영역’을 결정합니다. Computer Vision first generates a high-quality thumbnail and then analyzes the objects within the image to determine the area of interest. 그런 다음, Computer Vision은 관심 영역의 요구 사항에 맞게 이미지를 자릅니다.Computer Vision then crops the image to fit the requirements of the area of interest. 생성된 썸네일은 필요에 따라 원래 이미지의 가로 세로 비율과 다른 가로 세로 비율을 사용하여 표시할 수 있습니다.The generated thumbnail can be presented using an aspect ratio that is different from the aspect ratio of the original image, depending on your needs.
관심 영역 가져오기Get the area of interest 이미지의 콘텐츠를 분석하여 ‘관심 영역’의 좌표를 반환합니다. Analyze the contents of an image to return the coordinates of the area of interest. 이미지를 자르고 썸네일을 생성하는 대신 Computer Vision은 영역의 경계 상자 좌표를 반환하므로 호출 애플리케이션이 원하는 대로 원본 이미지를 수정할 수 있습니다.Instead of cropping the image and generating a thumbnail, Computer Vision returns the bounding box coordinates of the region, so the calling application can modify the original image as desired.

이미지에서 텍스트 추출Extract text from images

Computer Vision Read API를 사용하여 이미지에서 인쇄 및 필기 텍스트를 머신이 읽을 수 있는 문자 스트림으로 추출할 수 있습니다.You can use Computer Vision Read API to extract printed and handwritten text from images into a machine-readable character stream. Read API는 최신 모델을 사용하고, 여러 다른 표면 및 배경을 갖는 다양한 텍스트(예: 영수증, 포스터, 명함, 편지 및 화이트보드)에 사용할 수 있습니다.The Read API uses our latest models and works with text on a variety of surfaces and backgrounds, such as receipts, posters, business cards, letters, and whiteboards. 현재 지원되는 언어는 영어뿐입니다.Currently, English is the only supported language.

OCR(광학 문자 인식) API를 사용하여 여러 언어로 인쇄된 텍스트를 추출할 수도 있습니다.You can also use the optical character recognition (OCR) API to extract printed text in several languages. 필요한 경우 OCR은 인식된 텍스트의 회전을 수정하고 각 단어에 대한 프레임 좌표를 제공합니다.If needed, OCR corrects the rotation of the recognized text and provides the frame coordinates of each word. OCR은 25개 언어를 지원하며, 인식된 텍스트의 언어를 자동으로 감지합니다.OCR supports 25 languages and automatically detects the language of the recognized text.

이미지 콘텐츠 조정Moderate content in images

Computer Vision을 사용하여 이미지에서 성인 콘텐츠를 감지하고 다양한 분류에 대한 신뢰도 점수를 반환할 수 있습니다.You can use Computer Vision to detect adult content in an image and return confidence scores for different classifications. 콘텐츠 플래그 지정 임계값은 기본 설정에 맞게 슬라이딩 배율로 설정할 수 있습니다.The threshold for flagging content can be set on a sliding scale to accommodate your preferences.

컨테이너 사용Use containers

데이터에 더 가깝게 표준화된 Docker 컨테이너를 설치함으로써 Computer Vision 컨테이너를 사용하여 인쇄 텍스트와 필기 텍스트를 로컬로 인식합니다.Use Computer Vision containers to recognize printed and handwritten text locally by installing a standardized Docker container closer to your data.

이미지 요구 사항Image requirements

Computer Vision에서 이미지를 분석하는 데 충족되어야 하는 요구 사항은 다음과 같습니다.Computer Vision can analyze images that meet the following requirements:

  • 이미지가 JPEG, PNG, GIF 또는 BMP 형식으로 제공되어야 합니다.The image must be presented in JPEG, PNG, GIF, or BMP format
  • 이미지의 파일 크기가 4MB보다 작아야 합니다.The file size of the image must be less than 4 megabytes (MB)
  • 이미지의 크기가 50 x 50 픽셀보다 커야 합니다.The dimensions of the image must be greater than 50 x 50 pixels
    • 읽기 API의 경우 이미지의 크기는 50 x 50 픽셀 및 10000 x 10000 픽셀 사이여야 합니다.For the Read API, the dimensions of the image must be between 50 x 50 and 10000 x 10000 pixels.

데이터 개인 정보 보호 및 보안Data privacy and security

모든 Cognitive Services와 마찬가지로 Computer Vision 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft의 정책에 대해 알고 있어야 합니다.As with all of the Cognitive Services, developers using the Computer Vision service should be aware of Microsoft's policies on customer data. Microsoft Trust Center의 Cognitive Services 페이지에서 자세히 알아보세요.See the Cognitive Services page on the Microsoft Trust Center to learn more.

다음 단계Next steps

빠른 시작 가이드에 따라 Computer Vision 시작:Get started with Computer Vision by following a quickstart guide: