Computer Vision이란?What is Computer Vision?

클라우드 기반 Computer Vision 서비스는 개발자에게 이미지를 처리하고 정보를 반환하는 고급 알고리즘에 대한 액세스를 제공합니다.The cloud-based Computer Vision service provides developers with access to advanced algorithms for processing images and returning information. Computer Vision은 JPEG 및 PNG와 같은 인기 있는 이미지 형식을 사용합니다.Computer Vision works with popular image formats, such as JPEG and PNG. 이미지를 분석하려면 이미지를 업로드하거나 이미지 URL을 지정할 수 있습니다.To analyze an image, you can either upload an image or specify an image URL. Computer Vision 알고리즘은 관심 있는 시각적 기능에 따라 이미지의 콘텐츠를 다양한 방식으로 분석할 수 있습니다.Computer Vision algorithms can analyze the content of an image in different ways, depending on the visual features you're interested in. 예를 들어 Computer Vision에서 이미지에 성인용 또는 선정적인 콘텐츠가 포함되어 있는지 확인하거나 이미지의 모든 얼굴을 찾을 수 있습니다.For example, Computer Vision can determine if an image contains adult or racy content, or find all the faces in an image.

클라이언트 라이브러리를 통해 서비스를 호출하거나 REST API를 직접 호출하여 응용 프로그램에서 Computer Vision을 통해 다음을 수행할 수 있습니다.You can use Computer Vision in your application, by either using our client libraries to invoke the service, or invoking the REST API directly, to:

인사이트를 위한 이미지 분석Analyzing images for insight

Computer Vision을 통해 이미지를 분석하여 이미지의 시각적 기능 및 특성에 대한 인사이트를 검색하고 제공할 수 있습니다.You can analyze images using Computer Vision to detect and provide insight about the visual features and characteristics of your images. 이미지의 콘텐츠를 업로드하여 로컬 이미지를 분석하거나 이미지의 URL을 지정하여 원격 이미지를 분석할 수 있습니다.You can either upload the contents of an image to analyze local images, or you can specify the URL of an image to analyze remote images.

Computer Vision에서 이미지를 분석할 때 수행할 수 있는 작업은 다음과 같습니다.Computer Vision can do the following actions when analyzing an image:

조치Action 설명Description
시각적 기능 태그 지정Tag visual features 2,000개가 넘는 인식 가능한 사물, 생물, 풍경 및 동작을 기반으로 하여 이미지의 시각적 기능을 식별하고 태그를 지정합니다.Identify and tag visual features in an image, based on more than 2,000 recognizable objects, living beings, scenery, and actions. 태그가 모호하거나 누구나 알 수 있는 것이 아닌 경우 응답은 알려진 설정의 컨텍스트에서 태그의 의미를 명확히 설명하는 '힌트'를 제공합니다.When tags are ambiguous or not common knowledge, the response provides 'hints' to clarify the meaning of the tag in the context of a known setting. 태그 지정은 전면에 있는 사람과 같은 주요 주체로 국한되지 않고, 환경(실내 또는 실외), 가구, 도구, 식물, 동물, 액세서리, 가젯 등을 포함합니다.Tagging isn't limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.
이미지 분류Categorize an image 부모/자식 유전적 계층 구조가 있는 범주 분류를 사용하여 전체 이미지를 식별하고 분류합니다.Identify and categorize an entire image, using a category taxonomy with parent/child hereditary hierarchies. 범주는 단독으로 사용하거나 새 태그 지정 모델을 통해 사용할 수 있습니다.Categories can be used alone, or with our new tagging models.
현재 영어는 이미지에 대한 태그 지정 및 분류에 지원되는 유일한 언어입니다.Currently, English is the only supported language for tagging and categorizing images.
이미지 설명Describe an image 완전한 문장을 사용하여 사람이 읽을 수 있는 언어로 전체 이미지에 대한 설명을 생성합니다.Generate a description of an entire image in human-readable language, using complete sentences. Computer Vision의 알고리즘은 이미지에서 식별된 개체에 따라 다양한 설명을 생성합니다.Computer Vision's algorithms generate various descriptions based on the objects identified in the image. 설명이 각각 평가되고 신뢰도 점수가 생성됩니다.The descriptions are each evaluated and a confidence score generated. 그런 다음, 가장 높은 신뢰도 점수부터 가장 낮은 점수 순으로 정렬된 목록이 반환됩니다.A list is then returned ordered from highest confidence score to lowest.
이 기술을 사용하여 이미지 캡션을 생성하는 봇의 예제는 GitHub에 있습니다.An example of a bot that uses this technology to generate image captions can be found on GitHub.
얼굴 감지Detect faces 이미지에서 얼굴을 감지하고, 감지된 얼굴 각각에 대한 정보를 제공합니다.Detect faces in an image and provide information about each detected face. Computer Vision은 감지된 얼굴 각각에 대한 좌표, 사각형, 성별 및 나이를 반환합니다.Computer Vision returns the coordinates, rectangle, gender, and age for each detected face.
Computer Vision은 Face에서 찾을 수 있는 기능의 하위 집합을 제공하며, 얼굴 식별 및 자세 감지와 같은 더 자세한 분석을 위해 Face 서비스를 사용할 수 있습니다.Computer Vision provides a subset of the functionality that can be found in Face, and you can use the Face service for more detailed analysis, such as facial identification and pose detection.
이미지 유형 감지Detect image types 이미지가 선 그리기인지, 아니면 이미지가 클립 아트인지 여부와 같은 이미지에 대한 특성을 감지합니다.Detect characteristics about an image, such as whether an image is a line drawing or the likelihood of whether an image is clip art.
도메인 특정 콘텐츠 감지Detect domain-specific content 도메인 모델을 사용하여 유명인 및 랜드마크와 같은 이미지의 도메인 관련 콘텐츠를 감지하고 식별합니다.Use domain models to detect and identify domain-specific content in an image, such as celebrities and landmarks. 예를 들어 이미지에 사람이 포함되어있는 경우 Computer Vision은 서비스에 포함된 유명인에 대한 도메인 모델을 사용하여 이미지에서 감지된 사람이 알려진 유명인과 일치하는지 확인합니다.For example, if an image contains people, Computer Vision can use a domain model for celebrities included with the service to determine if the people detected in the image match known celebrities.
색 구성표 감지Detect the color scheme 이미지 내의 색 사용을 분석합니다.Analyze color usage within an image. Computer Vision은 이미지가 흑백인지, 아니면 컬러인지 여부를 결정할 수 있고, 컬러 이미지의 경우 기준 컬러와 테마 컬러를 식별할 수 있습니다.Computer Vision can determine whether an image is black & white or color and, for color images, identify the dominant and accent colors.
썸네일 생성Generate a thumbnail 이미지의 콘텐츠를 분석하여 해당 이미지에 대한 적절한 썸네일을 생성합니다.Analyze the contents of an image to generate an appropriate thumbnail for that image. Computer Vision은 먼저 고품질 미리 보기 이미지를 생성한 다음, 이미지 내의 개체를 분석하여 ROI(관심 영역) 를 결정합니다.Computer Vision first generates a high-quality thumbnail and then analyzes the objects within the image to determine the region of interest (ROI). 그런 다음, Computer Vision은 ROI의 요구 사항에 맞게 이미지를 자릅니다.Computer Vision then crops the image to fit the requirements of the region of interest. 생성된 썸네일은 필요에 따라 원래 이미지의 가로 세로 비율과 다른 가로 세로 비율을 사용하여 표시할 수 있습니다.The generated thumbnail can be presented using an aspect ratio that is different from the aspect ratio of the original image, depending on your needs.

이미지에서 텍스트 추출Extracting text from images

Computer Vision을 사용하여 OCR을 통해 이미지의 텍스트를 시스템에서 읽을 수 있는 문자 스트림으로 추출할 수 있습니다.You can use Computer Vision to extract text using OCR from an image into a machine-readable character stream. 필요한 경우 OCR은 수평 이미지 축을 기준으로 인식된 텍스트의 회전 각도로 수정하고, 각 단어에 대한 프레임 좌표를 제공합니다.If needed, OCR corrects the rotation of the recognized text, in degrees, around the horizontal image axis, and provides the frame coordinates of each word. OCR은 25개 언어를 지원하며, 추출된 텍스트의 언어를 자동으로 감지합니다.OCR supports 25 languages, and automatically detects the language of extracted text.

또한 이미지에서 인쇄 텍스트 및 필기 텍스트를 인식할 수도 있습니다.You can also recognize printed and handwritten text from an image. Computer Vision은 영수증, 포스터, 명함, 편지 및 화이트보드와 같은 서로 다른 표면과 배경이 있는 다양한 사물의 이미지에서 인쇄 텍스트와 필기 텍스트를 모두 감지하고 추출할 수 있습니다.Computer Vision can detect and extract both printed and handwritten text from images of various objects with different surfaces and backgrounds, such as receipts, posters, business cards, letters, and whiteboards. 현재 인쇄 텍스트와 필기 텍스트는 미리 보기에서 인식할 수 있으며 영어만 지원됩니다.Currently, recognizing printed and handwritten text is in preview, and English is the only supported language.

이미지 콘텐츠 조정Moderating content in images

Computer Vision을 사용하여 이미지에서 성인용 및 선정적인 콘텐츠를 감지하고, 이미지에 성인용 또는 선정적인 콘텐츠가 포함되어 있을 가능성을 평가하고, 둘 다에 대한 신뢰도 점수를 생성할 수 있습니다.You can use Computer Vision to detect adult and racy content in an image, rating the likelihood that the image contains either adult or racy content and generating a confidence score for both. 성인용 및 선정적인 콘텐츠 감지 필터는 기본 설정에 맞게 슬라이딩 눈금에 설정할 수 있습니다.The filter for adult and racy content detection can be set on a sliding scale to accommodate your preferences.

이미지 요구 사항Image requirements

Computer Vision에서 이미지를 분석하는 데 충족되어야 하는 요구 사항은 다음과 같습니다.Computer Vision can analyze images that meet the following requirements:

  • 이미지가 JPEG, PNG, GIF 또는 BMP 형식으로 제공되어야 합니다.The image must be presented in JPEG, PNG, GIF, or BMP format
  • 이미지의 파일 크기가 4MB보다 작아야 합니다.The file size of the image must be less than 4 megabytes (MB)
  • 이미지의 크기가 50 x 50 픽셀보다 커야 합니다.The dimensions of the image must be greater than 50 x 50 pixels
    OCR의 경우 이미지 크기는 40 x 40 ~ 3200 x 3200 픽셀이어야 하며, 이미지는 10메가 픽셀보다 클 수 없습니다.For OCR, the dimensions of the image must be between 40 x 40 and 3200 x 3200 pixels, and the image can't be bigger than 10 megapixels.

다음 단계Next steps

다음 빠른 시작 중 하나를 사용하여 Computer Vision을 시작합니다.Get started with Computer Vision with one of our quickstarts: