레이블이 있는 Azure Machine Learning 데이터 세트 만들기 및 탐색

이 문서에서는 Azure Machine Learning 데이터 레이블 지정 프로젝트에서 데이터 레이블을 내보내고 데이터 탐색을 위한 pandas 데이터 프레임과 같은 인기 있는 형식으로 로드하는 방법을 알아봅니다.

레이블이 있는 데이터 세트란?

레이블이 있는 Azure Machine Learning 데이터 세트를 레이블이 지정된 데이터 세트라고 부릅니다. 이러한 특정 데이터 세트는 전용 레이블 열이 있는 TabularDatasets이며 Azure Machine Learning 데이터 레이블 지정 프로젝트의 출력으로만 생성됩니다. 이미지 레이블 지정 또는 텍스트 레이블 지정을 위한 데이터 레이블 지정 프로젝트를 만듭니다. Machine Learning은 이미지 분류(다중 레이블 또는 다중 클래스) 및 경계 상자와 함께 개체 식별을 위한 데이터 레이블 지정 프로젝트를 지원합니다.

필수 구성 요소

데이터 레이블 내보내기

데이터 레이블 지정 프로젝트를 완료하면 레이블 지정 프로젝트에서 레이블 데이터를 내보낼 수 있습니다. 이렇게 하면 데이터와 해당 레이블에 대한 참조를 모두 캡처하여 COCO 형식 또는 Azure Machine Learning 데이터 세트로 내보낼 수 있습니다.

레이블 지정 프로젝트의 프로젝트 세부 정보 페이지에서 내보내기 단추를 사용합니다.

Export button in studio UI

COCO

COCO 파일은 export/coco 내의 폴더에 있는 Azure Machine Learning 작업 영역의 기본 Blob 저장소에 만들어집니다.

참고 항목

개체 감지 프로젝트에서 COCO 파일의 내보낸 “bbox”: [x, y, width, height] "값은 정규화되며 1로 스케일링됩니다. 예: 640x480 픽셀 이미지에서 (10, 10) 위치에 있는 너비가 30 픽셀, 높이가 60 픽셀인 경계 상자는 (0.015625. 0.02083, 0.046875, 0.125) 좌표가 정규화되므로 모든 이미지에 대해 ‘0.0’을 “너비” 및 “높이”로 표시합니다. 실제 너비와 높이는 OpenCV 또는 Pillow(PIL)와 같은 Python 라이브러리를 사용하여 가져올 수 있습니다.

Azure Machine Learning 데이터 세트

Azure Machine Learning 스튜디오의 데이터 세트 섹션에서 내보낸 Azure Machine Learning 데이터 세트에 액세스할 수 있습니다. 데이터 세트 세부 정보 페이지에서는 Python에서 레이블에 액세스할 수 있는 샘플 코드도 제공합니다.

Exported dataset

레이블이 지정된 데이터를 Azure Machine Learning 데이터 세트로 내보낸 후에는 AutoML을 사용하여 레이블이 지정된 데이터에 대해 학습된 Computer Vision 모델을 빌드할 수 있습니다. AutoML을 설정하여 Python으로 Computer Vision 모델 학습에서 자세히 알아봅니다.

pandas 데이터 프레임을 통해 레이블이 지정된 데이터 세트 탐색

azureml-dataprep 클래스의 to_pandas_dataframe() 메서드를 사용한 데이터 탐색에 주요 오픈 소스 라이브러리를 활용하려면 레이블이 지정된 데이터 세트를 pandas 데이터 프레임에 로드합니다.

다음 shell 명령을 사용하여 클래스를 설치합니다.

pip install azureml-dataprep

다음 코드에서 animal_labels 데이터 세트는 이전에 작업 영역에 저장된 레이블 지정 프로젝트의 출력입니다. 내보낸 데이터 세트는 TabularDataset입니다.

적용 대상:Python SDK azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

다음 단계