Azure Machine Learning의 데이터 v1

아티클
03/05/2024

Azure Machine Learning을 사용하면 클라우드에서 데이터에 쉽게 연결할 수 있습니다. 스토리지 유형과 관련된 코드를 작성할 필요 없이 데이터에 안전하게 액세스하고 작업할 수 있도록 기본 스토리지 서비스에 대한 추상화 계층을 제공합니다. Azure Machine Learning은 다음과 같은 데이터 기능도 제공합니다.

Pandas 및 Spark DataFrames와의 상호 운용성
데이터 계보 버전 관리 및 추적
데이터 레이블 지정
데이터 드리프트 모니터링

데이터 워크플로

클라우드 기반 스토리지 솔루션에서 데이터를 사용하려면 이 데이터 배달 워크플로를 사용하는 것이 좋습니다. 워크플로는 Azure 스토리지 계정 및 Azure 클라우드 기반 스토리지 서비스에 데이터가 있다고 가정합니다.

Azure Storage에 연결 정보를 저장하는 Azure Machine Learning 데이터 저장소 만들기
해당 데이터 저장소에서 기본 스토리지의 특정 파일 또는 파일을 가리키는 Azure Machine Learning 데이터 세트를 만듭니다.
기계 학습 실험에서 해당 데이터 세트를 사용하려면 다음 중 하나를 수행할 수 있습니다.
- 모델 학습을 위해 실험의 컴퓨팅 대상에 데이터 세트 탑재
  
  OR
- Azure Machine Learning 솔루션(예: 자동화된 ML) 실험 실행, 기계 학습 파이프라인 또는 Azure Machine Learning 디자이너와 같은 데이터 세트를 직접 사용합니다.
데이터 드리프트를 감지하는 모델 출력 데이터 세트에 대한 데이터 세트 모니터 만들기
검색된 데이터 드리프트의 경우 입력 데이터 세트를 업데이트하고 그에 따라 모델을 다시 학습합니다.

이 스크린샷은 권장되는 워크플로를 보여줍니다.

데이터 스토리지를 사용하여 스토리지에 연결

Azure Machine Learning 데이터 저장소는 Azure에서 데이터 스토리지 연결 정보를 안전하게 호스트하므로 스크립트에 해당 정보를 배치할 필요가 없습니다. 기본 스토리지 서비스에서 스토리지 계정 및 데이터 액세스에 연결하는 방법에 대한 자세한 내용은 등록을 방문하여 데이터 저장소를 만듭니다.

지원되는 이러한 Azure 클라우드 기반 스토리지 서비스는 데이터 저장소로 등록할 수 있습니다.

Azure Blob 컨테이너
Azure 파일 공유
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Databricks 파일 시스템
Azure Database for MySQL

팁

자격 증명 기반 인증을 사용하여 데이터 저장소를 만들어 스토리지 서비스(예: 서비스 주체 또는 SAS(공유 액세스 서명) 토큰)에 액세스할 수 있습니다. 작업 영역에 대한 읽기 권한자 액세스 권한이 있는 사용자는 이러한 자격 증명에 액세스할 수 있습니다.

이 문제가 있는 경우 스토리지 서비스에 대한 연결에 대한 자세한 내용은 ID 기반 데이터 액세스를 사용하는 데이터 저장소 만들기를 방문하세요.

데이터 세트와 스토리지의 참조 데이터

Azure Machine Learning 데이터 세트는 데이터의 복사본이 아닙니다. 데이터 세트 만들기 자체는 해당 메타데이터의 복사본과 함께 스토리지 서비스의 데이터에 대한 참조를 만듭니다.

데이터 세트는 지연 평가되고 데이터는 기존 위치에 남아 있기 때문에

추가 스토리지 비용이 발생하지 않습니다.
원래 데이터 원본에 의도하지 않은 변경이 발생할 위험이 없습니다.
ML 워크플로 성능 속도 향상

스토리지의 데이터와 상호 작용하려면 데이터를 기계 학습 작업에 사용할 수 있는 개체로 패키징하는 데이터 세트를 만듭니다. 데이터 수집 복잡성 없이 여러 실험에서 데이터 세트를 공유하고 다시 사용하려면 작업 영역에 데이터 세트를 등록합니다.

데이터 저장소를 통해 로컬 파일, 공용 URL, Azure Open Datasets 또는 Azure Storage 서비스에서 데이터 세트를 만들 수 있습니다.

데이터 세트에는 두 가지 유형이 있습니다.

FileDataset는 데이터 스토리지 또는 퍼블릭 URL에 있는 하나 또는 여러 개의 파일을 참조합니다. 데이터가 이미 클린sed 및 학습 실험에 대한 준비가 된 경우 FileDatasets에서 참조하는 파일을 컴퓨팅 대상에 다운로드하거나 탑재할 수 있습니다.
TabularDataset는 제공된 파일 또는 파일 목록을 구문 분석하여 데이터를 테이블 형식으로 나타냅니다. TabularDataSet를 Pandas 또는 Spark DataFrame에 로드하여 추가 조작 및 정리할 수 있습니다. TabularDatasets를 만들 수 있는 데이터 형식의 전체 목록은 TabularDatasetFactory 클래스를 방문하세요.

이러한 리소스는 데이터 세트 기능에 대한 자세한 정보를 제공합니다.

데이터 작업

데이터 세트를 사용하면 Azure Machine Learning 기능과 원활하게 통합하여 기계 학습 작업을 수행할 수 있습니다.

데이터 레이블 지정 프로젝트 만들기
기계 학습 모델 교육하기
기계 학습 파이프라인에서 일괄 처리 유추를 사용하여 채점을 위한 데이터 세트에 액세스
데이터 드리프트 검색을 위한 데이터 세트 모니터 설정

데이터 레이블 지정 프로젝트로 데이터에 레이블을 지정

기계 학습 프로젝트에서 대량의 데이터에 레이블을 지정하는 것은 골칫거리가 될 수 있습니다. 이미지 분류 또는 개체 감지와 같은 Computer Vision 구성 요소를 포함하는 프로젝트에는 종종 수천 개의 이미지와 해당 레이블이 필요합니다.

Azure Machine Learning은 레이블 지정 프로젝트를 만들고, 관리하고, 모니터링할 수 있는 중앙 위치를 제공합니다. 레이블 지정 프로젝트는 레이블 지정 작업을 보다 효율적으로 관리할 수 있도록 데이터, 레이블 및 팀 구성원을 조정하는 데 도움이 됩니다. 현재 지원되는 작업에는 이미지 분류, 다중 레이블 또는 다중 클래스, 경계 상자를 사용하는 개체 식별이 포함됩니다.

이미지 레이블 지정 프로젝트 또는 텍스트 레이블 지정 프로젝트를 만들고 기계 학습 실험에서 사용할 데이터 세트를 출력합니다.

데이터 드리프트로 모델 성능 모니터링

기계 학습의 컨텍스트에서 데이터 드리프트에는 모델 성능 저하로 이어지는 모델 입력 데이터의 변경이 포함됩니다. 이는 시간이 지남에 따라 모델 정확도가 저하되고 데이터 드리프트 모니터링이 모델 성능 문제를 감지하는 데 도움이 되는 주요 이유입니다.

자세한 내용은 데이터 세트 모니터 만들기를 방문하여 데이터 세트의 새 데이터에 대한 데이터 드리프트를 감지하고 경고하는 방법을 알아봅니다.

다음 단계

Azure Machine Learning 스튜디오 또는 Python SDK를 사용하여 데이터 세트 만들기
샘플 Notebook을 사용하여 데이터 세트 학습 예제 사용해 보기