Azure Machine Learning에서 컴퓨팅 대상은 무엇인가요?

컴퓨팅 대상 은 지정된 컴퓨팅 리소스나 환경으로, 여기서 학습 스크립트를 실행하거나 서비스 배포를 호스팅합니다. 이 위치는 로컬 컴퓨터 또는 클라우드 기반 컴퓨팅 리소스일 수 있습니다. 컴퓨팅 대상을 사용하면 나중에 코드를 변경하지 않고도 컴퓨팅 환경을 간편하게 변경할 수 있습니다.

일반적인 모델 개발 수명 주기에서 다음을 수행할 수 있습니다.

  1. 적은 양의 데이터에서 개발 및 실험하여 시작합니다. 이 단계에서는 로컬 컴퓨터나 클라우드 기반 VM(가상 머신)과 같은 로컬 환경을 컴퓨팅 대상으로 사용합니다.
  2. 이러한 학습 컴퓨터 대상 중 하나를 사용하여 데이터를 크게 스케일 업하거나 분산 학습을 수행합니다.
  3. 모델이 준비되면 이러한 배포 컴퓨팅 대상 중 하나를 사용하여 웹 호스팅 환경이나 IoT 디바이스에 배포합니다.

컴퓨팅 대상에 사용하는 컴퓨팅 리소스는 작업 영역에 연결됩니다. 작업 영역의 사용자가 로컬 컴퓨터 이외의 컴퓨팅 리소스를 공유합니다.

컴퓨팅 대상 학습

Azure Machine Learning에는 다양한 컴퓨팅 대상에 대한 다양한 지원이 포함되어 있습니다. 일반적인 모델 개발 수명 주기는 적은 양의 데이터에서 개발 또는 실험으로 시작합니다. 이 단계에서는 로컬 컴퓨터나 클라우드 기반 VM과 같은 로컬 환경을 사용합니다. 더 큰 데이터 세트에서 학습을 스케일 업하거나 분산 학습을 수행하는 경우 Azure Machine Learning 컴퓨팅을 사용하여 실행을 제출할 때마다 크기가 자동 조정되는 단일 또는 다중 노드 클러스터를 만듭니다. 고유한 컴퓨팅 리소스도 연결할 수 있지만 시나리오마다 지원이 다를 수 있습니다.

컴퓨팅 대상은 한 학습 작업에서 다음 학습 작업으로 재사용할 수 없습니다. 예를 들어 원격 VM을 작업 영역에 연결한 후 여러 작업에 다시 사용할 수 있습니다. 기계 학습 파이프라인의 경우 각 컴퓨팅 대상에 적절한 파이프라인 단계를 사용합니다.

대부분의 작업에 대한 학습 컴퓨팅 대상에 다음 리소스를 사용할 수 있습니다. 모든 리소스를 자동화된 기계 학습, 기계 학습 파이프라인 또는 디자이너에 사용할 수 있는 것은 아닙니다.

학습  대상 자동화된 기계 학습 기계 학습 파이프라인 Azure Machine Learning 디자이너
로컬 컴퓨터    
Azure Machine Learning 컴퓨팅 클러스터
Azure Machine Learning 컴퓨팅 인스턴스 예(SDK를 통해)
원격 VM  
Azure Databricks 예(SDK 로컬 모드 전용)  
Azure Data Lake Analytics    
Azure HDInsight    
Azure Batch    

컴퓨팅 인스턴스에 120GB OS 디스크가 있습니다. 디스크 공간이 부족한 경우에는 터미널을 사용하여 최소 1~2GB를 지운 후 컴퓨팅 인스턴스를 중지하거나 다시 시작해야 합니다.

학습 실행을 컴퓨팅 대상에 제출하는 방법에 대해 자세히 알아보세요.

유추에 사용되는 컴퓨팅 대상

유추를 수행할 경우 Azure Machine Learning은 사용하는 데 필요한 모델과 관련 리소스를 호스팅하는 Docker 컨테이너를 만듭니다. 그런 다음, 이 컨테이너는 컴퓨팅 대상에 사용됩니다.

모델을 호스팅하는 데 사용하는 컴퓨팅 대상은 배포된 엔드포인트의 비용 및 가용성에 영향을 줍니다. 이 표를 사용하여 적절한 컴퓨팅 대상을 선택합니다.

컴퓨팅 대상 사용 대상 GPU 지원 FPGA 지원 Description
로컬 웹 서비스 테스트/디버깅     제한된 테스트 및 문제 해결에 사용합니다. 하드웨어 가속은 로컬 시스템에서 라이브러리를 사용하는지에 따라 달라집니다.
AKS(Azure Kubernetes Service) 실시간 유추 (웹 서비스 배포) 대규모 프로덕션 배포에 사용합니다. 배포된 서비스의 빠른 응답 시간 및 자동 크기 조정을 제공합니다. 클러스터 자동 크기 조정은 Azure Machine Learning SDK를 통해 지원되지 않습니다. AKS 클러스터의 노드를 변경하려면 Azure Portal에서 AKS 클러스터의 UI를 사용합니다.

디자이너에서 지원됩니다.
Azure Container Instances 테스트 또는 개발     48GB 미만의 RAM이 필요한 소규모 CPU 기반 워크로드에 사용합니다.

디자이너에서 지원됩니다.
Azure Machine Learning 컴퓨팅 클러스터 일괄 처리 유추 (기계 학습 파이프라인)   서버리스 컴퓨팅에서 일괄 처리 채점을 실행합니다. 우선 순위가 보통이거나 낮은 VM을 지원합니다. 실시간 유추를 지원하지 않습니다.

참고

로컬 클러스터와 Azure Machine Learning 컴퓨팅 클러스터와 같은 컴퓨팅 대상은 학습 및 실험에 GPU를 지원하지만 웹 서비스로 배포하면 AKS에서만 유추에 GPU를 사용할 수 있습니다.

기계 학습 파이프라인을 통해 채점할 때 GPU를 유추에 사용하는 것은 Azure Machine Learning 컴퓨팅에서만 지원됩니다.

클러스터 SKU를 선택할 때는 먼저 스케일 업한 다음, 스케일 아웃합니다. 모델에 필요한 RAM이 150%인 머신에서 시작하여 결과를 프로파일링하고 필요한 성능을 갖춘 머신을 찾습니다. 이를 파악한 후에는 동시 추론 요구에 맞게 머신 수를 늘립니다.

참고

  • 컨테이너 인스턴스는 크기가 1GB 미만인 작은 모델에만 적합합니다.
  • 큰 모델의 개발/테스트에는 단일 노드 AKS 클러스터를 사용합니다.

모델을 컴퓨팅 대상에 배포하는 장소와 방법을 알아보세요.

Azure Machine Learning 컴퓨팅(관리형)

관리형 컴퓨팅 리소스는 Azure Machine Learning에서 생성되고 관리됩니다. 이 컴퓨팅은 기계 학습 워크로드에 최적화되어 있습니다. Azure Machine Learning 컴퓨팅 클러스터와 컴퓨팅 인스턴스는 유일한 관리형 컴퓨팅입니다.

다음에서 Azure Machine Learning 컴퓨팅 인스턴스나 컴퓨팅 클러스터를 만들 수 있습니다.

만들면 이러한 컴퓨팅 리소스는 다른 종류의 컴퓨팅 대상과 달리 자동으로 작업 영역에 포함됩니다.

기능 컴퓨팅 클러스터 컴퓨팅 인스턴스
단일 또는 다중 노드 클러스터
실행을 제출할 때마다 자동 크기 조정
자동 클러스터 관리 및 작업 예약
CPU와 GPU 리소스에 대한 지원

참고

컴퓨팅 클러스터 가 유휴 상태이면 크기가 0 노드로 자동 조정되므로 사용하지 않을 때는 비용을 지불하지 않습니다. 컴퓨팅 인스턴스 는 항상 켜져 있고 크기가 자동 조정되지 않습니다. 사용하지 않을 때는 추가 비용이 발생하지 않도록 컴퓨팅 인스턴스를 중지해야 합니다.

지원되는 VM 시리즈 및 크기

Azure Machine Learning에서 관리형 컴퓨팅 리소스의 노드 크기를 선택하면 Azure에서 사용할 수 있는 일부 VM 크기 중에서 선택할 수 있습니다. Azure는 다양한 워크로드에 맞게 다양한 크기의 Linux 및 Windows를 제공합니다. 자세한 내용은 VM 형식 및 크기를 참조하세요.

VM 크기를 선택하는 데는 몇 가지 예외 및 제한 사항이 있습니다.

  • Azure Machine Learning에서는 일부 VM 시리즈가 지원되지 않습니다.
  • 일부 VM 시리즈는 제한됩니다. 제한된 시리즈를 사용하려면 고객 지원팀에 문의하여 시리즈 할당량 증가를 요청합니다. 고객 지원팀에 문의하는 방법은 Azure 지원 옵션을 참조하세요.

지원되는 크기와 제한 사항에 대한 자세한 내용은 다음 표를 참조하세요.

지원되는 VM 시리즈 제한 사항 범주 지원 요소
D 없음 범용 컴퓨팅 클러스터와 인스턴스
DDSv4 없음 범용 컴퓨팅 클러스터와 인스턴스
Dv2 없음 범용 컴퓨팅 클러스터와 인스턴스
Dv3 없음 범용 컴퓨팅 클러스터와 인스턴스
DSv2 없음 범용 컴퓨팅 클러스터와 인스턴스
DSv3 없음 범용 컴퓨팅 클러스터와 인스턴스
EAv4 없음 메모리 최적화 컴퓨팅 클러스터와 인스턴스
Ev3 없음 메모리 최적화 컴퓨팅 클러스터와 인스턴스
FSv2 없음 컴퓨팅 최적화 컴퓨팅 클러스터와 인스턴스
H 없음 고성능 컴퓨팅 컴퓨팅 클러스터와 인스턴스
HB 승인 필요 고성능 컴퓨팅 컴퓨팅 클러스터와 인스턴스
HBv2 승인 필요 고성능 컴퓨팅 컴퓨팅 클러스터와 인스턴스
HCS 승인 필요 고성능 컴퓨팅 컴퓨팅 클러스터와 인스턴스
M 승인 필요 메모리 최적화 컴퓨팅 클러스터와 인스턴스
NC 없음 GPU 컴퓨팅 클러스터와 인스턴스
NC Promo 없음 GPU 컴퓨팅 클러스터와 인스턴스
NCsv2 승인 필요 GPU 컴퓨팅 클러스터와 인스턴스
NCsv3 승인 필요 GPU 컴퓨팅 클러스터와 인스턴스
ND 승인 필요 GPU 컴퓨팅 클러스터와 인스턴스
NDv2 승인 필요 GPU 컴퓨팅 클러스터와 인스턴스
NV 없음 GPU 컴퓨팅 클러스터와 인스턴스
NVv3 승인 필요 GPU 컴퓨팅 클러스터와 인스턴스

Azure Machine Learning에서 이러한 VM 시리즈를 지원하지만 모든 Azure 지역에서 사용할 수 있는 것은 아닙니다. VM 시리즈 사용 가능 여부를 확인하려면 지역별 사용 가능한 제품을 참조하세요.

참고

Azure Machine Learning은 Azure Compute에서 지원하는 모든 VM 크기를 지원하지 않습니다. 사용 가능한 VM 크기를 나열하려면 다음 메서드 중 하나를 사용합니다.

컴퓨팅 격리

Azure Machine Learning 컴퓨팅은 특정 하드웨어 형식에서 격리되고 단일 고객 전용인 VM 크기를 제공합니다. 격리된 VM 크기는 규정 준수 및 규정 요구 사항 충족 등의 이유로 다른 고객의 워크로드로부터 높은 수준의 격리가 필요한 워크로드에 가장 적합합니다. 격리 크기를 사용하면 VM 하나만 해당 서버 인스턴스에서 실행되도록 보장됩니다.

현재 격리된 VM 제품은 다음과 같습니다.

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3*

*RDMA 지원

격리에 대한 자세한 내용은 Azure 퍼블릭 클라우드에서 격리를 참조하세요.

관리되지 않는 컴퓨팅

관리되지 않는 컴퓨팅 대상은 Azure Machine Learning에서 관리되지 않습니다. Azure Machine Learning 외부에 이 형식의 컴퓨팅 대상을 만든 다음, 작업 영역에 연결합니다. 관리되지 않는 컴퓨팅 리소스에는 기계 학습 워크로드 성능을 유지하거나 향상시키는 추가 단계가 필요할 수 있습니다.

다음 단계

방법 배우기: