자습서: Azure Machine Learning 스튜디오에서 코드 없이 자동화된 Machine Learning으로 수요 예측

Azure Machine Learning 스튜디오 자동화된 기계 학습을 사용하여 한 줄의 코드를 작성하지 않고 시계열 예측 모델을 만드는 방법을 알아봅니다. 이 모델은 자전거 공유 서비스에 대한 임대 수요를 예측합니다.

이 자습서에서는 코드를 작성하지 않고 스튜디오 인터페이스를 사용하여 학습을 수행합니다. 다음 작업을 수행하는 방법을 알아봅니다.

  • 데이터 세트를 만들고 로드합니다.
  • 자동화된 ML 실험을 구성하고 실행합니다.
  • 예측 설정을 지정합니다.
  • 실험 결과를 탐색합니다.
  • 최상의 모델을 배포합니다.

또한 다음과 같은 다른 모델 유형에 대해 자동화된 기계 학습을 시도합니다.

필수 조건

스튜디오에 로그인

이 자습서에서는 모든 기술 수준의 데이터 과학 실무자를 위한 데이터 과학 시나리오를 수행하는 기계 학습 도구를 포함하는 통합 웹 인터페이스인 Azure Machine Learning 스튜디오 자동화된 ML 실험을 만듭니다. 스튜디오는 Internet Explorer 브라우저에서 지원되지 않습니다.

  1. Azure Machine Learning 스튜디오 로그인합니다.

  2. 구독 및 만든 작업 영역을 선택합니다.

  3. 시작하기를 선택합니다.

  4. 왼쪽 창의 작성자 섹션에서 자동화된 ML선택합니다.

  5. +새 자동화된 ML 작업을 선택합니다.

데이터 세트 생성 및 로드

실험을 구성하기 전에 데이터 파일을 Azure Machine Learning 데이터 세트 형식으로 작업 영역에 업로드합니다. 이렇게 하면 데이터에 실험에 적합한 형식이 지정되도록 할 수 있습니다.

  1. 데이터 세트 선택 양식의 +데이터 세트 만들기 드롭다운에서 로컬 파일에서를 선택하여 새 데이터 세트를 만듭니다.

    1. 기본 정보 양식에서 데이터 세트에 이름을 지정하고 선택적 설명을 제공합니다. Azure Machine Learning 스튜디오의 자동화된 ML은 현재 테이블 형식 데이터 세트만 지원하므로 데이터 세트 형식은 기본적으로 테이블 형식이어야 합니다.

    2. 왼쪽 아래에서 다음 선택

    3. 데이터 저장소 및 파일 선택 양식에서 작업 영역을 만드는 동안 자동으로 설정된 기본 데이터 저장소 workspaceblobstore(Azure Blob Storage)를 선택합니다. 데이터 파일을 업로드하는 스토리지 위치입니다.

    4. 업로드 드롭다운에서 파일 업로드를 선택합니다.

    5. 로컬 컴퓨터에서 bike-no.csv 파일을 선택합니다. 필수 구성 요소다운로드한 파일입니다.

    6. 다음을 선택합니다.

      업로드가 완료되면 파일 형식에 따라 설정 및 미리 보기 양식이 미리 채워집니다.

    7. 설정 및 미리 보기 양식이 다음과 같이 채워져 있는지 확인하고 다음을 선택합니다.

      필드 설명 자습서의 값
      파일 형식 파일에 저장된 데이터의 레이아웃 및 유형을 정의합니다. 구분 기호로 분리됨
      구분 기호 일반 텍스트 또는 다른 데이터 스트림에서 별도의 독립적인 지역 간의 경계를 지정하기 위한 하나 이상의 문자입니다. Comma
      인코딩 데이터 세트를 읽는 데 사용할 문자 스키마 테이블을 식별합니다. UTF-8
      열 머리글 데이터 세트의 헤더(있는 경우)를 처리하는 방법을 나타냅니다. 첫 번째 파일에만 머리글이 있음
      행 건너뛰기 데이터 세트에서 건너뛰는 행의 개수(있는 경우)를 나타냅니다. 없음
    8. 스키마 양식을 사용하면 이 실험에 대한 데이터를 추가로 구성할 수 있습니다.

      1. 이 예제에서는 일반 열과 등록된 열을 무시하도록 선택합니다. 이러한 열은 cnt 열의 하위 열이므로 포함하지 않습니다.

      2. 또한 이 예제에서는 속성형식에 대한 기본값을 그대로 둡니다.

      3. 다음을 선택합니다.

    9. 확인 세부 정보 양식의 정보가 이전에 기본 정보설정 및 미리 보기 양식에 입력한 정보와 일치하는지 확인합니다.

    10. 만들기를 선택하여 데이터 세트 만들기를 완료합니다.

    11. 목록에 표시되면 데이터 세트를 선택합니다.

    12. 다음을 선택합니다.

작업 구성

데이터를 로드하고 구성한 후 원격 컴퓨팅 대상을 설정하고 예측하려는 데이터의 열을 선택합니다.

  1. 다음과 같이 작업 구성 양식을 채웁니다.
    1. 실험 이름을 입력합니다. automl-bikeshare

    2. 예측하려는 대상 열로 cnt를 선택합니다. 이 열은 총 자전거 공유 대여 수를 나타냅니다.

    3. 컴퓨팅 유형으로 컴퓨팅 클러스터를 선택합니다.

    4. +새로 만들기를 선택하여 컴퓨팅 대상을 구성합니다. 자동화된 ML은 Azure Machine Learning 컴퓨팅만 지원합니다.

      1. 가상 머신 선택 양식을 채워 컴퓨팅을 설정합니다.

        필드 설명 자습서의 값
        가상 머신 계층 실험에 어떤 우선 순위가 있어야 하는지 선택 전용
        가상 머신 유형 컴퓨팅에 대한 가상 머신 유형을 선택합니다. CPU(중앙 처리 장치)
        가상 머신 크기 컴퓨팅의 가상 머신 크기를 선택합니다. 데이터 및 실험 유형에 따라 권장 크기 목록이 제공됩니다. Standard_DS12_V2
      2. 다음을 선택하여 설정 구성 양식을 채웁니다.

        필드 설명 자습서의 값
        컴퓨팅 이름 컴퓨팅 컨텍스트를 식별하는 고유한 이름입니다. bike-compute
        최소/최대 노드 데이터를 프로파일링하려면 하나 이상의 노드를 지정해야 합니다. 최소 노드: 1
        최대 노드: 6
        규모 축소 전 유휴 시간(초) 클러스터가 최소 노드 수까지 자동으로 축소되기 전의 유휴 시간입니다. 120(기본값)
        고급 설정 실험에 사용할 가상 네트워크를 구성하고 권한을 부여하는 설정입니다. 없음
      3. 만들기를 선택하여 컴퓨팅 대상을 가져옵니다.

        완료하는 데 몇 분 정도 걸립니다.

      4. 만든 후 드롭다운 목록에서 새 컴퓨팅 대상을 선택합니다.

    5. 다음을 선택합니다.

예측 설정 선택

기계 학습 작업 유형 및 구성 설정을 지정하여 자동화된 ML 실험에 대한 설정을 완료합니다.

  1. 작업 유형 및 설정 양식에서 기계 학습 작업 유형으로 시계열 예측을 선택합니다.

  2. 날짜를 시간 열선택하고 시계열 식별자를 비워 둡니다.

  3. 빈도는 기록 데이터가 수집되는 빈도입니다. 자동 검색을 선택한 상태로 유지합니다.

  4. 예측 수평선은 예측하려는 미래까지의 시간 길이입니다. 자동 검색을 선택 취소하고 필드에 14자를 입력합니다.

  5. 추가 구성 설정 보기를 선택하고 다음과 같이 필드를 채웁니다. 이러한 설정은 학습 작업을 더 잘 제어하고 예측에 대한 설정을 지정하는 것입니다. 그렇지 않으면 실험 선택 및 데이터에 따라 기본값이 적용됩니다.

    추가 구성 설명 자습서의 값
    기본 메트릭 기계 학습 알고리즘을 측정할 평가 메트릭입니다. 정규화된 제곱 평균 오차
    최적 모델 설명 자동화된 ML에서 만든 최상의 모델에 대한 설명성을 자동으로 표시합니다. Enable
    차단된 알고리즘 학습 작업에서 제외하려는 알고리즘 극단적인 임의 트리
    추가 예측 설정 이러한 설정은 모델의 정확도를 향상시키는 데 도움이 됩니다.

    예측 대상 지연: 대상 변수의 지연을 생성하려는 간격
    대상 롤링 창: 최대, 최소 및 합계같은 기능이 생성되는 롤링 창의 크기를 지정합니다.


    예측 대상 지연: 없음
    대상 이동 기간 크기: 없음
    종료 기준 조건이 충족되면 학습 작업이 중지됩니다. 학습 작업 시간(시간): 3
    메트릭 점수 임계값: 없음
    동시성 반복당 실행되는 최대 병렬 반복 수 최대 동시 반복 횟수: 6

    저장을 선택합니다.

  6. 다음을 선택합니다.

  7. [선택 사항] 유효성 검사 및 테스트 양식에서

    1. 유효성 검사 유형으로 k겹 교차 유효성 검사를 선택합니다.
    2. 교차 유효성 검사 수로 5를 선택합니다.

실험 실행

실험을 실행하려면 마침을 선택합니다. 작업 세부 정보 화면이 열리고 상단의 작업 번호 옆에 작업 상태가 표시됩니다. 이 상태 실험이 진행됨에 따라 업데이트됩니다. 실험 상태를 알려주는 알림이 스튜디오의 오른쪽 위 모서리에도 표시됩니다.

Important

실험 작업을 준비하기 위한 준비는 10-15분이 걸립니다. 실행되면 각 반복에 대해 2-3분이 더 걸립니다.

프로덕션 환경에서는 이 프로세스에 시간이 걸리기 때문에 잠시 벗어날 수 있습니다. 기다리는 동안 모델 탭에서 테스트된 알고리즘이 완료되면 탐색하는 것이 좋습니다.

모델 탐색

모델 탭으로 이동하여 테스트한 알고리즘(모델)을 확인합니다. 기본적으로 모델은 완료되면 메트릭 점수를 기준으로 정렬됩니다. 이 자습서에서는 선택한 정규화된 루트 평균 제곱 오차 메트릭을 기준으로 가장 높은 점수를 받는 모델이 목록 맨 위에 있습니다.

모든 실험 모델이 완료될 때까지 기다리는 동안 완성된 모델의 알고리즘 이름을 선택하여 성능 세부 정보를 탐색합니다.

다음 예에서는 작업이 만든 모델 목록에서 모델을 선택하기 위해 탐색합니다. 그런 다음 개요메트릭 탭을 선택하여 선택한 모델의 속성, 메트릭 및 성능 차트를 확인합니다.

Run Overview

모델 배포

Azure Machine Learning 스튜디오 자동화된 기계 학습을 사용하면 몇 단계로 최상의 모델을 웹 서비스로 배포할 수 있습니다. 배포는 모델 통합이므로 새 데이터를 예측하고 잠재적인 기회 영역을 식별할 수 있습니다.

이 실험에서 웹 서비스에 대한 배포는 자전거 공유 회사에 이제 자전거 공유 임대 수요를 예측하기 위한 반복적이고 확장 가능한 웹 솔루션이 있음을 의미합니다.

작업이 완료되면 화면 상단에서 작업 1을 선택하여 부모 작업 페이지로 다시 이동합니다.

모범 모델 요약 섹션에서 이 실험의 컨텍스트에 따른 모범 모델은 정규화된 제곱 평균 오차 메트릭을 기준으로 선택됩니다.

이 모델을 배포하지만 배포를 완료하는 데 약 20분이 걸립니다. 배포 프로세스에는 모델 등록, 리소스 생성 및 웹 서비스에 대한 구성을 비롯한 여러 단계가 수반됩니다.

  1. 모범 모델을 선택하여 모델별 페이지를 엽니다.

  2. 화면의 왼쪽 위에 있는 배포 단추를 선택합니다.

  3. 다음과 같이 모델 배포 창을 채웁니다.

    필드
    배포 이름 bikeshare-deploy
    배포 설명 자전거 공유 수요 배포
    컴퓨팅 형식 ACI(Azure Compute Instance) 선택
    인증 사용 사용 안 함.
    사용자 지정 배포 자산 사용 사용 안 함. 사용하지 않도록 설정하면 기본 드라이버 파일(채점 스크립트) 및 환경 파일을 자동으로 생성할 수 있습니다.

    이 예제에서는 고급 메뉴에 제공된 기본값을 사용합니다.

  4. 배포를 선택합니다.

    작업 화면 위쪽에 배포가 성공적으로 시작되었음을 나타내는 녹색 성공 메시지가 표시됩니다. 배포 진행률은 모델 요약 창의 배포 상태에서 확인할 수 있습니다.

배포가 성공하면 예측을 생성하는 운영 웹 서비스가 있습니다.

다음 단계를 진행하여 새 웹 서비스를 사용하는 방법에 대해 자세히 알아보고 Power BI의 기본 제공 Azure Machine Learning 지원을 사용하여 예측을 테스트합니다.

리소스 정리

배포 파일은 데이터 및 실험 파일보다 크기 때문에 저장하는 데 더 많은 비용이 듭니다. 작업 영역 및 실험 파일을 유지하려는 경우에는 배포 파일만 삭제하여 계정 비용을 최소화할 수 있습니다. 그렇지 않으면 파일을 사용하지 않으려는 경우 전체 리소스 그룹을 삭제합니다.

배포 인스턴스 삭제

다른 자습서 및 탐색을 위해 리소스 그룹 및 작업 영역을 유지하려면 Azure Machine Learning 스튜디오 배포 인스턴스만 삭제합니다.

  1. Azure Machine Learning 스튜디오 이동합니다. 작업 영역으로 이동한 다음, 왼쪽 자산 창 아래에서 엔드포인트를 선택합니다.

  2. 삭제하려는 배포를 선택하고 삭제를 선택합니다.

  3. 계속을 선택합니다.

리소스 그룹 삭제

Important

만든 리소스는 다른 Azure Machine Learning 자습서 및 방법 문서의 필수 구성 요소로 사용할 수 있습니다.

만든 리소스를 사용하지 않으려는 경우 요금이 발생하지 않도록 해당 리소스를 삭제합니다.

  1. Azure Portal 맨 왼쪽에서 리소스 그룹을 선택합니다.

  2. 목록에서 만든 리소스 그룹을 선택합니다.

  3. 리소스 그룹 삭제를 선택합니다.

    Screenshot of the selections to delete a resource group in the Azure portal.

  4. 리소스 그룹 이름을 입력합니다. 그런 다음 삭제를 선택합니다.

다음 단계

이 자습서에서는 Azure Machine Learning Studio에서 자동화된 ML을 사용하여 자전거 공유 임대 수요를 예측하는 시계열 예측 모델을 만들고 배포합니다.

새로 배포된 웹 서비스의 사용을 용이하게 하기 위해 Power BI 지원 스키마를 만드는 방법에 대한 단계는 이 문서를 참조하세요.

  • 자동화된 기계 학습에 대해 자세히 알아봅니다.
  • 분류 메트릭 및 차트에 대한 자세한 내용은 자동화된 기계 학습 결과 이해 문서를 참조하세요.

참고 항목

이 자전거 공유 데이터 세트는 이 자습서에 대해 수정되었습니다. 이 데이터 세트는 Kaggle 대회일환으로 제공되었으며 원래 Capital Bikeshare를 통해 사용할 수 있었습니다. UCI Machine Learning 데이터베이스 내에서도 찾을 수 있습니다.

출처: Fanaee-T, 하디, 가마, 조아오, 앙상블 탐지기와 배경 지식을 결합한 이벤트 레이블 지정, 인공 지능의 진보 (2013): pp. 1-15, 스프링어 베를린 하이델베르크.