데이터 내보내기

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

테이블, Blob 및 Azure SQL 데이터베이스와 같은 Azure의 다양한 클라우드 기반 스토리지에 데이터 세트를 씁니다.

범주: 데이터 입력 및 출력

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 데이터 내보내기 모듈을 사용하여 실험의 결과, 중간 데이터 및 작업 데이터를 Machine Learning Studio(클래식) 외부의 클라우드 스토리지 대상으로 저장하는 방법을 설명합니다.

이 모듈에서는 다음 클라우드 데이터 서비스로 데이터를 내보내거나 저장할 수 있습니다.

  • Hive 쿼리로 내보내기: HDInsight Hadoop 클러스터의 Hive 테이블에 데이터를 씁니다.

  • Azure SQL Database 내보내기: 데이터를 Azure SQL Database 또는 Azure SQL Data Warehouse 저장합니다.

  • Azure 테이블로 내보내기: Azure의 Table Storage 서비스에 데이터를 저장합니다. Table Storage는 대량의 데이터를 저장하는 데 적합합니다. 확장 가능하고 저렴하며 고가용성 테이블 형식을 제공합니다.

  • Azure Blob Storage 내보내기: Azure의 Blob Service에 데이터를 저장합니다. 이 옵션은 이미지, 구조화되지 않은 텍스트 또는 이진 데이터에 유용합니다. Blob 서비스의 데이터는 공개적으로 공유하거나 보안된 응용 프로그램 데이터 저장소에 저장할 수 있습니다.

참고

"보안 전송 필요" 옵션을 사용하는 경우 데이터 내보내기 모듈은 Azure Blob Storage 계정에 대한 연결을 지원하지 않습니다.

  • 데이터 다운로드: Excel 또는 다른 애플리케이션에서 열 수 있도록 데이터를 다운로드하려면 CSV로 변환 또는 TSV로 변환과 같은 모듈을 사용하여 특정 형식 으로 데이터를 준비한 다음 데이터를 다운로드합니다.

  • 출력을 마우스 오른쪽 단추로 클릭하고 데이터 세트 다운로드를 선택하여 데이터 세트를 출력하는 모듈의 결과를 다운로드할 수 있습니다. 기본적으로 데이터는 CSV 형식으로 내보내집니다.

  • 모듈 정의 또는 실험 그래프를 다운로드합니다. 새 PowerShell 라이브러리를 사용하면 실험에 대한 전체 메타데이터 또는 특정 모듈에 대한 세부 정보를 다운로드할 수 있습니다. Machine Learning용 PowerShell 라이브러리는 실험적 릴리스이지만 다음과 같은 유용한 cmdlet이 많이 있습니다.

    • Get-AmlExperiment 는 작업 영역의 모든 실험을 나열합니다.
    • Export-AmlExperimentGraph 는 전체 실험의 정의를 JSON 파일로 내보냅니다.
    • Download-AmlExperimentNodeOutput 를 사용하면 모든 모듈의 출력 포트에 제공된 정보를 추출할 수 있습니다.

내보내기 데이터를 구성하는 방법

  1. Studio(클래식)에서 실험에 데이터 내보내기 모듈을 추가합니다. 입력 및 출력 범주에서 이 모듈을 찾을 수 있습니다.

  2. 커넥트 내보낼 데이터가 포함된 모듈로 데이터를 내보냅니다.

  3. 데이터 내보내기를 두 번 클릭하여 속성 창을 엽니다.

  4. 데이터 대상의 경우 데이터를 저장할 클라우드 스토리지 유형을 선택합니다. 이 옵션을 변경하면 다른 모든 속성이 다시 설정됩니다. 따라서 먼저 이 옵션을 선택해야 합니다.

  5. 지정된 스토리지 계정에 액세스하는 데 필요한 계정 이름 및 인증 방법을 제공합니다.

    스토리지 유형 및 계정의 보안 여부에 따라 계정 이름, 파일 형식, 액세스 키 또는 컨테이너 이름을 제공해야 할 수 있습니다. 인증이 필요하지 않은 원본의 경우 일반적으로 URL을 아는 것으로 충분합니다.

    각 형식의 예제는 다음 항목을 참조하세요.

  6. 캐시된 결과 사용 옵션을 사용하면 매번 동일한 결과를 다시 작성하지 않고도 실험을 반복할 수 있습니다.

    이 옵션을 선택 취소하면 출력 데이터가 변경되었는지 여부에 관계없이 실험이 실행될 때마다 결과가 스토리지에 기록됩니다.

    이 옵션을 선택하면 데이터 내보내기 에서 캐시된 데이터를 사용합니다(사용 가능한 경우). 새 결과는 결과에 영향을 주는 업스트림 변경이 있는 경우에만 생성됩니다.

  7. 실험을 실행합니다.

데이터 내보내기 모듈을 사용하는 방법의 예는 Azure AI 갤러리를 참조하세요.

  • 텍스트 분류: 이 샘플에서는 데이터 내보내 기를 사용하여 중간 결과를 저장한 다음 데이터 가져오기 를 사용하여 실험의 이후 단계를 위해 스토리지에서 가져옵니다.

  • 소매 예측 1/6단계 - 데이터 전처리: 소매 예측 템플릿은 Azure SQL Database 저장된 데이터를 기반으로 하는 기계 학습 작업을 보여 줍니다. 기계 학습을 위한 Azure SQL 데이터베이스를 만들고, Azure SQL 데이터베이스를 사용하여 서로 다른 계정의 실험 간에 데이터 세트를 전달하고, 예측을 저장하고 결합하는 방법과 같은 몇 가지 유용한 기술을 보여 줍니다.

  • Azure VM에서 SQL Server 사용하여 기계 학습 모델 빌드 및 배포: 이 문서에서는 학습 데이터 및 실험에서 생성된 예측을 저장하기 위한 원본으로 Azure VM에서 호스트되는 SQL Server 데이터베이스를 사용하는 방법을 보여 줍니다. 또한 기능 엔지니어링 및 기능 선택에 관계형 데이터베이스를 사용하는 방법을 보여 줍니다.

  • Azure SQL Data Warehouse Azure ML 사용하는 방법: 이 문서에서는 Azure SQL Data Warehouse 데이터를 사용하여 기계 학습 모델을 만드는 방법을 보여 줍니다.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

구현 세부 정보

  • 이 모듈의 이름은 이전에 작성기였습니다. 기록기 모듈을 사용하는 기존 실험이 있는 경우 실험을 새로 고칠 때 모듈의 이름이 데이터 내보내기로 바뀝니다.

  • 모든 모듈이 데이터 내보내기 대상과 호환되는 출력을 생성하는 것은 아닙니다. 예를 들어 내보내기 데이터는 SVMLight 형식으로 변환된 데이터 세트를 저장할 수 없습니다. 데이터 내보내기 에서 지원하는 형식은 다음과 같습니다.

    • 데이터 세트(Azure ML 내부 형식)
    • .NET DataTable
    • 헤더를 사용하거나 사용하지 않는 CSV
    • 헤더가 있거나 없는 TSV

알려진 문제

  • 데이터를 출력할 위치로 Azure 테이블을 선택하면 지정된 테이블에 쓸 때 오류가 발생할 수 있습니다. 이 경우 데이터가 Blob에 대신 기록될 수 있습니다.

    이 오류가 발생하고 나중에 예상 테이블에서 읽을 수 없는 경우 Azure Storage 유틸리티를 사용하여 스토리지 계정의 지정된 컨테이너에 있는 Blob을 확인합니다.

  • 현재 Blob을 지정된 Hive 테이블에 저장할 수 없습니다. 중간 결과를 작성해야 하는 경우 HDInsight에서 Hive 테이블을 사용하지 말고 Blob Storage 또는 Table Storage를 대신 사용합니다.

  • 현재 출력 데이터를 저장할 위치로 HDFS를 선택하는 경우 다음 오류 메시지가 반환됩니다. “Microsoft.Analytics.Exceptions.ErrorMapping+ModuleException.”

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 쓸 데이터 집합입니다.

모듈 매개 변수

이 표에는 모든 데이터 내보내기 옵션에 적용되는 매개 변수가 나열됩니다. 다른 매개 변수는 동적이며 선택한 데이터 대상에 따라 변경됩니다.

Name 범위 Type 기본값 설명
데이터 대상을 지정하세요. 목록 DataSourceOrSink Azure 저장소의 blob 서비스 데이터 대상이 Blob 서비스의 파일인지, Table Service의 파일인지, Azure의 SQL 데이터베이스인지 또는 Hive 테이블인지를 나타냅니다.
캐시된 결과 사용 TRUE/FALSE 부울 FALSE 불필요하게 결과를 다시 작성하지 않도록 하려면 이 옵션을 선택합니다. 실험에서 업스트림으로 변경되는 내용이 있으면 데이터 내보내기가 항상 실행되고 새 결과를 작성합니다. 그러나 아무것도 변경되지 않았고 이 옵션을 선택한 경우 동일한 결과를 다시 작성하지 않도록 데이터 내보내 기가 실행되지 않습니다.

예외

예외 설명
오류 0057 이미 있는 파일이나 Blob을 만들려고 하면 예외가 발생합니다.
오류 0001 지정한 데이터 집합 열 중 하나 이상을 찾을 수 없으면 예외가 발생합니다.
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.
오류 0079 Azure 저장소의 컨테이너 이름을 잘못 지정하는 경우 예외가 발생합니다.
오류 0052 Azure 계정의 저장소 액세스 키를 잘못 지정하는 경우 예외가 발생합니다.
오류 0064 Azure 계정의 계정 이름 또는 저장소 액세스 키를 잘못 지정하는 경우 예외가 발생합니다.
오류 0071 제공된 자격 증명이 잘못된 경우 예외가 발생합니다.
오류 0018 입력 데이터 집합이 잘못된 경우 예외가 발생합니다.
오류 0029 잘못된 URI가 전달되면 예외가 발생합니다.
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.

참고 항목

데이터 가져오기
데이터 입력 및 출력
데이터 변환
Azure 테이블 저장소와 Azure SQL 데이터베이스 비교
전체 모듈 목록