Azure Blob Storage에 내보내기

이 문서에서는 Azure Machine Learning Studio의 데이터 내보내기 모듈 (클래식)에서 Azure Blob Storage로 내보내기 옵션을 사용 하는 방법을 설명 합니다.

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

이 옵션은 machine learning 실험에서 Azure blob 저장소로 데이터를 내보내려는 경우에 유용 합니다. 예를 들어 기계 학습 데이터 출력을 다른 응용 프로그램과 공유 하거나 다른 실험에서 사용할 수 있도록 중간 데이터 또는 정리 된 데이터 집합을 저장할 수 있습니다.

Azure blob는 HTTP 또는 HTTPS를 사용 하 여 어디에서 나 액세스할 수 있습니다. Azure blob storage는 구조화 되지 않은 데이터 저장소 이므로 다양 한 형식으로 데이터를 내보낼 수 있습니다. 현재는 CSV, TSV 및 ARFF 형식이 지원 됩니다.

다른 응용 프로그램에서 사용할 수 있도록 데이터를 Azure blob으로 내보내려면 데이터 내보내기 모듈을 사용 하 여 azure blob storage에 데이터를 저장 합니다. 그런 다음 Azure storage (예: Excel, 클라우드 저장소 유틸리티 또는 기타 클라우드 서비스)에서 데이터를 읽을 수 있는 모든 도구를 사용 하 여 데이터를 로드 하 고 사용 합니다.

참고

데이터 가져오기데이터 내보내기 모듈은 클래식 배포 모델을 사용 하 여 만든 Azure storage 에서만 데이터를 읽고 쓸 수 있습니다. 즉, 핫 및 쿨 저장소 액세스 계층을 제공 하는 새로운 Azure Blob Storage 계정 유형이 아직 지원 되지 않습니다.

일반적으로 이 서비스 옵션이 제공되기 전에 만들었을 수 있는 모든 Azure Storage 계정은 영향을 받지 않습니다.

그러나 Azure Machine Learning 사용 하기 위해 새 계정을 만들어야 하는 경우에는 배포 모델 에 대해 클래식 을 선택 하거나 Resource Manager 를 사용 하 고 계정 종류 에는 Blob storage 대신 범용 을 선택 하는 것이 좋습니다.

Azure blob 저장소로 데이터를 내보내는 방법

Azure blob service는 이진 데이터를 포함 하 여 대량의 데이터를 저장 하는 데 사용할 수 있습니다. Blob 저장소에는 공용 blob 및 로그인 자격 증명이 필요한 blob의 두 가지 유형이 있습니다.

  1. 데이터 내보내기 모듈을 실험에 추가 합니다. 이 모듈은 Studio (클래식)의 데이터 입력 및 출력 범주에서 찾을 수 있습니다.

  2. Azure blob storage로 내보낼 데이터를 생성 하는 모듈에 데이터 내보내기 를 연결 합니다.

  3. 데이터 내보내기속성 창을 엽니다. 데이터 대상에 대해 Azure Blob Storage 를 선택 합니다.

  4. 인증 유형 에 대해 저장소에서 sas url을 통해 액세스를 지원함을 알고 있는 경우 공용 (SAS url) 을 선택 합니다.

    SAS URL은 Azure storage 유틸리티를 사용 하 여 생성할 수 있는 특별 한 유형의 URL 이며 제한 된 시간 동안만 사용할 수 있습니다. 여기에는 인증 및 다운로드에 필요한 모든 정보가 포함 됩니다.

    Uri 에 대해 계정과 공용 blob을 정의 하는 전체 uri를 입력 하거나 붙여 넣습니다.

  5. 개인 계정의 경우, 계정 을 선택 하 고, 실험에서 저장소 계정에 쓸 수 있도록 계정 이름과 계정 키를 제공 합니다.

    • 계정 이름: 데이터를 저장 하려는 계정 이름을 입력 하거나 붙여 넣습니다. 예를 들어 저장소 계정의 전체 URL이 인 경우 https://myshared.blob.core.windows.net 을 입력 myshared 합니다.

    • 계정 키: 계정과 연결 된 저장소 액세스 키를 붙여넣습니다.

  6. 컨테이너, 디렉터리 또는 Blob 경로: 내보낸 데이터가 저장 될 blob의 이름을 입력 합니다. 예를 들어 mymldata 이라는 계정에서 컨테이너 예측 의 새 results01.csv blob에 실험 결과를 저장 하기 위해 blob에 대 한 전체 URL은가 됩니다 https://mymldata.blob.core.windows.net/predictions/results01.csv .

    따라서 컨테이너, 디렉터리 또는 blob에 대 한 필드 경로에서 다음과 같이 컨테이너와 blob 이름을 지정 합니다. predictions/results01.csv

  7. 아직 존재 하지 않는 blob의 이름을 지정 하면 Azure에서 blob을 만듭니다.

    기존 blob에 쓰는 경우 Azure blob storage 쓰기 모드 속성을 설정 하 여 blob의 현재 콘텐츠를 덮어쓰도록 지정할 수 있습니다. 기본적으로이 속성은 오류 로 설정 됩니다. 즉, 같은 이름의 기존 blob 파일을 찾을 때마다 오류가 발생 합니다.

  8. Blob 파일의 파일 형식 에 대해 데이터를 저장할 형식을 선택 합니다.

    • Csv: csv (쉼표로 구분 된 값)는 기본 저장소 형식입니다. 열 머리글을 데이터와 함께 내보내려면 blob 헤더 행 쓰기 옵션을 선택 합니다. Azure Machine Learning에서 사용 되는 쉼표로 구분 된 형식에 대 한 자세한 내용은 CSV로 변환을 참조 하세요.

    • TSV: TSV (탭으로 구분 된 값) 형식은 많은 기계 학습 도구와 호환 됩니다. 열 머리글을 데이터와 함께 내보내려면 blob 헤더 행 쓰기 옵션을 선택 합니다. Azure Machine Learning에서 사용 되는 탭으로 구분 된 형식에 대 한 자세한 내용은 TSV로 변환을 참조 하세요.

    • Arff:이 형식은 weka 도구 집합에서 사용 하는 형식으로 파일을 저장 하도록 지원 합니다. SAS URL에 저장 된 파일에 대해서는이 형식이 지원 되지 않습니다. ARFF 형식에 대 한 자세한 내용은 ARFF로 변환을 참조 하세요.

  9. 캐시 된 결과 사용: 실험을 실행할 때마다 blob 파일에 결과를 다시 작성 하지 않으려면이 옵션을 선택 합니다. 모듈 매개 변수에 대 한 다른 변경 내용이 없는 경우 실험은 모듈이 처음 실행 될 때 또는 데이터가 변경 된 경우에만 결과를 기록 합니다.

예제

데이터 내보내기 모듈을 사용 하는 방법에 대 한 예는 Azure AI Gallery를 참조 하세요.

  • 데이터 집합을 VW 형식으로 변환:이 실험에서는 데이터 내보내기 모듈과 함께 Python 스크립트를 사용 하 여 Vowpal wabbit에서 사용할 수 있는 데이터를 만듭니다.

  • Azure SQL Data Warehouse를 사용 하 여 예측 분석 파이프라인 설정:이 시나리오에서는 Azure Machine Learning 및 SQL Data Warehouse를 포함 하 여 여러 구성 요소 간의 데이터 이동에 대해 설명 합니다.

  • 비 코드 일괄 처리 점수 매기기:이 자습서에서는 Azure Logic Apps를 사용 하 여 실험에서 사용 되는 데이터 가져오기와 blob 저장소에 실험 결과를 쓰는 방법을 모두 자동화 하는 방법을 보여 줍니다.

  • Azure data factory를 사용 하 여 온-프레미스 SQL Server AZURE ML 솔루션 운영:이 문서에서는 blob storage를 중간 단계로 사용 하 여 온-프레미스 SQL Server 데이터베이스로 데이터를 다시 전송 하는 보다 복잡 한 데이터 파이프라인을 설명 합니다. 온-프레미스 데이터베이스를 사용 하려면 데이터 게이트웨이를 구성 해야 하지만 예제의 해당 부분을 건너뛰고 blob 저장소만 사용할 수 있습니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

일반적인 질문

실험을 변경 하지 않은 경우 데이터 작성을 방지 하려면 어떻게 해야 하나요?

실험 결과가 변경 되 면 데이터 내보내기 는 항상 새 데이터 집합을 저장 합니다. 그러나 출력 데이터에 영향을 주는 변경 작업 없이 실험을 반복 해 서 실행 하는 경우에는 캐시 된 결과 사용 옵션을 선택할 수 있습니다.

이 모듈은 이전에 동일한 데이터 및 동일한 옵션을 사용 하 여 실험을 실행 했는지 확인 하 고 이전 실행을 찾은 경우 쓰기 작업이 반복 되지 않습니다.

다른 지역에 있는 계정에 데이터를 저장할 수 있나요?

예, 다른 지역의 계정에 데이터를 쓸 수 있습니다. 그러나 저장소 계정이 machine learning 실험에 사용 되는 계산 노드와 다른 지역에 있는 경우 데이터 액세스 속도가 느려질 수 있습니다. 또한 구독에 대 한 데이터 수신 및 송신에 대 한 요금이 청구 됩니다.

모듈 매개 변수

일반 옵션

Name 범위 Type 기본값 설명
데이터 원본 목록 데이터 원본 또는 싱크 Azure Blob Storage 대상은 Azure BLOB 저장소의 파일, Azure 테이블, Azure SQL Database의 테이블 또는 뷰 또는 Hive 테이블이 될 수 있습니다.
캐시 된 결과 사용 TRUE/FALSE 부울 FALSE 유효한 캐시가 없으면 모듈만 실행 됩니다. 그렇지 않으면 이전 실행의 캐시 된 데이터를 사용 합니다.
인증 유형을 지정하세요 SAS/계정 AuthenticationType 계정 액세스 권한 부여를 위해 SAS 또는 계정 자격 증명을 사용 해야 하는지 여부를 나타냅니다.

공용 또는 SAS-공용 저장소 옵션

Name 범위 Type 기본값 설명
Blob의 SAS URI any String 없음 쓸 blob의 SAS URI (필수)
SAS 파일의 파일 형식 ARFF

CSV

TSV
LoaderUtils. 것 CSV 파일이 CSV, TSV 또는 ARFF 인지 여부를 나타냅니다. (필수)
SAS 헤더 행 쓰기 TRUE/FALSE 부울 FALSE 열 머리글을 파일에 쓸지 여부를 나타냅니다.

계정-개인 저장소 옵션

Name 범위 Type 기본값 설명
Azure 계정 이름 any String 없음 Azure 사용자 계정 이름
Azure 계정 키 any SecureString 없음 Azure Storage 키
컨테이너로 시작하는 blob 경로 any String 없음 컨테이너 이름으로 시작 하는 blob 파일의 이름입니다.
Azure blob 저장소 쓰기 모드 목록: 오류, 덮어쓰기 enum: BlobFileWriteMode 오류 Blob 파일을 작성 하는 방법 선택
Blob 파일의 파일 형식 ARFF

CSV

TSV
LoaderUtils. 것 CSV Blob 파일이 CSV, TSV 또는 ARFF 인지 여부를 나타냅니다.
Blob 헤더 행 작성 TRUE/FALSE 부울 FALSE Blob 파일에 머리글 행이 있어야 하는지 여부를 나타냅니다.

예외

예외 설명
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0029 잘못된 URI가 전달되면 예외가 발생합니다.
오류 0030 파일을 다운로드할 수 없으면 예외가 발생합니다.
오류 0002 하나 이상의 매개 변수를 구문 분석할 수 없거나 지정된 형식을 대상 방법에 필요한 형식으로 변환할 수 없으면 예외가 발생합니다.
오류 0009 Azure 저장소 계정 이름 또는 컨테이너 이름을 잘못 지정하는 경우 예외가 발생합니다.
오류 0048 파일을 열 수 없으면 예외가 발생합니다.
오류 0046 지정한 경로에 디렉터리를 만들 수 없으면 예외가 발생합니다.
오류 0049 파일을 구문 분석할 수 없으면 예외가 발생합니다.

스튜디오 (클래식) 모듈과 관련 된 오류 목록은 Machine Learning 오류 코드를 참조 하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조 하세요.

참고 항목

데이터 가져오기
데이터 내보내기
Azure SQL Database로 내보내기
Hive 쿼리로 내보내기
Azure Table로 내보내기