압축된 데이터 세트 압축 풀기

사용자 저장소의 zip 패키지에서 데이터 집합 압축을 풉니다.

범주: 데이터 입력 및 출력

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)에서 압축 된 데이터 집합 압축 풀기 모듈을 사용 하 여 데이터와 스크립트 파일을 압축 된 형식으로 업로드 한 다음 실험에서 사용할 수 있도록 압축을 푸는 방법을 설명 합니다.

이 모듈은 데이터 파일을 압축 된 형식으로 저장 하 고 업로드 하 여 매우 큰 데이터 집합으로 작업할 때 데이터 전송 시간을 줄이기 위한 것입니다. 일반적으로 압축 파일은 업로드 시간 및 관련 비용을 최소화 하기 위해 업로드에 압축을 사용 하려는 데이터 집합이 너무 클 때 좋은 옵션입니다.

모듈은 작업 영역에서 데이터 집합을 입력으로 사용 합니다. 데이터 집합은 압축 된 형식으로 업로드 해야 합니다. 그런 다음 모듈은 데이터 집합의 압축을 풀거나 작업 영역에 데이터를 추가 합니다.

압축 풀기 압축 풀기를 사용 하는 방법

이 섹션에서는 데이터를 준비 하 고 Azure Machine Learning Studio (클래식)에서 압축을 푸는 방법을 설명 합니다.

1단계. 파일 준비

파일을 업로드 하기 전에 Azure Machine Learning에서 파일의 데이터를 사용할 수 있는지 확인 합니다.

  • 파일의 데이터가 UTF-8 인코딩을 사용 하는지 확인 합니다.

    파일이 충분히 작으면 메모장에서 연 다음 원하는 인코딩으로 파일을 저장할 수 있습니다. 다른 많은 텍스트 편집기는 비슷한 기능을 제공 합니다. CSV 파일의 경우 Excel의 다른 이름으로 저장 또는 내보내기 명령을 사용 하 여 파일 형식 및 인코딩을 지정할 수 있습니다.

  • 데이터 파일이 CSV, TSV, ARFF 또는 SVMLight와 같은 지원 되는 형식을 사용 하는지 확인 합니다.

  • 에 데이터 파일을 추가 하 여 데이터를 압축 합니다. ZIP 또는. RELEASE.TAR.GZ 서식 파일을 보관 합니다. 다른 보관 형식은 지원 되지 않습니다.

  • 암호 보호를 제거 합니다. 파일이 나 압축 된 폴더 자체가 암호화 되었거나 암호로 보호 된 경우 파일을 업로드 하기 전에 파일의 잠금을 해제 하거나 암호를 해독 해야 합니다. 모듈은 암호화 된 데이터 형식을 검색할 수 없으며 임의의 클라이언트의 암호 입력을 위한 대화 상자를 지원 하지 않습니다.

2단계. 작업 영역에 데이터 집합 업로드

그런 다음, 압축 된 데이터 집합을 실험 작업 영역에 업로드 합니다.

  1. 새로 만들기 를 클릭 하 고, 데이터 집합 을 선택 하 고, 로컬 파일에서 를 선택 합니다.

  2. 업로드할 압축 된 파일을 찾습니다. 파일을 선택 하면 형식이 자동으로 zip 파일 (.zip) 로 설정 됩니다.

3단계: 실험에 압축 데이터 집합 추가

데이터 집합이 완전히 업로드 된 후에는 압축 형식으로 실험에 추가 합니다.

  1. Azure Machine Learning Studio (클래식)의 왼쪽 탐색 창에서 저장 된 데이터 집합 을 선택 하 고 내 데이터 집합 을 확장 합니다.

  2. 방금 업로드 한 압축 된 데이터 집합을 찾아 실험 캔버스로 끌어 놓습니다.

4단계. 데이터 집합 압축 풀기

마지막 단계는 데이터 집합의 압축을 푸는 것입니다.

  1. 압축 된 데이터 집합을 압축 풀기 압축 풀기 모듈의 입력에 연결 합니다.

  2. 압축을 풀 데이터 집합 에서 압축을 풀 단일 데이터 집합의 이름을 입력 합니다.

    • 이름이 sheet1 인 워크시트를 Test.csv 라는 Excel CSV 파일로 저장 한 경우 데이터 집합의 이름은 sheet1 이 아닌 Test.csv 됩니다.

    • 압축 을 풀 데이터 집합 텍스트 상자에 입력 하는 이름은 파일 이름 확장명을 포함 하 여 압축 되기 전의 원래 파일 이름과 정확히 동일 해야 합니다. 예를 들어 Users.txt 텍스트 파일에 따라 데이터 집합의 압축을 풀려면 사용자가 아닌 Users.txt 를 입력 합니다.

    • 하나의 압축 된 폴더에 여러 파일을 배치 하는 경우 한 번에 하나의 데이터 집합의 압축을 풀어야 합니다.

    속성을 비워 두면 압축 된 보관 파일에 원본 파일이 하나만 포함 되어 있다고 가정 하 고 모듈이 zip 파일에서 파일 이름을 가져옵니다. 압축 된 보관 파일에 여러 파일이 포함 되어 있으면 런타임 오류가 발생 합니다.

  3. 데이터 집합 파일 형식 에 대해 데이터 집합의 원래 형식 (압축 이전의 형식)을 지정 합니다.

    CSV, ARFF, TSV, SvmLight 형식을 사용 하 여 만든 데이터 집합을 업로드 하 고 압축을 풀 수 있습니다.

    이 속성을 비워 두면 모듈이 원본 파일 이름을 사용 하 여 데이터 집합을 식별 합니다.

  4. 원본 데이터 집합에 머리글 행이 있는 경우 파일에 헤더 행이 있습니다. 옵션을 선택 합니다. 그렇지 않으면 첫 번째 데이터 행이 헤더로 사용 됩니다. 원하는 항목이 아닌 경우 입력 앞에 헤더를 추가 합니다.

    이 옵션은에만 적용 됩니다. CSV 및 TSV 파일.

    참고

    파일의 형식을 변경 하는 경우이 옵션이 다시 설정 됩니다.

  5. 파일이 압축 된 경우 압축 파일 형식 옵션을 사용 하 여 파일을 압축 하거나 확장 하는 데 사용 된 알고리즘을 지정 합니다.

    현재입니다. ZIP 및 RELEASE.TAR.GZ (또는 Gzip) 형식이 지원 됩니다.

  6. 실험을 실행합니다.

결과

  • 데이터를 제대로 가져왔는지 확인 하려면 압축을 푼 압축 데이터 집합 모듈을 마우스 오른쪽 단추로 클릭 하 고 시각화 를 선택 합니다.

  • 데이터 집합의 이름을 변경 하려면 압축을 푼 압축 데이터 집합 모듈을 마우스 오른쪽 단추로 클릭 하 고 데이터 집합으로 저장 을 선택 합니다. 이 시점에서 다른 이름을 입력할 수 있습니다.

    이 옵션은 단일 ZIP 파일에서 여러 데이터 집합의 압축을 푸는 경우에 유용 합니다.

예제

이 모듈의 작동 방식을 보여 주기 위해 샘플을 만들었습니다. 4 개의 다른 CSV 파일을 포함 하는 ZIP 파일입니다. 모든 파일이 Excel에서 저장 되었습니다.

파일 이름 Description
names-uni.csv 열 머리글이 있는 유니코드 파일
names-utf.csv 열 머리글이 포함 된 UTF-8 파일
nonames-uni.csv 열 머리글이 없는 유니코드 파일
nonames-utf8.csv 열 머리글이 없는 UTF-8 파일

압축 된 전체 파일이 업로드 된 다음 압축 풀기 압축 풀기 모듈이 4 번 실행 되어 다음 설정을 사용 하 여 4 개의 파일을 각각 추출 합니다.

  1. 압축을 풀 데이터 집합 = names-uni.csv, 파일에 머리글 행 = TRUE
  2. 압축을 풀 데이터 집합 = names-utf8.csv, 파일에 머리글 행 = TRUE
  3. 압축을 풀 데이터 집합 = nonames-uni.csv, 파일에 머리글 행 = FALSE
  4. 압축을 풀 데이터 집합 = nonames-utf8.csv, 파일에 머리글 행 = FALSE

결과는 다음과 같이 예상 됩니다.

파일 이름 업로드 결과
names-uni.csv 오류 0049: 파일을 구문 분석 하는 동안 오류가 발생 했습니다. 파일이 유니코드가 아닙니다 (UTF-8).
names-utf8.csv 성공했습니다. 원본 파일의 원래 열 이름을 사용 합니다.
nonames-uni.csv 오류 0049: 파일을 구문 분석 하는 동안 오류가 발생 했습니다. 파일이 유니코드가 아닙니다 (UTF-8).
nonames-utf8.csv 성공했습니다. 열 이름 Col1, col2, ... 열 n 이 데이터 집합에 자동으로 추가 됩니다.

참고

옵션을 사용 하는 경우 파일에 header row = TRUE가 있고 원본 파일에 열 머리글이 없는 경우 데이터의 첫 행이 열 머리글로 사용 됩니다.

기술 정보

이 모듈을 사용 하 여 압축을 푼 R 패키지의 압축을 풀 수 없습니다. R 패키지를 업로드 하 고 압축 된 파일로 사용 해야 합니다.

압축 된 R 패키지로 작업 하는 방법에 대 한 자세한 내용은 r 스크립트 실행을 참조 하세요.

참고

U t f-8과 유니코드의 차이를 혼동 하나요? 이 위키백과 문서를 참조 하세요. Utf-8 이란?

모듈 매개 변수

Name 범위 Type 기본값 설명
압축 파일 형식 Zip

Gzip
압축 규칙 Zip 압축 알고리즘은 파일을 압축 하거나 확장 하는 데 사용 됩니다.
압축을 풀 데이터 집합 모두 String 없음 Azure ML Studio (클래식)에 등록할 데이터 집합의 이름입니다. 데이터 집합의 이름을 지정 하지 않으면 zip 파일의 파일 이름에서 이름을 가져옵니다.
데이터 집합 파일 형식 CSV

TSV

ARFF

SVMLIGHT
파일 형식 CSV 압축 된 파일에 있는 데이터 집합의 파일 형식
파일에 헤더 행이 있음 TRUE/FALSE 부울 아니요 CSV/TSV 파일에 머리글 행이 있는 경우에만 True 로 설정 합니다.

예상 입력

Name Type 설명
데이터 세트 Zip 데이터 집합이 포함 된 압축 파일

출력

Name Type 설명
결과 데이터 집합 데이터 테이블 출력 데이터 세트

참고 항목

데이터 입력 및 출력