데이터 형식 변환

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

참고

적용 대상: Machine Learning Studio(클래식)

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

이 문서에서는 기계 학습에 사용되는 다양한 파일 형식 간에 데이터를 변환하기 위해 Machine Learning Studio(클래식)에 제공된 모듈을 나열합니다.

지원되는 형식은 다음과 같습니다.

  • Machine Learning 전체에서 사용되는 데이터 세트 형식입니다.
  • Weka에서 사용하는 ARFF 형식입니다. Weka는 오픈 소스 Java 기반 기계 학습 알고리즘 집합입니다.
  • SVMLight 형식입니다. SVMLight 형식은 기계 학습을 위한 SVMlight 프레임워크용으로 개발되었습니다. Vowpal Wabbit에서도 사용할 수 있습니다.
  • 대부분의 관계형 데이터베이스에서 지원하는 탭으로 구분된(TSV)CSV(쉼표로 구분된) 플랫 파일 형식입니다. 이러한 형식은 R 및 Python에서도 널리 지원됩니다.

데이터를 이러한 형식으로 변환하면 다양한 기계 학습 프레임워크 또는 스토리지 메커니즘 간에 결과와 데이터를 보다 쉽게 이동할 수 있습니다.

참고

이러한 데이터 변환 모듈은 전체 데이터 세트만 지정된 형식으로 변환합니다. 캐스팅, 잘림, 날짜/시간 형식 변환 또는 기타 값 조작을 수행해야 하는 경우 데이터 변환에서 모듈을 사용하거나 관련 작업 목록을 참조하세요.

일반적인 데이터 변환 시나리오

Machine Learning 실험에서 다른 기계 학습 도구 또는 플랫폼으로 데이터를 이동해야 하는 경우 일반적으로 데이터 변환 모듈을 사용합니다. 모듈을 사용하여 데이터베이스 또는 다른 도구에서 사용할 수 있는 형식으로 Machine Learning 데이터를 내보낼 수도 있습니다. 예:

Task 사용 항목
Excel 사용하거나 데이터베이스로 가져오기 위해 중간 데이터 세트를 저장해야 합니다. CSV 모듈 또는 TSV 모듈을 사용하여 데이터를 올바른 형식으로 준비합니다. 그런 다음 데이터를 다운로드하거나 저장하여 Azure Storage.
R 또는 Python 코드에서 실험의 데이터를 다시 사용하려고 합니다. CSV 모듈 또는 TSV 모듈을 사용하여 데이터를 준비합니다. 그런 다음 변환된 데이터 세트를 마우스 오른쪽 단추로 클릭하여 데이터 세트에 액세스하는 데 필요한 Python 코드를 가져옵니다.
Weka와 Machine Learning 간에 실험 및 데이터를 포팅하고 있습니다. ARFF 모듈을 사용하여 데이터를 준비합니다. 그런 다음 결과를 다운로드합니다.
SVMlight 프레임워크에서 데이터를 준비해야 합니다. SVMLight로 변환 모듈을 사용하여 데이터를 준비합니다. 그런 다음 결과 데이터를 다운로드합니다.
Vowpal Wabbit와 함께 사용할 데이터를 만듭니다. SVMLight 형식을 사용합니다. 그런 다음 문서에 설명된 대로 파일을 수정합니다. Machine Learning Vowpal Wabbit 모듈과 함께 사용할 파일을 Azure Blob Storage에 저장합니다.
데이터는 테이블 형식이 아닙니다. 데이터 세트로 변환 모듈을 사용하여 데이터 세트 형식으로 강제 변환 합니다.

데이터를 Machine Learning 가져오거나 개별 열의 데이터를 변환해야 하는 경우 데이터 변환을 수행하기 전에 다음 모듈을 사용합니다.

Task 사용 항목
컴퓨터에서 Machine Learning 데이터를 가져옵니다. 학습 데이터를 Machine Learning Studio(클래식)로 가져오기에 설명된 대로 CSV 형식으로 데이터 세트를 업로드.
Hadoop 또는 Azure를 포함하여 클라우드 데이터 원본에서 데이터를 가져옵니다. 데이터 가져오기 모듈을 사용합니다.
Azure Blob Storage, Hadoop 클러스터 또는 기타 클라우드 기반 스토리지에 기계 학습 데이터 세트를 저장합니다. 데이터 내보내기 모듈을 사용합니다.
열의 데이터 형식을 변경하거나 열을 다른 형식 또는 형식으로 캐스팅합니다. Machine Learning 메타데이터 편집 또는 SQL 변환 적용 모듈을 사용합니다. R 또는 Python에 능숙한 경우 Python 스크립트 실행 또는 R 스크립트 실행 모듈을 사용해 보세요.
숫자 데이터를 반올림, 그룹화 또는 정규화합니다. 수학 적용 연산, Bin에 데이터 그룹화 또는 데이터 정규화 모듈을 사용합니다.

모듈 목록

데이터 형식 변환 범주에는 다음 모듈이 포함됩니다.

  • ARFF로 변환: 데이터 입력을 Weka 도구 집합에서 사용하는 특성 관계 파일 형식으로 변환합니다.
  • CSV로 변환: 데이터 세트를 쉼표로 구분된 값 형식으로 변환합니다.
  • 데이터 세트로 변환: 데이터 입력을 Machine Learning 사용하는 내부 데이터 세트 형식으로 변환합니다.
  • SVMLight로 변환: 데이터 입력을 SVMlight 프레임워크에서 사용하는 형식으로 변환합니다.
  • TSV로 변환: 데이터 입력을 탭으로 구분된 형식으로 변환합니다.

참고 항목