CSV로 변환

쉼표로 구분된 값 형식으로 데이터 입력 변환

범주: 데이터 형식 변환

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)에서 csv로 변환 모듈을 사용 하 여 Azure ML의 데이터 집합을 R 또는 Python 스크립트 모듈에서 다운로드, 내보내기 또는 공유할 수 있는 csv 형식으로 변환 하는 방법을 설명 합니다.

CSV 형식에 대 한 자세한 정보

"쉼표로 구분 된 값"을 의미 하는 CSV 형식은 여러 외부 기계 학습 도구에서 사용 하는 파일 형식입니다. Azure Machine Learning에서 사용 하는 네이티브 데이터 집합 형식은 .NET datatable을 기반으로 하므로 .NET 라이브러리에서 읽을 수 있지만, CSV는 R 또는 Python과 같은 오픈 소스 언어로 작업할 때 일반적인 교환 형식입니다.

Azure Machine Learning Studio (클래식)에서 대부분의 작업을 수행 하는 경우에도 외부 도구에서 사용 하기 위해 데이터 집합을 CSV로 변환 하는 것이 편리할 수 있습니다. 다음은 그 예입니다.

  • CSV 파일을 다운로드 하 여 Excel에서 열거나 관계형 데이터베이스로 가져옵니다.
  • CSV 파일을 클라우드 저장소에 저장 하 고 Power BI에서 연결 하 여 시각화를 만듭니다.
  • CSV 형식을 사용 하 여 R 및 Python에서 사용할 데이터를 준비 합니다. 모듈의 출력을 마우스 오른쪽 단추로 클릭 하 여 Python 또는 Jupyter 노트북에서 직접 데이터에 액세스 하는 데 필요한 코드를 생성 하면 됩니다.

데이터 집합을 CSV로 변환 하면 파일이 Azure ML 작업 영역에 저장 됩니다. Azure storage 유틸리티를 사용 하 여 파일을 직접 열고 사용할 수 있습니다. 또는 모듈 출력을 마우스 오른쪽 단추로 클릭 하 고 CSV 파일을 컴퓨터에 다운로드 하거나 R 또는 Python 코드에서 사용할 수 있습니다.

CSV로 변환 구성 방법

  1. CSV로 변환 모듈을 실험에 추가 합니다. 이 모듈은 Studio (클래식)의 데이터 형식 변환 그룹에서 찾을 수 있습니다.

  2. 데이터 집합을 출력 하는 모듈에 연결 합니다.

  3. 실험을 실행 하거나 CSV로 변환 모듈을 클릭 하 고 선택한 실행 을 클릭 합니다.

결과

CSV로 변환의 출력을 두 번 클릭 하 고 다음 옵션 중 하나를 선택 합니다.

  • 다운로드: 로컬 폴더에 저장할 수 있는 CSV 형식의 데이터 복사본을 즉시 엽니다. 폴더를 지정 하지 않으면 기본 파일 이름이 적용 되 고 CSV 파일이 로컬 다운로드 라이브러리에 저장 됩니다.

    데이터 집합 다운로드 를 선택 하는 경우 데이터 집합을 열지 아니면 로컬 파일에 저장할지를 지정 해야 합니다.

    열기 를 선택 하면 데이터 집합은 기본적으로와 연결 된 응용 프로그램을 사용 하 여 로드 됩니다. CSV 파일: 예: Microsoft Excel.

    데이터 집합 다운로드 를 선택 하는 경우 기본적으로 파일은 모듈 이름에 작업 영역 ID를 나타내는 GUID를 추가 하 여 저장 됩니다. 그러나 다운로드 중에 다른 이름 으로 저장 옵션을 선택 하 고 파일 이름 또는 위치를 변경할 수 있습니다.

  • 데이터 집합으로 저장: CSV 파일을 별도의 데이터 집합으로 Azure ML 작업 영역에 다시 저장 합니다.

  • 데이터 액세스 코드 생성: Azure ML은 Python 또는 R을 사용 하 여 데이터에 액세스 하는 두 가지 코드 집합을 생성 합니다. 데이터에 액세스 하려면 코드 조각을 응용 프로그램에 복사 합니다.

  • 새 노트북에서 열기: 새 Jupyter 노트북은 사용자가 선택한 언어를 사용 하 여 작업 영역에서 데이터를 읽도록 삽입 된 코드 (예: python 2, python 3 또는 Microsoft r Open의 r)를 사용 하 여 생성 됩니다.

    예를 들어 R 옵션을 선택 하는 경우 CSV 파일을 데이터 프레임에 로드 하 고 함수를 사용 하 여 처음 몇 개의 행을 표시 하는 샘플 R 코드가 제공 됩니다 head .

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

CSV 형식의 요구 사항

CSV 파일 형식은 많은 기계 학습 프레임 워크에서 지 원하는 인기 있는 형식입니다. 형식은 "쉼표로 구분 된 값" 또는 "문자 구분 값" 다양 합니다.

CSV 파일에서는 표 형식 데이터(숫자와 텍스트)가 일반 텍스트 형식으로 저장됩니다. CSV 파일은 특정 종류의 줄 바꿈으로 구분된 임의의 수의 레코드로 구성됩니다. 각 레코드는 리터럴 쉼표로 구분 된 필드로 구성 됩니다. 일부 지역에서는 구분 기호가 세미콜론 일 수 있습니다.

일반적으로 모든 레코드는 동일한 수의 필드를 가지 며 누락 값은 null 또는 빈 문자열로 표시 됩니다.

Azure Machine Learning에서 사용 하기 위해 Excel, Access 또는 관계형 데이터베이스에서 CSV 파일로 데이터를 쉽게 내보낼 수 있습니다. 파일 이름에는 일반적으로가 있습니다. CSV 확장 Azure Machine Learning CSV로 데이터를 가져오려는 경우이 파일 이름 확장명을 지정할 필요가 없습니다. .XLSX, TXT 및 기타 파일을 CSV로 가져올 수 있습니다. 그러나 이전 섹션에서 설명한 대로 파일의 필드에 형식을 지정 해야 하며 파일은 UTF-8 인코딩을 사용 해야 합니다.

일반적인 질문 및 문제

이 섹션에서는 CSV로 변환 모듈과 관련 된 몇 가지 알려진 문제, 일반적인 질문 및 해결 방법에 대해 설명 합니다.

헤더는 단일 행 이어야 합니다.

Azure Machine Learning에서 사용 되는 CSV 파일 형식은 단일 머리글 행을 지원 합니다. 여러 줄 머리글을 삽입할 수 없습니다.

가져오기에는 지원 되지만 내보낼 수는 없는 사용자 지정 구분 기호

CSV로 변환 모듈은 종종 유럽에서 사용 되는 세미콜론 (;)과 같은 대체 열 구분 기호 생성을 지원 하지 않습니다.

그러나 외부 저장소의 CSV 파일에서 데이터를 가져올 때 대체 구분 기호를 지정할 수 있습니다. 데이터 가져오기 모듈에서 인코딩 포함 CSV 옵션을 선택 하 고 지원 되는 인코딩을 선택 합니다.

쉼표를 포함 하는 문자열 데이터에서 부정확 한 열 구분

텍스트를 처리 하는 일반적인 문제는 텍스트 필드에서 임의로 열 구분 기호 (탭, 공백, 쉼표 등)로 지정할 수 있는 모든 문자에 대 한 것입니다. 불필요 한 새 열에서 텍스트를 분리 하지 않도록 하려면 CSV에서 텍스트를 가져오는 것이 항상 주의 해야 합니다.

쉼표가 포함 된 문자열 데이터의 열을 내보내려는 경우에도 문제가 발생할 수 있습니다. Azure Machine Learning는 문자열을 따옴표로 묶는 등의 특수 처리 또는 이러한 데이터의 특수 한 변환을 지원 하지 않습니다. 또한 쉼표 앞에 이스케이프 문자를 사용 하 여 쉼표가 리터럴 문자로 처리 되도록 할 수 없습니다.

따라서 문자열 필드에서 발생 하는 각 쉼표에 대해 출력 파일에 새 필드가 생성 됩니다. 이 문제를 방지 하기 위해 다음과 같은 몇 가지 해결 방법이 있습니다.

  • 텍스트 전처리 모듈을 사용 하 여 문자열 필드에서 문장 부호 문자를 제거할 수 있습니다.

  • 사용자 지정 R 스크립트 또는 Python 스크립트 를 사용 하 여 텍스트를 처리 하 고 데이터를 올바르게 내보낼 수 있는지 확인 합니다.

UTF-8 인코딩이 필요 합니다.

CSV로 변환 모듈은 UTF-8 문자 인코딩만 지원합니다. 다른 인코딩을 사용 하 여 데이터를 내보내야 하는 경우 R 스크립트 실행 또는 Python 스크립트 실행 모듈을 사용 하 여 사용자 지정 출력을 생성할 수 있습니다.

데이터 집합에 열 이름이 없습니다.

CSV 파일로 내보내는 데이터 집합에 열 이름이 없는 경우 데이터를 변환 하기 전에 메타 데이터 편집 을 사용 하 여 열 이름을 추가 하는 것이 좋습니다. 변환 또는 내보내기 프로세스의 일부로 열 이름을 추가할 수 없습니다.

SYLK: 파일 형식이 잘못 되었습니다.

CSV로 변환 하는 데이터 집합의 첫 번째 열에 이름 ID 가 있는 경우 Excel에서 파일을 열려고 하면 다음과 같은 오류가 나타날 수 있습니다.

"SYLK: 파일 형식이 잘못 되었습니다."

이 오류를 방지 하려면 열의 이름을 바꾸어야 합니다. 자세한 내용은 https://support.microsoft.com/kb/215591를 참조하세요.

CSV에서 가져오기에 대 한 도움이 필요 합니다.

가져오기의 경우 CSV로 내보내기 모듈을 사용 하지 마세요. 대신 데이터 가져오기 모듈을 사용 합니다.

CSV에서 가져오는 방법에 대 한 자세한 내용은 다음 리소스를 참조 하세요.

예상 입력

속성 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

출력

속성 유형 설명
결과 데이터 집합 GenericCsv 출력 데이터 세트

참고 항목

데이터 형식 변환
전체 모듈 목록