데이터 변환-샘플 및 분할

이 문서에서는 데이터를 분할 또는 샘플링 하는 데 사용할 수 있는 Azure Machine Learning Studio (클래식)의 모듈을 설명 합니다.

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

기계 학습에서 분할 및 샘플링 데이터 집합은 모두 중요 한 작업입니다. 예를 들어 홀드 아웃 데이터 집합에서 모델을 평가 하는 데 도움이 되도록 데이터를 학습 집합과 테스트 집합으로 분할 하는 것이 일반적인 방법입니다. 또한 샘플링은 큰 데이터의 연대에서 학습 데이터에 클래스를 공평 하 게 배포 하기 위해 점점 더 중요 합니다. 샘플링을 사용 하면 필요한 것 보다 더 많은 데이터를 처리 하지 않도록 할 수도 있습니다.

Machine Learning Studio (클래식) 모듈을 사용 하 여 데이터 집합을 분할 하거나 샘플링 하는 방법을 사용자 지정할 수 있습니다.

  • 데이터의 특성을 기반으로 학습 데이터를 필터링 합니다.
  • 층 화 샘플링을 수행 하 여 클래스 변수를 n 개의 그룹 수와 동일 하 게 나눕니다.
  • 사용자 지정 비율을 사용 하 여 원본 데이터를 학습 및 테스트 데이터 집합으로 나눕니다.
  • 데이터에 정규식을 적용 하 여 잘못 된 값을 필터링 합니다.

오른쪽 작업 선택: 분할 또는 샘플링

Machine Learning Studio (클래식)은 작업을 캡슐화 하는 두 모듈을 제공 합니다. 모듈은 비슷하지만 다른 용도로 사용 되며 보완 기능을 제공 합니다. 실험에서 두 모듈을 모두 사용 하 여 데이터의 올바른 크기와 적절 한 조합을 얻을 수 있습니다.

다음으로 각 모듈이 일반적으로 사용 되는 태스크를 확인 하 여 데이터 분할 모듈과 파티션 및 샘플 모듈을 비교 합니다.

분할 데이터 모듈의 용도

  • 데이터를 두 그룹으로 나눕니다. 데이터 분할 모듈을 사용 합니다. 모듈은 정확히 두 개의 데이터 분할을 생성 합니다. 데이터가 분할 되는 조건 및 각 하위 집합에 포함할 데이터의 비율을 지정할 수 있습니다. 데이터 분할 은 항상 조건을 충족 하지 않는 데이터의 하위 집합을 저장 합니다.
  • 레이블 값을 데이터 집합에 동일 하 게 할당 합니다. 지정 된 열에 대 한 층 화 기준 옵션은 두 모듈에서 모두 지원 됩니다. 그러나 두 데이터 집합을 만들고 대부분 레이블 열에 관심이 있는 경우 데이터 분할 모듈은 신속한 솔루션입니다.

데이터 분할 모듈을 사용 하는 예

CSV 파일에서 매우 큰 데이터 집합을 가져온 경우를 가정 합니다. 데이터 집합에는 고객 인구 통계가 포함 됩니다. 다른 국가의 고객에 대해 다른 모델을 만들려는 경우 열 값을 사용 하 여 데이터를 분할 하기로 결정 합니다 Country-Region . 이 작업을 완료 하기 위해 수행 하는 단계는 다음과 같습니다.

  1. 데이터 분할 모듈을 추가한 다음 필드에 식을 지정 Country-Region 합니다. 나머지 데이터는 보조 출력에서 사용할 수 있습니다.
  2. 데이터 분할 모듈의 다른 인스턴스를 추가 합니다.
  3. 1 단계와 2 단계를 반복 합니다. 각 반복에 대해 식에 다른 국가를 지정 합니다.

데이터 분할 모듈은 숫자 데이터에 대해 정규식, 텍스트 데이터에 대 한 상대 식 등을 모두 지원 합니다.

데이터 분할 모듈은 특수화 된 데이터 집합을 나누는 데 사용할 수 있는 정교한 기능도 제공 합니다. 기능을 사용 하 여 권장 사항 모델을 만들고 예측을 생성할 수 있습니다.

파티션 및 샘플 모듈 사용

  • 샘플링 항상 파티션 및 샘플 모듈을 사용 합니다. 모듈은 층 화 샘플링에 대 한 몇 가지 옵션을 포함 하 여 사용자 지정 가능한 여러 샘플링 방법을 제공 합니다.
  • 여러 그룹에 사례를 할당 합니다. 할당을 사용 하분할 및 샘플 모듈에서 접기 옵션을 선택 합니다.
  • 데이터의 하위 집합만 반환 합니다. 파티션 및 샘플 모듈을 사용 합니다. 모듈은 기본 출력에 지정 된 하위 집합을 제공 합니다. 나머지 데이터는 보조 출력에서 사용할 수 있습니다.
  • 데이터 집합의 상위 2000 행만 가져옵니다. 파티션 및 샘플 모듈을 사용 합니다. 헤드 옵션을 선택 합니다. 이 기능은 새 실험을 테스트 하 고 워크플로의 짧은 시험을 실행 하려는 경우에 특히 유용 합니다.

파티션 및 샘플 모듈을 사용 하는 예

파티션 및 샘플 모듈은 2 뿐만 아니라 데이터의 여러 파티션을 생성할 수 있습니다. 동시에 다양 한 샘플링 작업을 수행할 수 있습니다.

예를 들어, 대상 특성의 분포가 원본 데이터의 데이터와 동일한 지 확인 하는 동시에 데이터의 10%만을 확보 해야 한다고 가정 합니다. 이 작업을 완료 하기 위해 수행 하는 단계는 다음과 같습니다.

  1. 파티션 및 샘플 모듈을 추가 합니다.
  2. 샘플링 모드를 선택 하 고 10% 를 지정 합니다.
  3. 층 화 샘플링 옵션을 선택한 다음 대상 특성을 포함 하는 열을 선택 합니다.

모든 데이터를 유지할 필요가 없는 경우 파티션 및 샘플 모듈을 사용 합니다. 나머지 데이터는 작업 영역에 계속 표시 되지만 실험의 일부로 추가로 처리할 필요가 없습니다.

  • 샘플에서 드물게 발생 하는 사례 수를 늘리거나 대상 값에 대 한 사례의 균형을 다시 조정 합니다. SMOTE 모듈을 사용 합니다.
  • 데이터 공간을 가장 잘 나타내는 기능의 조합을 찾아 차원 감소를 수행 합니다. 주 구성 요소 분석 모듈을 사용 합니다.
  • 기능에 대 한 분석을 기반으로 압축 기능 만들기: 개수 모듈에서 학습 을 사용 합니다.
  • 지정 된 열만 사용 하 여 뷰나 프로젝션을 만듭니다. 데이터 집합의 열 제거 또는 숨기기: 데이터 집합에서 열 선택SQL 변환 모듈 적용 을 사용 합니다.
  • 더 복잡 한 데이터 필터, 그룹화 또는 변환 적용: R 스크립트 실행SQL 변환 모듈 적용 을 사용 합니다.

모듈 목록

이 범주에 포함된 모듈은 다음과 같습니다.

  • 파티션 및 샘플: 샘플링을 기반으로 데이터 집합의 여러 파티션을 만듭니다.
  • 데이터 분할: 데이터 집합의 행을 두 개의 고유 집합으로 분할 합니다.

참고 항목