행 분할을 사용하여 데이터 분할

아티클
03/05/2020

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대한 자세한 정보.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 분할 모듈에서 행 분할 옵션을 사용하는 방법을 설명합니다. 이 옵션은 임의로 또는 일부 기준에 따라 학습 및 테스트에 사용되는 데이터 세트를 나누어야 하는 경우에 특히 유용합니다.

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

행 분할 옵션은 임의 분할과 계층화된 분할을 모두 지원합니다. 예를 들어 70-30 분할 또는 두 데이터 세트에 동일하게 표시되는 대상 변수를 사용하여 10-90 분할을 지정할 수 있습니다.

기계 학습 실험의 데이터 분할에 대한 일반적인 내용은 데이터 분할 및 파티션 및 분할을 참조하세요.

데이터 분할 모듈의 다른 옵션은 데이터를 나누는 다양한 방법을 지원합니다.

정규식을 사용하여 데이터 분할: 단일 텍스트 열에 정규식을 적용하고 결과에 따라 데이터 세트를 나눕니다.
상대 식을 사용하여 데이터 분할: 숫자 열에 식을 적용하고 결과에 따라 데이터 세트를 나눕니다.
추천 데이터 세트 분할: 권장 사항 모델에 사용되는 데이터 세트를 나눕니다. 데이터 세트에는 항목, 사용자 및 등급의 세 개의 열이 있어야 합니다.

데이터 세트를 두 그룹으로 나눕니다.

Studio(클래식)에서 실험에 데이터 분할 모듈을 추가하고 분할하려는 데이터 세트를 연결합니다.
분할 모드의 경우 행 분할을 선택합니다.
첫 번째 출력 데이터 세트에 있는 행의 소수입니다. 첫 번째(왼쪽) 출력으로 이동하는 행 수를 확인하려면 이 옵션을 사용합니다. 다른 모든 행은 두 번째(오른쪽) 출력으로 이동합니다.

비율은 첫 번째 출력 데이터 세트로 전송되는 행의 백분율을 나타내므로 0에서 1 사이의 10진수를 입력해야 합니다.

예를 들어 값으로 0.75를 입력하면 데이터 집합은 75:25 비율을 사용하여 분할되며 행의 75%가 첫 번째 출력 데이터 집합으로, 25%가 두 번째 출력 데이터 집합으로 전송됩니다.
데이터 선택 영역을 두 그룹으로 임의 지정하려면 임의 분할 옵션을 선택합니다. 학습 및 테스트 데이터 세트를 만들 때 기본 설정 옵션입니다.
임의 시드: 음수가 아닌 정수 값을 입력하여 사용할 인스턴스의 의사 난수 시퀀스를 초기화합니다. 이 기본 초기값은 난수를 생성하는 모든 모듈에서 사용됩니다.

초기값을 지정하면 결과를 일반적으로 재현할 수 있습니다. 분할 작업 결과를 반복해야 하는 경우 난수 생성기의 초기값을 지정해야 합니다. 그렇지 않으면 기본적으로 무작위 초기값이 0으로 설정되므로 시스템 클록에서 최초 초기값을 가져옵니다. 따라서 분할을 수행할 때마다 데이터 분포가 약간씩 달라질 수 있습니다.
층화 분할: 이 옵션을 True로 설정하면 두 출력 데이터 세트에 층 열 또는 층화 키 열 값에 대한 대표적인 샘플이 포함됩니다.

층화 샘플링을 사용하면 각 출력 데이터 세트가 각 대상 값의 거의 동일한 백분율을 얻도록 데이터를 분할합니다. 예를 들어 학습 및 테스트 집합이 결과 또는 성별과 같은 다른 열과 관련하여 대략적으로 균형을 맞추도록 할 수 있습니다.
실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

예

다음 예제에서는 행 분할 모드를 사용하여 간단한 분할을 수행하는 방법을 보여 줍니다 .

두 개의 동일한 부분으로 분할

다른 변경 없이 데이터 세트 뒤의 데이터 분할 모듈을 추가합니다. 기본적으로 이 모듈은 데이터 집합을 두 개의 균등한 부분으로 분할합니다. 행의 수가 홀수인 데이터의 경우 두 번째 출력에서 나머지를 가져옵니다.

3분의 1로 분할

학습에 사용되는 데이터의 3분의 1과 테스트 또는 추가 분할을 위해 나머지를 사용하여 데이터 세트를 두 부분으로 분할한다고 가정합니다.

이렇게 하려면 데이터 분할 모듈을 추가하고 첫 번째 출력의 행 분수를 0.33으로 설정합니다. 두 번째 출력에는 나머지 2/3가 포함됩니다.

두 번째 출력을 같은 부분으로 나누려면 데이터 분할 모듈의 다른 인스턴스를 추가합니다. 이번에는 50-50 분할의 기본값을 사용합니다.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

구현 세부 정보

이 모듈에서는 데이터 세트에 두 개 이상의 행이 포함되어야 합니다. 그렇지 않으면 오류가 발생합니다.
원하는 행 수를 지정하는 옵션을 사용하는 경우 지정된 숫자는 양의 정수여야 하며 데이터 집합의 총 행 수보다 작아야 합니다.
모든 백분율 값은 0과 1 범위 내에 있어야 합니다.
숫자 또는 백분율을 1보다 작은 부동 소수점 숫자로 지정하고 백분율 기호(%)를 사용하지 않는 경우 숫자는 비례 값으로 해석됩니다.

계층화된 샘플링에 대한 추가 요구 사항

지층 열은 명목 또는 범주 데이터만 포함할 수 있습니다. 열에 연속 숫자 데이터가 포함되어 있으면 오류 메시지가 발생합니다.
고유 값이 너무 많은 열은 계층화에 적합하지 않습니다. 일부 범주를 축소하거나 값을 미리 그룹화해 볼 수 있습니다.

참고 항목

Sample 및 SplitPartition 및 Sample