행 분할을 사용하여 데이터 분할

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 분할 모듈에서 분할 옵션을 사용하는 방법을 설명합니다. 이 옵션은 임의로 또는 일부 기준에 따라 학습 및 테스트에 사용되는 데이터 세트를 나누어야 하는 경우에 특히 유용합니다.

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

행 분할 옵션은 임의 분할과 계층화된 분할을 모두 지원합니다. 예를 들어 70-30 분할 또는 두 데이터 세트에 동일하게 표시되는 대상 변수를 사용하여 10-90 분할을 지정할 수 있습니다.

기계 학습 실험의 데이터 분할에 대한 일반적인 내용은 데이터 분할파티션 및 분할을 참조하세요.

데이터 분할 모듈의 다른 옵션은 데이터를 나누는 다양한 방법을 지원합니다.

데이터 세트를 두 그룹으로 나눕니다.

  1. Studio(클래식)에서 실험에 데이터 분할 모듈을 추가하고 분할하려는 데이터 세트를 연결합니다.

  2. 분할 모드의 경우 행 분할을 선택합니다.

  3. 첫 번째 출력 데이터 세트에 있는 행의 소수입니다. 첫 번째(왼쪽) 출력으로 이동하는 행 수를 확인하려면 이 옵션을 사용합니다. 다른 모든 행은 두 번째(오른쪽) 출력으로 이동합니다.

    비율은 첫 번째 출력 데이터 세트로 전송되는 행의 백분율을 나타내므로 0에서 1 사이의 10진수를 입력해야 합니다.

    예를 들어 값으로 0.75를 입력하면 데이터 집합은 75:25 비율을 사용하여 분할되며 행의 75%가 첫 번째 출력 데이터 집합으로, 25%가 두 번째 출력 데이터 집합으로 전송됩니다.

  4. 데이터 선택 영역을 두 그룹으로 임의 지정하려면 임의 분할 옵션을 선택합니다. 학습 및 테스트 데이터 세트를 만들 때 기본 설정 옵션입니다.

  5. 임의 시드: 음수가 아닌 정수 값을 입력하여 사용할 인스턴스의 의사 난수 시퀀스를 초기화합니다. 이 기본 초기값은 난수를 생성하는 모든 모듈에서 사용됩니다.

    초기값을 지정하면 결과를 일반적으로 재현할 수 있습니다. 분할 작업 결과를 반복해야 하는 경우 난수 생성기의 초기값을 지정해야 합니다. 그렇지 않으면 기본적으로 무작위 초기값이 0으로 설정되므로 시스템 클록에서 최초 초기값을 가져옵니다. 따라서 분할을 수행할 때마다 데이터 분포가 약간씩 달라질 수 있습니다.

  6. 층화 분할: 이 옵션을 True로 설정하면 두 출력 데이터 세트에 층 열 또는 층화 키 열 값에 대한 대표적인 샘플이 포함됩니다.

    층화 샘플링을 사용하면 각 출력 데이터 세트가 각 대상 값의 거의 동일한 백분율을 얻도록 데이터를 분할합니다. 예를 들어 학습 및 테스트 집합이 결과 또는 성별과 같은 다른 열과 관련하여 대략적으로 균형을 맞추도록 할 수 있습니다.

  7. 실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

다음 예제에서는 행 분할 모드를 사용하여 간단한 분할을 수행하는 방법을 보여 줍니다 .

두 개의 동일한 부분으로 분할

다른 변경 없이 데이터 세트 뒤의 데이터 분할 모듈을 추가합니다. 기본적으로 이 모듈은 데이터 집합을 두 개의 균등한 부분으로 분할합니다. 행의 수가 홀수인 데이터의 경우 두 번째 출력에서 나머지를 가져옵니다.

3분의 1로 분할

학습에 사용되는 데이터의 3분의 1과 테스트 또는 추가 분할을 위해 나머지를 사용하여 데이터 세트를 두 부분으로 분할한다고 가정합니다.

이렇게 하려면 데이터 분할 모듈을 추가하고 첫 번째 출력의 행 분수를 0.33으로 설정합니다. 두 번째 출력에는 나머지 2/3가 포함됩니다.

두 번째 출력을 같은 부분으로 나누려면 데이터 분할 모듈의 다른 인스턴스를 추가합니다. 이번에는 50-50 분할의 기본값을 사용합니다.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

구현 세부 정보

  • 이 모듈에서는 데이터 세트에 두 개 이상의 행이 포함되어야 합니다. 그렇지 않으면 오류가 발생합니다.

  • 원하는 행 수를 지정하는 옵션을 사용하는 경우 지정된 숫자는 양의 정수여야 하며 데이터 집합의 총 행 수보다 작아야 합니다.

  • 모든 백분율 값은 0과 1 범위 내에 있어야 합니다.

  • 숫자 또는 백분율을 1보다 작은 부동 소수점 숫자로 지정하고 백분율 기호(%)를 사용하지 않는 경우 숫자는 비례 값으로 해석됩니다.

계층화된 샘플링에 대한 추가 요구 사항

  • 지층 열은 명목 또는 범주 데이터만 포함할 수 있습니다. 열에 연속 숫자 데이터가 포함되어 있으면 오류 메시지가 발생합니다.

  • 고유 값이 너무 많은 열은 계층화에 적합하지 않습니다. 일부 범주를 축소하거나 값을 미리 그룹화해 볼 수 있습니다.

참고 항목

Sample 및SplitPartition 및 Sample