상대 식을 사용 하 여 데이터 집합 분할

이 문서에서는 Azure Machine Learning Studio (클래식)의 데이터 분할 모듈에서 상대 식 분할 옵션을 사용 하는 방법을 설명 합니다. 이 옵션은 숫자 식을 사용 하 여 데이터 집합을 학습 및 테스트 데이터 집합으로 분할 해야 하는 경우에 유용 합니다. 예를 들면 다음과 같습니다.

  • 40 보다 큰 연령 및 40 이상
  • 60 이상 이상 및 60 보다 작은 테스트 점수
  • 1의 순위 값과 기타 모든 값 비교

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

데이터를 나누려면 데이터에서 단일 숫자 열을 선택 하 고 각 행을 평가 하는 데 사용할 식을 정의 합니다. 상대 식 에는 열 이름, 값 및 연산자 (예: 보다 큼, 보다 작음, 같음 및 같지 않음)가 포함 되어야 합니다.

이 옵션은 데이터 집합을 그룹으로 나눕니다.

기계 학습 실험의 데이터 분할에 대 한 일반적인 내용은 데이터 분할파티션 및 분할을 참조 하세요.

데이터 분할 모듈의 기타 옵션:

상대 식을 사용 하 여 데이터 집합 분할

  1. 데이터 분할 모듈을 studio의 실험에 추가 하 고 분할 하려는 데이터 집합에 대 한 입력으로 연결 합니다.

  2. 분할 모드 의 경우 상대 식 분할 을 선택 합니다.

  3. 관계형 식 입력란에 단일 열에 대해 숫자 비교 연산을 수행 하는 식을 입력 합니다.

    • 열에는 날짜/시간 데이터 형식을 포함 하 여 숫자 데이터 형식의 숫자가 포함 됩니다.

    • 식은 최대 하나의 열 이름을 참조할 수 있습니다.

    • 및 연산에 앰퍼샌드 문자 (&)를 사용 하 고 또는 작업에 대해 파이프 문자 (|)를 사용 합니다.

    • 지원 되는 연산자는 < , > ,, <= , >= == ,입니다. !=

    • 및를 사용 하 여 작업을 그룹화 할 수 없습니다 ( ) .

    아이디어는 예제 섹션을 참조 하세요.

  4. 실험을 실행 하거나 모듈을 마우스 오른쪽 단추로 클릭 하 고 선택 된 실행 을 선택 합니다.

    이 표현식은 데이터 집합을 두 개의 행 집합(조건에 맞는 값이 있는 행과 나머지 모든 행)으로 나눕니다.

    추가 분할 작업을 수행 해야 하는 경우 *분할 데이터 의 두 번째 인스턴스를 추가 하거나 SQL 변환 적용 모듈을 사용 하 여 CASE 문을 정의할 수 있습니다.

Relatve 식의 예

다음 예에서는 데이터 분할 모듈의 상대 식 옵션을 사용 하 여 데이터 집합을 분할 하는 방법을 보여 줍니다.

Calendar year 사용

연도별로 데이터 집합을 나누는 것이 일반적인 시나리오입니다. 다음 식에서는 열의 값이 보다 큰 모든 행을 선택 합니다 Year 2010 .

\"Year" > 2010

날짜 식은 데이터 열에 포함 된 모든 날짜 부분을 고려해 야 하며 데이터 열의 날짜 형식이 일치 해야 합니다.

예를 들어 형식을 사용 하는 날짜 열에서 mmddyyyy 식은 다음과 같아야 합니다.

\"Date" > 1/1/2010

열 인덱스 사용

다음 식은 열 인덱스를 사용하여 30 이하이지만 20과는 같지 않은 값이 포함된 데이터 집합의 첫 번째 열에 있는 모든 행을 선택하는 방법을 보여 줍니다.

(\0)<=30 & !=20

여러 분할을 사용 하 여 시간 값에 대 한 복합 연산

너무 오래 실행되는 쿼리를 그룹화하기 위해 로그 데이터의 테이블을 분할하려 한다고 가정합니다. 열에서 다음 상대 식을 사용 Elapsed 하 여 1 분 이상 실행 된 쿼리를 가져올 수 있습니다.

\"Elapsed" >00:01:00

1 분 이내에 응답 시간이 30 초 보다 많은 쿼리를 가져오려면 오른쪽 출력에 분할 데이터 의 다른 인스턴스를 추가 하 고 다음과 같은 식을 사용 합니다.

\"Elapsed" <:00:01:00 & >00:00:30

날짜 값에 대 한 데이터 집합 분할

다음 상대 식은 열의 날짜 값을 사용 하 여 데이터 집합을 나눕니다 dt1 .

\"dt1" > 10-08-2015

날짜가 10-08-2015 보다 큰 행은 첫 번째 (왼쪽) 출력 데이터 집합에 추가 됩니다.

날짜가 10-08-2015 이하인 행은 두 번째 (오른쪽) 출력 데이터 집합에 추가 됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

제한

데이터 집합의 상대 식에는 다음과 같은 제한 사항이 적용 됩니다.

  • 상대 식은 숫자 데이터 형식 및 날짜/시간 데이터 형식에만 적용할 수 있습니다.
  • 상대 식은 열 이름을 하나까지만 참조할 수 있습니다.
  • 및 연산에 앰퍼샌드 문자 (&)를 사용 하 고 또는 작업에 대해 파이프 문자 (|)를 사용 합니다.
  • <,, > ,, <= >= == 등의 상대 식에는 다음 연산자를 사용할 수 있습니다.!=
  • 괄호를 사용한 그룹화 작업은 지원 되지 않습니다.

참고 항목

샘플 및 분할
파티션 및 샘플