상대 식을 사용 하 여 데이터 집합 분할
이 문서에서는 Azure Machine Learning Studio (클래식)의 데이터 분할 모듈에서 상대 식 분할 옵션을 사용 하는 방법을 설명 합니다. 이 옵션은 숫자 식을 사용 하 여 데이터 집합을 학습 및 테스트 데이터 집합으로 분할 해야 하는 경우에 유용 합니다. 예를 들면 다음과 같습니다.
- 40 보다 큰 연령 및 40 이상
- 60 이상 이상 및 60 보다 작은 테스트 점수
- 1의 순위 값과 기타 모든 값 비교
참고
적용 대상: Machine Learning Studio (클래식)
이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.
데이터를 나누려면 데이터에서 단일 숫자 열을 선택 하 고 각 행을 평가 하는 데 사용할 식을 정의 합니다. 상대 식 에는 열 이름, 값 및 연산자 (예: 보다 큼, 보다 작음, 같음 및 같지 않음)가 포함 되어야 합니다.
이 옵션은 데이터 집합을 두 그룹으로 나눕니다.
기계 학습 실험의 데이터 분할에 대 한 일반적인 내용은 데이터 분할 및 파티션 및 분할을 참조 하세요.
관련 작업
데이터 분할 모듈의 기타 옵션:
정규식을 사용 하 여 데이터 분할: 단일 텍스트 열에 정규식을 적용 하 고 결과를 기준으로 데이터 집합을 나눕니다.
Split 추천 데이터 집합: 권장 사항 모델에 사용 되는 데이터 집합을 나눕니다. 데이터 집합에는 항목, 사용자 및 등급의 3 개 열이 있어야 합니다.
상대 식을 사용 하 여 데이터 집합 분할
데이터 분할 모듈을 studio의 실험에 추가 하 고 분할 하려는 데이터 집합에 대 한 입력으로 연결 합니다.
분할 모드 의 경우 상대 식 분할 을 선택 합니다.
관계형 식 입력란에 단일 열에 대해 숫자 비교 연산을 수행 하는 식을 입력 합니다.
열에는 날짜/시간 데이터 형식을 포함 하 여 숫자 데이터 형식의 숫자가 포함 됩니다.
식은 최대 하나의 열 이름을 참조할 수 있습니다.
및 연산에 앰퍼샌드 문자 (&)를 사용 하 고 또는 작업에 대해 파이프 문자 (|)를 사용 합니다.
지원 되는 연산자는
<
,>
,,<=
,>=
==
,입니다.!=
및를 사용 하 여 작업을 그룹화 할 수 없습니다
(
)
.
아이디어는 예제 섹션을 참조 하세요.
실험을 실행 하거나 모듈을 마우스 오른쪽 단추로 클릭 하 고 선택 된 실행 을 선택 합니다.
이 표현식은 데이터 집합을 두 개의 행 집합(조건에 맞는 값이 있는 행과 나머지 모든 행)으로 나눕니다.
추가 분할 작업을 수행 해야 하는 경우 *분할 데이터 의 두 번째 인스턴스를 추가 하거나 SQL 변환 적용 모듈을 사용 하 여 CASE 문을 정의할 수 있습니다.
Relatve 식의 예
다음 예에서는 데이터 분할 모듈의 상대 식 옵션을 사용 하 여 데이터 집합을 분할 하는 방법을 보여 줍니다.
Calendar year 사용
연도별로 데이터 집합을 나누는 것이 일반적인 시나리오입니다. 다음 식에서는 열의 값이 보다 큰 모든 행을 선택 합니다 Year
2010
.
\"Year" > 2010
날짜 식은 데이터 열에 포함 된 모든 날짜 부분을 고려해 야 하며 데이터 열의 날짜 형식이 일치 해야 합니다.
예를 들어 형식을 사용 하는 날짜 열에서 mmddyyyy
식은 다음과 같아야 합니다.
\"Date" > 1/1/2010
열 인덱스 사용
다음 식은 열 인덱스를 사용하여 30 이하이지만 20과는 같지 않은 값이 포함된 데이터 집합의 첫 번째 열에 있는 모든 행을 선택하는 방법을 보여 줍니다.
(\0)<=30 & !=20
여러 분할을 사용 하 여 시간 값에 대 한 복합 연산
너무 오래 실행되는 쿼리를 그룹화하기 위해 로그 데이터의 테이블을 분할하려 한다고 가정합니다. 열에서 다음 상대 식을 사용 Elapsed
하 여 1 분 이상 실행 된 쿼리를 가져올 수 있습니다.
\"Elapsed" >00:01:00
1 분 이내에 응답 시간이 30 초 보다 많은 쿼리를 가져오려면 오른쪽 출력에 분할 데이터 의 다른 인스턴스를 추가 하 고 다음과 같은 식을 사용 합니다.
\"Elapsed" <:00:01:00 & >00:00:30
날짜 값에 대 한 데이터 집합 분할
다음 상대 식은 열의 날짜 값을 사용 하 여 데이터 집합을 나눕니다 dt1
.
\"dt1" > 10-08-2015
날짜가 10-08-2015 보다 큰 행은 첫 번째 (왼쪽) 출력 데이터 집합에 추가 됩니다.
날짜가 10-08-2015 이하인 행은 두 번째 (오른쪽) 출력 데이터 집합에 추가 됩니다.
기술 정보
이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.
제한
데이터 집합의 상대 식에는 다음과 같은 제한 사항이 적용 됩니다.
- 상대 식은 숫자 데이터 형식 및 날짜/시간 데이터 형식에만 적용할 수 있습니다.
- 상대 식은 열 이름을 하나까지만 참조할 수 있습니다.
- 및 연산에 앰퍼샌드 문자 (&)를 사용 하 고 또는 작업에 대해 파이프 문자 (|)를 사용 합니다.
<
,,>
,,<=
>=
==
등의 상대 식에는 다음 연산자를 사용할 수 있습니다.!=
- 괄호를 사용한 그룹화 작업은 지원 되지 않습니다.