정규식을 사용하여 데이터 분할

이 문서에서는 Azure Machine Learning Studio (클래식)의 데이터 분할 모듈에서 정규식 분할 옵션을 사용 하는 방법을 설명 합니다. 이 옵션은 텍스트 열에 필터 조건을 적용 해야 하는 경우에 유용 합니다. 예를 들어 특정 제품의 설명 여부에 따라 데이터 집합을 나눌 수 있습니다.

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

단일 텍스트 열에서 줄 분할 된 정규식 을 사용할 수 있습니다. 텍스트 열 이름이 포함 된 정규식을 정의한 다음 열에 적용 되는 조건 (예: "시작", "" 포함 "또는" 포함 안 함 ")을 설정 합니다.

기계 학습 실험의 데이터 분할에 대 한 일반적인 내용은 데이터 분할파티션 및 분할을 참조 하세요.

데이터 분할 모듈의 기타 옵션:

정규식을 사용 하 여 데이터 집합 분할

  1. 데이터 분할 모듈을 실험에 추가 하 고이를 분할 하려는 데이터 집합에 대 한 입력으로 연결 합니다.

  2. 분할 모드 의 경우 정규식 분할 을 선택 합니다.

  3. 정규식 상자에 유효한 정규식을 입력 합니다. 몇 가지 예를 여기에서 제공 합니다.

    정규식은 문자열 데이터 형식 이어야 하는 지정 된 열에만 적용 됩니다.

    정규식 작성에 대 한 도움말은 정규식 언어-빠른 참조를 참조 하세요.

  4. 실험을 실행 하거나 모듈을 마우스 오른쪽 단추로 클릭 하 고 선택 된 실행 을 선택 합니다.

    제공하는 정규식에 따라 데이터 집합은 두 개의 행 집합(표현식과 일치하는 값이 있는 행과 나머지 모든 행)으로 나뉩니다.

다음 예제에서는 정규식 옵션을 사용 하 여 데이터 집합을 분할 하는 방법을 보여 줍니다.

한 단어 단위로

이 예에서는 열에 텍스트가 포함 된 모든 행을 첫 번째 데이터 집합에 넣고 Gryphon Text 다른 행을 분할 데이터 의 두 번째 출력에 배치 합니다.

    \"Text" Gryphon  

Substring

이 예에서는 데이터 집합의 두 번째 열에 있는 임의의 위치에서 지정 된 문자열을 검색 합니다. 여기에는 인덱스 값 1이 여기에 표시 됩니다. 일치 항목 찾기에서는 대/소문자를 구분합니다.

(\1) ^[a-f]

첫 번째 결과 데이터 집합에는 인덱스 열이 a , b , c ,, d e , f 문자 중 하나로 시작 하는 모든 행이 포함 됩니다. 다른 모든 행은 두 번째 출력으로 전송 됩니다.

IP 주소의 문자열 일치

이 예에서는 분석을 위해 일부 서버 로그 데이터를 두 가지 범주로 나눕니다. 방화벽 뒤의 연결과 방화벽 외부의 IP 주소를 사용 하는 연결입니다. 정규식은 IP_Address 필드 ( 문자열 데이터 형식)에 적용 됩니다.

(\IP_Address) ^[10]

첫 번째 출력에는로 시작 하는 모든 주소가 포함 10 됩니다.

참고 항목

샘플 및 분할
파티션 및 샘플