정규식을 사용하여 데이터 분할

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 분할 모듈에서 정규식 분할 옵션을 사용하는 방법을 설명합니다. 이 옵션은 텍스트 열에 필터 조건을 적용해야 하는 경우에 유용합니다. 예를 들어 특정 제품이 언급되는지 여부에 따라 데이터 세트를 나눌 수 있습니다.

참고

적용 대상: Machine Learning Studio(클래식)

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

단일 텍스트 열에서 정규식 분할 을 사용할 수 있습니다. 텍스트 열 이름을 포함하는 정규식을 정의한 다음 열에 적용되는 조건을 설정합니다(예: "begins with", "contains", "contains", "contain not not contain").

기계 학습 실험의 데이터 분할에 대한 일반적인 내용은 데이터 분할파티션 및 분할을 참조하세요.

데이터 분할 모듈의 기타 옵션:

정규식을 사용하여 데이터 세트 나누기

  1. 데이터 분할 모듈을 실험에 추가하고 분할하려는 데이터 세트에 입력으로 연결합니다.

  2. 분할 모드의 경우 정규식 분할을 선택합니다.

  3. 정규식 상자에 유효한 정규식을 입력합니다. 여기에 몇 가지 예제가 제공됩니다.

    정규식은 문자열 데이터 형식이어야 하는 지정된 열에만 적용됩니다.

    정규식 작성에 대한 도움말은 정규식 언어 - 빠른 참조를 참조하세요.

  4. 실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

    제공하는 정규식에 따라 데이터 집합은 두 개의 행 집합(표현식과 일치하는 값이 있는 행과 나머지 모든 행)으로 나뉩니다.

다음 예제에서는 정규식 옵션을 사용하여 데이터 세트를 나누는 방법을 보여 줍니다.

단일 단어

다음은 열Text의 텍스트 Gryphon 가 포함된 모든 행을 첫 번째 데이터 세트에 넣고 다른 행을 분할 데이터의 두 번째 출력에 넣는 예제입니다.

    \"Text" Gryphon  

Substring

다음은 데이터 세트의 두 번째 열 내에서 인덱스 값 1로 표시된 위치에 있는 지정된 문자열을 찾는 예제입니다. 일치 항목 찾기에서는 대/소문자를 구분합니다.

(\1) ^[a-f]

첫 번째 결과 데이터 세트에는 인덱스 열이 a, b, c, d, e, f 문자 중 하나로 시작하는 모든 행이 포함됩니다. 다른 모든 행은 두 번째 출력으로 전달됩니다.

IP 주소의 문자열 일치

이 예제에서는 일부 서버 로그 데이터를 분석을 위해 방화벽 뒤의 연결 및 방화벽 외부의 IP 주소와의 연결이라는 두 가지 범주로 나눕니다. 정규식은 필드(문자열 데이터 형식)에 적용됩니다IP_Address.

(\IP_Address) ^[10]

첫 번째 출력에는 .로 10시작하는 모든 주소가 포함됩니다.

참고 항목

샘플링 및 분할
파티션 및 샘플