표시기 값으로 변환

열의 범주 값을 지표 값으로 변환

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)에서 표시기 값으로 변환 모듈을 사용 하는 방법을 설명 합니다. 이 모듈은 범주 값이 포함 된 열을 기계 학습 모델에서 기능으로 더 쉽게 사용할 수 있는 일련의 이진 표시기 열로 변환 하는 데 사용 됩니다.

표시기 값으로 변환을 구성 하는 방법

  1. Azure Machine Learning 실험에 표시기 값으로 변환 모듈을 추가 하 고 변환 하려는 열이 포함 된 데이터 집합에 연결 합니다. 데이터 변환조작 범주에서이 모듈을 찾을 수 있습니다.

  2. 열 선택기 를 사용하여 하나 이상의 범주 열을 선택합니다.

    선택 하는 열이 범주 인지 확인 하려면 실험에서 표시기 값으로 변환 하기 전에 메타 데이터 편집 을 사용 하 여 대상 열을 범주로 표시 합니다.

  3. 새 부울 열 출력 하려면 범주 열 덮어쓰기 옵션을 선택 합니다.

    기본적으로이 옵션은 사용 되지 않습니다 .이 옵션을 사용 하면 원본에 해당 하는 범주 열을 관련 표시기 열과 함께 볼 수 있습니다.

    덮어쓰기 옵션을 선택 하는 경우 원본 열은 실제로 삭제 되거나 수정 되지 않습니다. 대신 새 열이 생성 되 고 출력 데이터 집합에 표시 되며 원본 열은 작업 영역에서 사용할 수 있는 상태로 유지 됩니다. 원본 데이터를 확인 해야 하는 경우 언제 든 지 열 추가 모듈을 사용 하 여 원본 열을 다시 추가할 수 있습니다.

  4. 실험을 실행합니다.

결과

예를 들어 서버의 오류 가능성이 높음, 중간 또는 낮음 인지 여부를 나타내는 점수가 있는 열이 있다고 가정 합니다.

서버 ID입니다. 오류 점수
10301 낮음
10302 중간
10303 높음

지표 값으로 변환을 적용 하면 레이블의 단일 열은 부울 값을 포함 하는 여러 열로 변환 됩니다.

서버 ID입니다. 오류 점수-낮음 오류 점수-보통 오류 점수-높음
10301 1 0 0
10302 0 1 0
10303 0 0 1

변환의 작동 방식은 다음과 같습니다.

  • 위험을 설명 하는 오류 점수 열에는 세 가지 가능한 값 (높음, 중간 및 낮음)과 누락 값이 있습니다. 따라서 정확히 3 개의 새 열이 생성 됩니다.

  • 새 표시기 열의 이름은 다음 패턴을 사용 하 여 원본 열의 열 머리글 및 값에 따라 지정 됩니다 <source column>- <data value> .

  • 정확히 하나의 표시기 열에 1과 다른 모든 표시기 열에 0이 있어야 합니다. 각 서버에는 위험 등급이 하나만 있을 수 있기 때문입니다.

이제 세 개의 표시기 열을 기능으로 사용 하 고 다른 위험 수준에 연결 된 다른 속성과의 상관 관계를 분석할 수 있습니다.

예제

이 모듈을 사용 하는 방법에 대 한 예제를 보려면 Azure AI Gallery를 참조 하세요.

  • 유방암 암 검색: 환자는 환자 ID 번호를 기반으로 하는 그룹으로 범주화 된 다음, 표시기 값 은 환자가 속한 그룹에 플래그를 지정 하는 데 사용 됩니다. 그런 후에 모델 점수를 매길 때 그룹 표시기를 사용합니다.

  • 직접 마케팅: 계산 적용을 사용 하 여 확률을 상수와 비교한 다음 점수가 상수 위 또는 아래에 있는지 여부를 나타내는 예/아니요 값이 새 표시기 열로 설정 되었는지 여부를 나타내는 예/아니요 값입니다.

  • 네트워크 침입 검색: Azure storage에서 로그 데이터가 로드 됩니다. 클래스 변수(예를 들어, 공격이 루트킷 또는 버퍼풀인 경우 설명)는 범주 열로 변환된 다음 여러 지표 값으로 확장됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

사용 팁

  • 범주로 표시된 열만 표시기 열로 변환할 수 있습니다. 이 오류가 표시 되는 경우 선택한 열 중 하나가 범주에 속하지 않을 수 있습니다.

    오류 0056: 이름이 인 열 <column name> 이 허용 되는 범주에 없습니다.

    기본적으로 대부분의 문자열 열은 문자열 기능으로 처리 되므로 메타 데이터 편집을 사용 하 여 범주로 명시적으로 표시 해야 합니다.

  • 하나 이상의 범주 열을 선택 하지 않으면 오류가 표시 됩니다.

  • 표시기 열로 변환할 수 있는 열 수에는 제한이 없습니다. 그러나 값의 각 열에서 여러 개의 표시기 열을 생성할 수 있으므로 한 번에 몇 개의 열만 변환 하 고 검토할 수 있습니다.

  • 열에 누락 값이 포함 된 경우 누락 된 범주에 대 한 별도의 표시기 열이 생성 됩니다 .이 이름에는 <source column> -missing

  • 표시기 값으로 변환 하는 열에 숫자가 포함 된 경우 다른 기능 열 처럼 범주로 표시 되어야 합니다. 이 작업을 완료 한 후에는 숫자를 불연속 값으로 처리 합니다. 예를 들어 25 ~ 30 범위의 MPG 값이 있는 숫자 열이 있는 경우 각 불연속 값에 대해 새 표시기 열이 생성 됩니다.

    Make 고속도로 mpg-25 고속도로 mpg-26 고속도로 mpg-27 고속도로 mpg-28 고속도로 mpg-29 고속도로 mpg-30
    Alfa Romeo 0 0 0 0 0 1

    너무 많은 지표 열을 가져오지 않으려면 먼저 열에서 값의 개수를 확인 하 고 데이터를 적절 하 게 양자화 하는 것이 좋습니다.

예상 입력

속성 유형 설명
데이터 세트 데이터 테이블 범주 열이 포함된 데이터 집합입니다.

모듈 매개 변수

속성 범위 Type 기본값 설명
변환할 범주 열 모두 ColumnSelection 지표 행렬로 변환할 범주 열을 선택합니다.
범주 열 덮어쓰기 모두 부울 false True로 설정하면 선택한 범주 열을 덮어쓰고 그렇지 않으면 결과 표시기 행렬을 데이터 집합에 추가합니다.

출력

속성 유형 설명
결과 데이터 집합 데이터 테이블 표시기 행렬로 변환된 범주 열을 포함하는 데이터 집합입니다.

참고 항목

조작은
데이터 변환
전체 모듈 목록