중복 행 제거

데이터 집합에서 중복 행 제거

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)에서 중복 행 제거 모듈을 사용 하 여 데이터 집합에서 잠재적 중복 항목을 제거 하는 방법을 설명 합니다.

예를 들어 데이터가 다음과 같은 것으로 가정 하 고 환자에 대 한 여러 레코드를 나타냅니다.

PatientID 이니셜 성별 나이 연결 되도록 허용
1 F.M. M 53 1월
2 F.A.M. M 53 1월
3 F.A.M. M 24 1월
3 F.M. M 24 2월
4 F.M. M 23 2월
F.M. M 23
5 F.A.M. M 53

분명히이 예에는 잠재적으로 중복 된 데이터가 있는 여러 열이 있습니다. 실제로 중복 되는지 여부는 데이터에 대 한 지식에 따라 다릅니다.

  • 예를 들어 많은 환자 이름이 동일한 것을 알 수 있습니다. 모든 이름 열을 사용 하는 ID 열만 사용 하 여 중복을 제거 하지 않습니다. 이렇게 하면 환자 이름이 동일한 지 여부에 관계 없이 중복 된 ID 값을 가진 행만 필터링 됩니다.

  • 또는 ID 필드에서 중복을 허용 하도록 결정 하 고 다른 필드 조합을 사용 하 여 이름, 성, 연령, 성별 등의 고유한 레코드를 찾을 수 있습니다.

행이 중복 되었는지 여부에 대 한 조건을 설정 하려면 로 사용할 단일 열 또는 열 집합을 지정 합니다. 모든 키 열의 값이 같으면 두 행이 중복 된 것으로 간주 됩니다.

모듈을 실행 하면 후보 데이터 집합이 만들어지고 지정한 열 집합에서 중복 되지 않은 행 집합이 반환 됩니다.

중요

원본 데이터 집합은 변경 되지 않습니다. 이 모듈은 지정한 조건에 따라 중복 항목을 제외 하도록 필터링 된 새 데이터 집합을 만듭니다.

중복 행 제거를 사용 하는 방법

  1. 실험에 모듈을 추가 합니다. 데이터 변환, 조작 에서 중복 행 제거 모듈을 찾을 수 있습니다.

  2. 중복 행을 확인 하려는 데이터 집합을 연결 합니다.

  3. 속성 창의 키 열 선택 필터 식 에서 열 선택기 시작 을 클릭 하 여 중복 항목을 식별 하는 데 사용할 열을 선택 합니다.

    이 컨텍스트에서 키는 고유 식별자를 의미 하지 않습니다. 열 선택기를 사용 하 여 선택 하는 모든 열은 키 열 로 지정 됩니다. 선택 취소 된 모든 열은 키가 아닌 열로 간주 됩니다. 키로 선택한 열을 조합 하면 레코드의 고유성이 결정 됩니다. (이는 여러 개의 같음 조인을 사용 하는 SQL 문 이라고 생각 하면 됩니다.)

    예제:

    • "Id가 고유한 지 확인 합니다.": ID 열만 선택 합니다.
    • "First name, last name 및 ID의 조합이 고유한 지 확인 합니다.": 세 개의 열을 모두 선택 합니다.
  4. 중복 항목을 찾을 때 반환할 행을 표시 하려면 첫 번째 중복 행 유지 확인란을 사용 합니다.

    • 이를 선택 하면 첫 번째 행이 반환 되 고 다른 행은 삭제 됩니다.
    • 이 옵션의 선택을 취소 하면 마지막 중복 행이 결과에 유지 되 고 다른 행은 삭제 됩니다.

    값을 처리 하는 방법에 대 한 자세한 내용은 기술 참고 사항 섹션을 참조 하세요.

  5. 실험을 실행 하거나 모듈을 클릭 하 고 선택 된 실행 을 선택 합니다.

  6. 결과를 검토 하려면 모듈을 마우스 오른쪽 단추로 클릭 하 고 결과 데이터 집합 을 선택한 다음 시각화 를 클릭 합니다.

결과를 이해 하기 어렵거나 일부 열을 고려 대상에서 제외 하려는 경우 데이터 집합에서 열 선택 모듈을 사용 하 여 열을 제거할 수 있습니다.

예제

이 모듈을 사용 하는 방법에 대 한 예제를 보려면 Azure AI Gallery를 참조 하세요.

  • 유방암 암 검색: 중복 행 제거 는 기능 열을 추가한 후 학습 및 테스트 데이터 집합을 통합 하는 데 사용 됩니다.

  • 영화 권장 사항: 중복 행 제거 를 사용 하 여 영화 당 사용자 등급이 하나만 있도록 합니다.

  • Twitter 감정 분석: 중복 행 제거 는 ID 및 인기도 열에만 적용 되어 영화 당 서 수 순위 값이 하나만 있도록 합니다. 즉, 동영상은 1과 3이 모두 될 수 없으므로 사용자가 동영상을 다르게 순위를 두는 경우에도 단일 값이 사용 됩니다.

기술 참고 사항

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

구현 세부 정보

이 모듈은 입력 데이터 집합의 모든 행을 반복하여 작동합니다. 키 열 값의 고유 조합이 처음으로 표시 되는 모든 행을 후보 출력 데이터 집합으로 수집 합니다.

행 필터링 결과에 관계없이 열 배열 형식은 유지됩니다. 잘못된 값을 필터링하여 배열을 특정 데이터 형식으로 강제 지정할 수는 없으며 열 배열 형식은 열의 모든 값을 기준으로 합니다. 누락 값을 필터링할 때도 제한이 적용됩니다.

데이터 값 비교에는 해시 강제 알고리즘이 사용됩니다.

누락된 값

입력 데이터 집합에 키가 아닌 열과 키 열에 누락 된 값이 있을 수 있습니다. 이러한 규칙은 누락 값에 적용 됩니다.

  • 누락 값은 키 열의 유효한 값으로 간주 됩니다. 두 키 모두에 누락 값이 있을 수 있습니다.

  • 스파스 데이터 집합에서 스파스 값의 기본 표시와 같은 경우에만 누락 값이 같은 것으로 간주됩니다.

  • 키 열의 경우 누락 값은 다른 누락 값과는 같지만 누락되지 않은 값과는 같지 않다고 간주합니다.

예상 입력

Name Type 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name 범위 Type 기본값 설명
키 열 선택 필터 식 any ColumnSelection 중복 항목을 검색할 때 사용할 키 열을 선택합니다.
첫 번째 중복 행 유지 any 부울 true 중복 집합의 처음 행은 유지하고 나머지는 버리는지 표시합니다. False인 경우, 마지막 중복 행이 유지됩니다.

출력

Name Type 설명
결과 데이터 집합 데이터 테이블 필터링된 데이터 집합입니다.

예외

예외 설명
오류 0003 입력 데이터 집합 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.

스튜디오 (클래식) 모듈과 관련 된 오류 목록은 Machine Learning 오류 코드를 참조 하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조 하세요.

참고 항목

조작은
전체 모듈 목록