누락 데이터 정리 구성 요소

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 누락 값을 제거, 바꾸기, 추론합니다.

데이터 과학자는 데이터에서 누락 값을 확인하고 다양한 작업을 수행하여 데이터를 수정하거나 새 값을 삽입하는 경우가 많습니다. 정리 작업의 목표는 모델을 학습할 때 발생할 수 있는 누락 데이터로 인한 문제를 방지하는 것입니다.

이 구성 요소에서는 다음을 포함하여 누락 값을 “정리”하는 여러 유형의 작업을 지원합니다.

  • 누락 값을 자리 표시자, 평균 또는 다른 값으로 바꾸기
  • 누락 값이 있는 행과 열을 완전히 제거
  • 통계 방법에 따라 값 유추

이 구성 요소를 사용하는 경우 원본 데이터 세트는 변경되지 않습니다. 대신, 후속 워크플로에서 사용할 수 있는 새 데이터 세트가 작업 영역에 생성됩니다. 재사용하기 위해 새로 정리된 데이터 세트를 저장할 수도 있습니다.

이 구성 요소는 누락 값을 정리하는 데 사용되는 변환의 정의도 출력합니다. 변환 적용 구성 요소를 사용하여 동일한 스키마를 가진 다른 데이터 세트에서 이 변환을 재사용할 수 있습니다.

누락 데이터 정리를 사용하는 방법

이 구성 요소를 사용하면 정리 작업을 정의할 수 있습니다. 나중에 새 데이터에 적용할 수 있도록 정리 작업을 저장할 수도 있습니다. 정리 프로세스를 만들고 저장하는 방법을 설명하는 다음 섹션을 참조하세요.

중요

누락 값을 처리하는 데 사용하는 정리 방법은 결과에 크게 영향을 줄 수 있습니다. 다양한 방법으로 실험하는 것이 좋습니다. 특정 방법을 사용해야 하는 사유와 결과의 품질을 모두 고려합니다.

누락된 값 대체

누락 데이터 정리 구성 요소를 데이터 세트에 적용할 때마다 선택한 모든 열에 동일한 정리 작업이 적용됩니다. 따라서 다른 메서드를 사용하여 다른 열을 정리해야 하는 경우 구성 요소의 개별 인스턴스를 사용합니다.

  1. 누락 데이터 정리 구성 요소를 파이프라인에 추가하고 누락 값이 있는 데이터 세트를 연결합니다.

  2. 정리할 열에서 변경할 누락 값이 포함된 열을 선택합니다. 여러 열을 선택할 수 있지만 선택한 모든 열에서 동일한 대체 방법을 사용해야 합니다. 따라서 일반적으로 문자열 열과 숫자 열은 개별적으로 정리해야 합니다.

    예를 들어 모든 숫자 열에서 누락 값을 확인하려면 다음을 수행합니다.

    1. 누락 데이터 정리 구성 요소를 선택하고 구성 요소의 오른쪽 패널에서 열 편집을 클릭합니다.

    2. 포함의 드롭다운 목록에서 열 형식을 선택한 다음 숫자를 선택합니다.

    선택한 정리 또는 대체 방법이 선택한 모든 열에 적용할 수 있는 방법이어야 합니다. 열의 데이터가 지정된 작업과 호환되지 않는 경우 구성 요소는 오류를 반환하고 파이프라인을 중지합니다.

  3. 최소 누락 값 비율에서 작업을 수행하는 데 필요한 최소 누락 값 수를 지정합니다.

    이 옵션과 최대 누락 값 비율을 함께 사용하여 데이터 세트에서 정리 작업이 수행되는 조건을 정의합니다. 누락 값이 있는 행이 너무 많거나 너무 적으면 작업을 수행할 수 없습니다.

    입력한 숫자는 열의 모든 값 대비 누락 값의 비율을 나타냅니다. 기본적으로 최소 누락 값 비율 속성은 0으로 설정되어 있습니다. 즉, 누락 값이 하나만 있어도 누락 값이 정리됩니다.

    경고

    지정된 작업을 적용하려면 모든 열이 이 조건을 충족해야 합니다. 예를 들어 세 개의 열을 선택하고 최소 누락 값 비율을 .2(20%)로 설정했지만 실제로 하나의 열에만 20% 누락 값이 있다고 가정합니다. 이 경우 정리 작업은 누락 값이 20%를 초과한 열에만 적용됩니다. 따라서 다른 열은 변경되지 않습니다.

    누락 값이 변경되었는지 여부를 모르면 누락 값 지표 열 생성 옵션을 선택합니다. 각 열이 최소 및 최대 범위에 대해 지정된 조건을 충족했는지 여부를 나타내는 열이 데이터 세트에 추가됩니다.

  4. 최대 누락 값 비율에서 작업을 수행할 수 있는 최대 누락 값 수를 지정합니다.

    예를 들어 30% 이하의 행에 누락 값이 있는 경우에만 누락 값 대체를 수행하고 30% 초과 행에 누락 값이 있는 경우 값을 그대로 둘 수 있습니다.

    열의 모든 값에 대한 누락 값의 비율로 수를 정의합니다. 기본적으로 최대 누락 값 비율은 1로 설정되어 있습니다. 즉, 열의 값이 100% 누락된 경우에도 누락 값이 정리됩니다.

  5. 정리 모드에서 누락 값을 바꾸거나 제거하는 다음 옵션 중 하나를 선택합니다.

    • 사용자 지정 대체 값: 모든 누락 값에 적용되는 자리 표시자 값(예: 0 또는 NA)을 지정하려면 이 옵션을 사용합니다. 대체로 지정한 값은 열의 데이터 형식과 호환되어야 합니다.

    • 평균으로 바꾸기: 열 평균을 계산하고 열의 각 누락 값에 대한 대체 값으로 평균을 사용합니다.

      Integer, Double 또는 Boolean 데이터 형식의 열에만 적용됩니다.

    • 중앙값으로 바꾸기: 열 중앙값을 계산하고 열의 누락 값에 대한 대체 값으로 중앙값을 사용합니다.

      Integer 또는 Double 데이터 형식의 열에만 적용됩니다.

    • 모드로 바꾸기: 열의 모드를 계산하고 열의 모든 누락 값에 대한 대체 값으로 모드를 사용합니다.

      Integer, Double, Boolean 또는 Categorical 데이터 형식의 열에 적용됩니다.

    • 전체 행 제거: 데이터 세트에서 하나 이상의 누락 값이 있는 행을 완전히 제거합니다. 누락 값이 무작위로 누락된 것으로 간주할 수 있는 경우 이 옵션을 사용하면 유용합니다.

    • 전체 열 제거: 데이터 세트에서 하나 이상의 누락 값이 있는 열을 완전히 제거합니다.

  6. 대체 값 옵션은 사용자 지정 대체 값 옵션을 선택한 경우에 사용할 수 있습니다. 열의 모든 누락 값에 대한 대체 값으로 사용할 새 값을 입력합니다.

    이 옵션은 정수, Double, 부울 또는 문자열이 포함된 열에서만 사용할 수 있습니다.

  7. 누락 값 지표 열 생성: 열의 값이 누락 값 정리 조건을 충족하는지 여부를 나타내는 표시를 출력하려면 이 옵션을 선택합니다. 이 옵션은 새 정리 작업을 설정하고 설계된 대로 작동하는지 확인하려는 경우에 특히 유용합니다.

  8. 파이프라인을 제출합니다.

결과

구성 요소는 다음 두 개의 출력을 반환합니다.

  • 정리된 데이터 세트: 누락 값이 지정한 대로 처리된 선택한 열과 해당 옵션을 선택한 경우 지표 열로 구성된 데이터 세트입니다.

    정리되도록 선택하지 않은 열도 “전달”됩니다.

  • 정리 변환: 정리에 사용되며, 작업 영역에 저장하여 나중에 새 데이터에 적용할 수 있는 데이터 변환입니다.

새 데이터에 저장된 정리 작업 적용

정리 작업을 자주 반복해야 하는 경우 동일한 데이터 세트에서 재사용하기 위해 데이터 정리 레시피를 변환으로 저장하는 것이 좋습니다. 정리 변환 저장은 동일한 스키마를 가진 데이터를 자주 다시 가져오고 정리해야 하는 경우에 특히 유용합니다.

  1. 변환 적용 구성 요소를 파이프라인에 추가합니다.

  2. 정리할 데이터 세트를 추가하고 오른쪽 입력 포트에 데이터 세트를 연결합니다.

  3. 디자이너의 왼쪽 창에서 변환 그룹을 펼칩니다. 저장된 변환을 찾아 파이프라인으로 끌어옵니다.

  4. 저장된 변환을 변형 적용의 왼쪽 입력 포트에 연결합니다.

    저장된 변환을 적용할 때 변환이 적용되는 열을 선택할 수는 없습니다. 변환이 이미 정의되었으며 원래 작업에서 지정된 열에 자동으로 적용되기 때문입니다.

    그러나 숫자 열의 하위 집합에 대한 변환을 만들었다고 가정합니다. 이 변환의 경우 일치하는 숫자 열에서만 누락 값이 변경되었기 때문에 오류 발생 없이 혼합된 열 형식의 데이터 세트에 적용할 수 있습니다.

  5. 파이프라인을 제출합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.