확장된 기계 학습을 위한 데이터 준비

데이터 전처리 및 클린 데이터 세트가 모델 학습에 사용되기 전에 수행해야 하는 중요한 작업입니다. 원시 데이터는 종종 시끄럽고 신뢰할 수 없으며 값이 누락될 수 있습니다. 이러한 데이터를 모델링에 사용하면 결과가 잘못될 수 있습니다. 이러한 작업은 TDSP(Team 데이터 과학 Process)의 일부이며 일반적으로 필요한 전처리를 검색하고 계획하는 데 사용되는 데이터 세트의 초기 탐색을 따릅니다. 자세한 내용은 Team 데이터 과학 Process란?

데이터 탐색 태스크와 같은 전처리 및 클린 작업은 SQL 또는 Hive 또는 Azure Machine Learning 스튜디오(클래식)와 같은 다양한 환경에서 수행할 수 있습니다. R 또는 Python과 같은 다양한 도구와 언어를 사용할 수도 있습니다. 데이터가 저장되는 위치 및 해당 형식이 이러한 결정에 미치는 영향 TDSP는 본질적으로 반복적이므로 이러한 작업은 프로세스 워크플로의 다양한 단계에서 수행될 수 있습니다.

이 문서에서는 데이터를 Azure Machine Learning 스튜디오(클래식)로 수집하기 전이나 후에 수행할 수 있는 다양한 데이터 처리 개념과 작업을 소개합니다.

Azure Machine Learning 스튜디오(클래식) 내에서 수행되는 데이터 탐색 및 전처리의 예는 비디오, 전처리 데이터를 참조하세요.

데이터를 전처리하고 클린 이유는 무엇인가요?

실제 데이터는 다양한 원본 및 프로세스에서 수집되며 데이터 세트의 품질을 손상시키는 불규칙하거나 손상된 데이터가 포함될 수 있습니다. 다음과 같은 일반적인 데이터 품질 문제가 자주 발생합니다.

  • 불완전한 데이터: 특성이 부족하거나 누락된 값 포함
  • 시끄러운 데이터: 잘못된 레코드 또는 이상값 포함
  • 일치하지 않는 데이터: 충돌하는 레코드 또는 불일치 포함

우수한 예측 모델을 구축하려면 우수한 데이터가 필요합니다. 가비지 인을 방지 하고, 데이터 품질을 개선하고, 따라서 성능을 모델링하려면 데이터 문제를 조기에 발견하기 위해 데이터 상태 화면을 수행해야 합니다. 해당 데이터 처리 및 클린 단계를 결정해야 합니다.

가장 일반적으로 사용되는 데이터 상태 검사 방법으로 어떤 것이 있습니까?

다음을 검사 일반적인 데이터 품질을 검사 수 있습니다.

  • 레코드수.
  • 특성(또는 기능) 수.
  • 명목, 서수 또는 연속과 같은 특성 데이터 형식입니다.
  • 누락된 값의 수.
  • 올바른 형식의 데이터의 경우
    • 데이터가 TSV 또는 CSV 형식인 경우 열 구분 기호와 줄 구분 기호가 열과 줄을 올바르게 구분하는지 검사.
    • 데이터가 HTML 또는 XML 형식인 경우 해당 표준에 따라 데이터가 올바른 형식인지 검사.
    • 반구조적 또는 비구조적 데이터에서 구조화된 정보를 추출하는 데 구문 분석이 필요할 수도 있습니다.
  • 일관되지 않은 데이터 레코드. 값의 범위가 허용되는지 확인하세요. 예를 들어 데이터에 GPA(학생 등급 평균)가 포함된 경우 GPA가 지정된 범위(예: 0~4)에 있는지 검사.

데이터 관련 문제가 발견되면 누락된 값, 데이터 정규화, 불연속화, 텍스트 처리를 클린 데이터 맞춤, 공통 필드의 혼합 데이터 형식 등에 영향을 줄 수 있는 포함된 문자를 제거하거나 바꾸기 위한 처리 단계를 수행합니다.

Azure Machine Learning에서는 올바르게 구성된 테이블 형식 데이터를 사용합니다. 데이터가 이미 테이블 형식인 경우 Azure Machine Learning 스튜디오(클래식)를 사용하여 직접 데이터 전처리를 수행할 수 있습니다. 데이터가 테이블 형식이 아닌 경우(예: XML 형식인 경우) 데이터를 구문 분석하여 테이블 형식으로 변환해야 할 수 있습니다.

데이터 전처리의 주요 작업 중 일부는 무엇인가요?

  • 데이터 정리: 누락된 값을 채우거나 노이즈가 많은 데이터와 이상값을 검색하고 제거합니다.
  • 데이터 변환: 데이터를 정규화하여 차원 및 노이즈를 줄입니다.
  • 데이터 감소: 데이터를 쉽게 처리할 수 있도록 데이터 레코드 또는 특성을 샘플링합니다.
  • 데이터 분할: 특정 기계 학습 방법에 쉽게 사용할 수 있도록 연속 특성을 범주 특성으로 변환합니다.
  • 텍스트 클린: 데이터 정렬이 잘못될 수 있는 포함된 문자를 제거합니다. 예를 들어 탭으로 구분된 데이터 파일에 탭이 포함되거나 레코드를 중단하는 새 줄이 포함될 수 있습니다.

다음 섹션에서는 이러한 데이터 처리 단계 중 일부를 자세히 설명합니다.

누락된 값을 처리하는 방법

누락된 값을 처리하려면 먼저 누락된 값의 이유를 식별합니다. 일반적인 누락 값 처리 방법은 다음과 같습니다.

  • 삭제: 누락된 값이 있는 레코드를 제거합니다.
  • 더미 대체: 누락된 값을 범주 값의 경우 알 수 없음, 숫자 값의 경우 0과 같은 더미 값으로 대체합니다.
  • 평균 대체: 누락된 값이 숫자이면 평균으로 대체합니다.
  • 자주 대체: 누락된 데이터가 범주인 경우 누락된 값을 가장 빈번한 항목으로 바꿉다.
  • 회귀 대체: 회귀 메서드를 사용하여 누락된 값을 회귀된 값으로 대체합니다.

데이터를 정규화하는 방법

데이터 정규화는 숫자 값을 지정된 범위로 다시 스케일링합니다. 일반적인 데이터 정규화 방법은 다음과 같습니다.

  • 최소 최대 정규화: 데이터를 0에서 1까지의 범위로 선형적으로 변환합니다. 여기서 최소값은 0으로 조정되고 최대값은 1로 조정됩니다.
  • Z 점수 정규화: 평균 및 표준 편차에 따라 데이터 크기를 조정합니다. 데이터와 평균의 차이를 표준 편차로 나눕니다.
  • 소수점 배열: 특성 값의 소수점을 이동하여 데이터 크기를 조정합니다.

데이터를 분할하는 방법

연속 값을 명목 특성 또는 간격으로 변환하여 데이터를 분할할 수 있습니다. 다음 메서드를 사용할 수 있습니다.

  • 너비가 같은 범주화: 특성 의 가능한 모든 값 범위를 동일한 크기의 N 그룹으로 나누고 bin 번호로 bin에 속하는 값을 할당합니다.
  • 같은 높이의 범주화: 특성의 가능한 모든 값 범위를 각각 동일한 수의 인스턴스를 포함하는 N 그룹으로 나눕니다. 그런 다음 bin 번호가 있는 bin에 속하는 값을 할당합니다.

데이터를 줄이는 방법

데이터를 쉽게 처리할 수 있도록 데이터 크기를 줄이는 다양한 방법이 있습니다. 데이터 크기 및 do기본 따라 다음 메서드를 적용할 수 있습니다.

  • 레코드 샘플링: 데이터 레코드를 샘플링하고 데이터에서 대표 하위 집합만 선택합니다.
  • 특성 샘플링: 데이터에서 가장 중요한 특성의 하위 집합만 선택합니다.
  • 집계: 데이터를 여러 그룹으로 나누고 각 그룹에 대한 숫자를 저장 합니다. 예를 들어 어떤 식당 체인의 지난 20년 간 일일 수익을 월별 수익으로 집계하면 데이터 크기를 줄일 수 있습니다.

텍스트 데이터를 정리하는 방법

테이블 형식 데이터의 텍스트 필드에는 열 맞춤 또는 레코드 경계에 영향을 주는 문자가 포함될 수 있습니다. 예를 들어, 탭으로 구분된 파일에 포함된 탭은 열 정렬 문제를 일으킬 수 있고, 포함된 줄 바꿈 문자는 레코드 줄 바꿈 문제를 일으킬 수 있습니다. 텍스트를 쓰거나 읽는 동안 정보 손실을 방지하거나, 실수로 읽을 수 없는 문자(예: null)를 도입하거나, 텍스트 구문 분석에 부정적인 영향을 주도록 텍스트 인코딩을 적절하게 처리합니다. 데이터를 신중하게 구문 분석하고 편집해야 할 수 있습니다. 텍스트 필드를 클린 적절한 맞춤을 보장하고 구조화되지 않은 데이터 또는 반구조화된 데이터에서 구조화된 데이터를 추출할 수 있습니다.

데이터 탐색 은 데이터에 대한 초기 보기를 제공합니다. 이 단계에서 많은 데이터 문제를 파악하고 해당 메서드를 적용하여 해당 문제를 해결할 수 있습니다. 문제의 출처 및 문제가 어떻게 도입되었는지와 같은 질문을 하는 것이 중요합니다. 또한 이 프로세스를 통해 문제를 해결하기 위해 수행해야 하는 데이터 처리 단계를 결정할 수 있습니다. 데이터 처리 작업의 우선 순위를 지정하려면 최종 사용 사례 및 가상 사용자를 식별할 수 있습니다.

참조

데이터 마이닝: 개념 및 기술, Third Edition, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber 및 Jian Pei

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계