팀 데이터 과학 프로세스 수명 주기의 데이터 취득 및 이해 단계

이 문서에서는 TDSP(팀 데이터 과학 프로세스)의 데이터 취득 및 이해 단계와 관련된 목표, 작업 및 결과물을 설명합니다. 이 프로세스는 팀이 데이터 과학 프로젝트를 구성하는 데 사용할 수 있는 권장 수명 주기를 제공합니다. 수명 주기는 팀이 수행하는 주요 단계를 간략하게 설명하며, 종종 반복적으로 다음과 같습니다.

  • 비즈니스 이해
  • 데이터 취득 및 이해
  • 모델링
  • 배포
  • 고객 승인

TDSP 수명 주기의 시각적 표현은 다음과 같습니다.

Diagram that shows the stages of the TDSP lifecycle.

목표

데이터 취득 및 이해 단계의 목표는 다음과 같습니다.

  • 대상 변수와 명확하게 관련된 클린 고품질 데이터 세트를 생성합니다. 팀이 모델링 단계에 대비할 수 있도록 적절한 분석 환경에서 데이터 세트를 찾습니다.

  • 데이터를 정기적으로 새로 고치고 점수를 매기는 데이터 파이프라인의 솔루션 아키텍처를 개발합니다.

작업을 완료하는 방법

데이터 취득 및 이해 단계에는 세 가지 기본 작업이 있습니다.

  • 대상 분석 환경에 데이터를 수집합니다.

  • 데이터를 탐색하여 데이터가 질문에 대답할 수 있는지 확인합니다.

  • 데이터 파이프라인을 설정하여 새롭거나 정기적으로 새로 고쳐지는 데이터에 대해 점수를 매깁니다.

데이터 수집

원본 위치에서 학습 및 예측과 같은 분석 작업을 실행하는 대상 위치로 데이터를 이동하는 프로세스를 설정합니다.

데이터 탐색

모델을 학습하기 전에 데이터에 대한 적절한 이해를 개발해야 합니다. 실제 데이터 세트는 종종 시끄럽거나, 값이 없거나, 다른 불일치가 있습니다. 데이터 요약 및 시각화를 사용하여 데이터의 품질을 감사하고 모델링 준비가 되기 전에 데이터를 처리하기 위한 정보를 수집할 수 있습니다. 이 프로세스는 종종 반복적입니다. 데이터 정리에 대한 지침은 향상된 기계 학습을 위한 데이터 준비 작업을 참조하세요.

클린sed 데이터의 품질에 만족하면 다음 단계는 데이터의 패턴을 더 잘 이해하는 것입니다. 이 데이터 분석을 통해 목표에 적합한 예측 모델을 선택하고 개발할 수 있습니다. 대상에 해당하는 데이터의 양을 결정합니다. 그런 다음, 팀에 다음 모델링 단계를 진행하기에 충분한 데이터가 있는지 여부를 결정합니다. 다시금 말하지만 이 프로세스는 종종 반복적입니다. 이전 단계에서 처음 식별된 데이터 세트를 조정하려면 더 정확하거나 관련성이 더 많은 데이터가 있는 새 데이터 원본을 찾아야 할 수 있습니다.

데이터 파이프라인 설정

데이터를 수집하고 클린 외에도 일반적으로 진행 중인 학습 프로세스의 일부로 새 데이터의 점수를 매기거나 정기적으로 데이터를 새로 고치는 프로세스를 설정해야 합니다. 데이터 파이프라인 또는 워크플로를 사용하여 데이터를 채점할 수 있습니다. Azure Data Factory를 사용하는 파이프라인을 사용하는 것이 좋습니다.

이 단계에서는 데이터 파이프라인의 솔루션 아키텍처를 개발합니다. 데이터 과학 프로젝트의 다음 단계와 병렬로 파이프라인을 만듭니다. 비즈니스 요구 사항 및 이 솔루션이 통합되는 기존 시스템의 제약 조건에 따라 파이프라인은 다음과 같습니다.

  • Batch 기반
  • 스트리밍 또는 실시간
  • 하이브리드

MLflow와 통합

데이터 이해 단계에서 MLflow의 실험 추적을 사용하여 다양한 데이터 전처리 전략 및 예비 데이터 분석을 추적하고 문서화할 수 있습니다.

Artifacts

이 단계에서 팀은 다음을 제공합니다.

  • 데이터 요약, 각 특성과 대상 간의 관계, 변수 순위 등을 포함하는 데이터 품질 보고서 입니다.

  • 팀이 새 데이터에 대한 예측을 실행하는 데 사용하는 데이터 파이프라인에 대한 다이어그램 또는 설명과 같은 솔루션 아키텍처입니다. 이 다이어그램에는 새 데이터를 기반으로 모델을 다시 학습하는 파이프라인도 포함되어 있습니다. TDSP 디렉터리 구조 템플릿을 사용하는 경우 문서를 프로젝트 디렉터리에 저장합니다.

  • 검사포인트 결정입니다. 전체 기능 엔지니어링 및 모델 빌드를 시작하기 전에 프로젝트를 다시 평가하여 예상 값이 계속 추구하기에 충분한지 확인할 수 있습니다. 예를 들어 계속 진행할 준비가 되거나, 더 많은 데이터를 수집하거나, 질문에 답하는 데이터를 찾을 수 없는 경우 프로젝트를 중단해야 할 수 있습니다.

피어 검토 문헌

연구원은 동료 검토한 문헌에 있는 TDSP에 관하여 연구 결과를 간행합니다. 인용은 데이터 취득 및 수명 주기 이해 단계를 포함하여 TDSP와 유사한 다른 애플리케이션 또는 유사한 아이디어를 조사할 수 있는 기회를 제공합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 문서에서는 TDSP 수명 주기의 다른 단계를 설명합니다.