팀 데이터 과학 프로세스 수명 주기의 비즈니스 이해 단계

이 문서에서는 TDSP(팀 데이터 과학 프로세스)의 비즈니스 이해 단계와 관련된 목표, 작업 및 결과물을 설명합니다. 이 프로세스는 팀이 데이터 과학 프로젝트를 구성하는 데 사용할 수 있는 권장 수명 주기를 제공합니다. 수명 주기는 팀이 수행하는 주요 단계를 간략하게 설명하며, 종종 반복적으로 다음과 같습니다.

  • 비즈니스 이해
  • 데이터 취득 및 이해
  • 모델링
  • 배포
  • 고객 승인

TDSP 수명 주기의 시각적 표현은 다음과 같습니다.

Diagram that shows the stages of the TDSP lifecycle.

목표

비즈니스 이해 단계의 목표는 다음과 같습니다.

  • 모델 대상으로 사용할 키 변수를 지정합니다. 그리고 프로젝트의 성공을 결정하는 대상의 메트릭을 지정합니다.

  • 비즈니스가 액세스할 수 있거나 가져와야 하는 관련 데이터 원본을 식별합니다.

작업을 완료하는 방법

비즈니스 이해 단계에는 두 가지 기본 작업이 있습니다.

  • 목표 정의: 고객 및 기타 이해 관계자와 협력하여 비즈니스 문제를 이해하고 파악합니다. 데이터 과학 기술이 목표로 삼을 수 있는 비즈니스 목표를 정의하는 질문을 작성합니다.

  • 데이터 원본 식별: 프로젝트 목표를 정의하는 질문에 답하는 데 도움이 되는 관련 데이터를 찾습니다.

목표 정의

  1. 이 단계의 핵심 목표는 분석에서 예측해야 하는 주요 비즈니스 변수를 식별하는 것입니다. 이러한 변수를 모델 대상이라고 하며, 이와 연결된 메트릭은 프로젝트의 성공을 결정하는 데 사용됩니다. 예를 들어 대상은 판매 예측 또는 주문이 사기일 확률일 수 있습니다.

  2. 프로젝트 목표를 정의하려면 관련되고 구체적이며 명확하지 않은 날카로운 질문을 질문하고 구체화합니다. 데이터 과학은 이러한 질문에 대답하기 위해 이름과 숫자를 사용하는 프로세스입니다. 데이터 과학 또는 Machine Learning은 일반적으로 다음과 같은 다섯 가지 유형의 질문에 대답하는 데 사용합니다.

    • 양 또는 개수는 얼마인가요? (회귀)
    • 어떤 범주? (분류)
    • 어떤 그룹? (클러스터링)
    • 이 특이한가요? (이상 감지)
    • 수행해야 할 옵션은? (권장)

    질문할 질문과 대답이 비즈니스 목표를 달성하는 데 어떻게 도움이 되는지 결정합니다.

  3. 프로젝트 팀을 정의하려면 멤버의 역할과 책임을 지정합니다. 더 많은 정보를 찾아내면 반복하는 높은 수준의 획기적인 계획을 개발합니다.

  4. 성공 메트릭을 정의해야 합니다. 예를 들어 3개월 프로젝트가 끝날 때까지 정확도 비율이 x %인 고객 변동 예측을 충족할 수 있습니다. 이 데이터를 바탕으로 고객 프로모션을 통해 변동을 줄일 수 있습니다. 메트릭은 SMART여야 합니다.

    • Specific(특정)
    • Measurable(측정 가능)
    • Achievable(달성 가능)
    • Relevant(관련성)
    • Time-bound(시간 제한)

데이터 원본 식별

질문에 대한 답변의 알려진 예제를 포함하는 데이터 원본을 식별합니다. 다음 데이터를 찾습니다.

  • 질문과 관련된 데이터입니다. 대상과 관련된 측정값과 기능이 있나요?
  • 모델 대상 및 관련 기능의 정확한 측정값 데이터입니다.

예를 들어 기존 시스템에는 문제를 해결하고 프로젝트 목표를 달성하는 데 필요한 데이터가 없을 수 있습니다. 이 경우 외부 데이터 원본을 찾거나 시스템을 업데이트하여 새 데이터를 수집해야 할 수 있습니다.

MLflow와 통합

비즈니스 이해 단계의 경우 팀은 MLflow 도구를 사용하지 않지만 MLflow의 설명서 및 실험 추적 기능을 간접적으로 활용할 수 있습니다. 이러한 기능은 비즈니스 목표에 맞게 프로젝트를 조정하는 데 도움이 되는 인사이트 및 기록 컨텍스트를 제공할 수 있습니다.

Artifacts

이 단계에서 팀은 다음을 제공합니다.

  • 헌장 문서입니다. 실무 문서입니다. 새 검색을 수행하고 비즈니스 요구 사항이 변경됨에 따라 프로젝트 전체에서 문서를 업데이트합니다. 이 문서를 반복하는 것이 중요합니다. 검색 프로세스를 진행하면서 세부 정보를 추가합니다. 고객 및 기타 이해 관계자에게 변경 내용과 그 이유를 알릴 수 있습니다.

  • 데이터 원본. Azure Machine Learning을 사용하여 데이터 원본 관리를 처리할 수 있습니다. MLflow와 통합되므로 활성 및 특히 대규모 프로젝트에 이 Azure 서비스를 사용하는 것이 좋습니다.

  • 데이터 사전. 이 문서에서는 클라이언트가 제공하는 데이터에 대한 설명을 제공합니다. 이러한 설명에는 스키마(데이터 형식, 유효성 검사 규칙(있는 경우)에 대한 정보) 및 엔터티-관계 다이어그램(해당되는 경우)에 대한 정보가 포함됩니다. 팀에서 이 정보의 일부 또는 전부를 문서화해야 합니다.

피어 검토 문헌

연구원은 동료 검토한 문헌에 있는 TDSP에 관하여 연구 결과를 간행합니다. 인용은 비즈니스 이해 수명 주기 단계를 포함하여 TDSP에 대한 다른 애플리케이션 또는 유사한 아이디어를 조사할 수 있는 기회를 제공합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 문서에서는 TDSP 수명 주기의 다른 단계를 설명합니다.