데이터 과학자를 위한 팀 데이터 과학 프로세스
이 문서에서는 Azure 기술을 사용하여 포괄적인 데이터 과학 솔루션을 구현할 때 설정한 목표에 대한 지침을 제공합니다. 다음을 안내합니다.
- 분석 워크로드 이해
- 팀 데이터 과학 프로세스 사용.
- Azure Machine Learning 사용.
- 데이터 전송 및 스토리지의 기초를 이해합니다.
- 데이터 원본 설명서 제공
- 분석 처리를 위한 도구 사용
이러한 교육 자료는 TDSP(Team 데이터 과학 Process) 및 Microsoft 오픈 소스 소프트웨어 및 도구 키트와 관련이 있으며 이는 데이터 과학 솔루션을 구상, 실행 및 제공하는 데 유용합니다.
단원 경로
다음 표에서 항목을 사용하여 고유한 자습을 안내할 수 있습니다. 설명을 읽어 경로를 따르고, 주제를 선택하여 연구 참조를 확인하고, 기술 검사 사용하여 기술을 검사.
Objective | 항목 | 설명 | 지식 점검 |
---|---|---|---|
분석 프로젝트를 개발하기 위한 프로세스 이해 | 팀 데이터 과학 프로세스에 대한 소개 | 먼저 TDSP의 개요를 다룹니다. 이 프로세스는 분석 프로젝트의 각 단계를 안내합니다. 이 섹션을 통해 프로세스 및 구현 방법에 대해 자세히 알아봅니다. | TDSP 프로젝트 구조 아티팩트 검토 및 프로젝트의 로컬 컴퓨터에 다운로드합니다. |
Agile 개발 | TDSP는 다양한 프로그래밍 방법론에서 잘 작동합니다. 이 학습 경로에서 Agile Software Development를 사용합니다. Agile 작업의 기본을 다루는 "Agile Development이란?" 및 "Agile Culture 구축" 문서를 읽어보세요. 이 사이트에서 다른 참조도 자세히 알아볼 수 있습니다. | 동료에게 연속 통합 및 지속적인 업데이트를 설명합니다. | |
데이터 과학용 DevOps | DevOps(개발자 작업)에는 프로젝트를 통해 작업하고 솔루션을 조직의 표준 IT에 통합하는 데 사용할 수 있는 사람, 프로세스 및 플랫폼이 포함됩니다. 이러한 통합은 채택, 안전 및 보안에 필수적입니다. 이 온라인 과정에서는 DevOps 사례에 대해 알아보고 몇 가지 도구 체인 옵션을 이해합니다. | 분석 프로젝트에 DevOps가 필수인 이유를 기술 대상 그룹에게 30분 동안 프레젠테이션하도록 준비합니다. | |
데이터 스토리지 및 처리를 위한 기술 이해 | Microsoft 비즈니스 분석 및 AI | 분석 솔루션을 만드는 데 사용할 수 있는 이 학습 경로에서 몇 가지 기술만을 살펴보지만 Microsoft에는 더 많은 기술이 있습니다. 보유한 옵션을 이해하려면 Microsoft Azure, Azure Stack 및 온-프레미스 옵션에서 사용할 수 있는 플랫폼 및 기능을 검토해야 합니다. 분석 질문에 대답하기 위해 사용할 수 있는 다양한 도구에 대해 알아보려면 이 리소스를 검토합니다. | 워크샵에서 프레젠테이션 자료를 다운로드하고 검토합니다. |
교육, 개발 및 프로덕션 환경 설정 및 구성 | Microsoft Azure | 이제 학습을 위해 Microsoft Azure에서 계정을 만들고 개발 및 테스트 환경을 만드는 방법을 알아보겠습니다. 이러한 무료 학습 리소스를 시작합니다. 초보자 및 중간 경로를 완료합니다. | Azure 계정이 없는 경우 계정을 만듭니다. Azure Portal에 로그인하고 학습을 위해 하나의 리소스 그룹을 만듭니다. |
Azure CLI(명령줄 인터페이스) | Visual Studio Code 및 Visual Studio와 같은 그래픽 도구에서 Azure Portal과 같은 웹 인터페이스 및 명령줄(예: Azure PowerShell 명령 및 함수)에 이르기까지 Azure를 사용하는 여러 가지 방법이 있습니다. 이 문서에서는 워크스테이션, Windows 및 기타 운영 체제 및 Azure Portal에서 로컬로 사용할 수 있는 CLI를 다룹니다. | Azure CLI를 사용하여 기본 구독을 설정합니다. | |
Azure Storage | 데이터를 저장할 공간이 필요합니다. 이 문서에서는 Azure Storage 옵션, 스토리지 계정을 만드는 방법 및 데이터를 클라우드로 복사하거나 이동하는 방법에 대해 알아봅니다. 자세한 내용을 보려면 이 소개를 참고하세요. | 학습 리소스 그룹에 Storage 계정을 만들고, Blob 개체에 대한 컨테이너를 만들고, 데이터를 업로드하고 다운로드합니다. | |
Microsoft Entra ID | Microsoft Entra ID는 애플리케이션 보안의 기초를 형성합니다. 이 문서에서 계정, 권한 및 사용 권한에 대해 자세히 알아봅니다. Active Directory 및 보안은 복잡한 항목이므로 이 리소스를 통해 기본 사항을 이해하세요. | Microsoft Entra ID에 한 명의 사용자를 추가합니다. 참고: 구독에 대한 관리자가 아닌 경우 이 작업에 대한 권한이 없을 수 있습니다. 이 경우 이 자습서를 검토하여 자세히 알아보세요. | |
PyTorch용 Azure 데이터 과학 Virtual Machine | 여러 운영 체제에서 로컬로 데이터 과학 작업을 위한 도구를 설치할 수 있습니다. 그러나 PyTorch용 데이터 과학 Virtual Machine에는 필요한 모든 도구와 작업할 수 있는 많은 프로젝트 샘플이 포함되어 있습니다. 이 문서에서는 PyTorch용 데이터 과학 Virtual Machine 및 예제를 통해 작업하는 방법에 대해 자세히 알아봅니다. 이 리소스는 PyTorch용 Virtual Machine에 데이터 과학, 가상 머신을 만드는 방법 및 이를 사용하여 코드를 개발하기 위한 몇 가지 옵션을 설명합니다. 또한 이 학습 경로를 완료하는 데 필요한 모든 소프트웨어가 포함되어 있으므로 이 항목에 대한 지식 경로를 완료해야 합니다. | PyTorch용 데이터 과학 Virtual Machine을 만들고 하나 이상의 랩을 통해 작업합니다. | |
데이터 과학 솔루션 작업을 위한 도구 및 기술 설치 및 이해 | Git 작업 | TDSP를 사용하여 DevOps 프로세스를 수행하려면 버전 제어 시스템이 있어야 합니다. Machine Learning은 인기 있는 오픈 소스 분산 리포지토리 시스템인 Git을 사용합니다. 이 문서에서는 Git 및 중앙 리포지토리인 GitHub를 설치, 구성 및 사용하는 방법에 대해 자세히 알아봅니다. | 학습 경로 프로젝트 구조에 대한 이 GitHub 프로젝트를 복제합니다. |
Visual Studio Code | Visual Studio Code는 여러 언어 및 Azure 도구에서 사용할 수 있는 플랫폼 간 IDE(통합 개발 환경)입니다. 이 단일 환경을 사용하여 전체 솔루션을 만들 수 있습니다. 시작하려면 이러한 소개 비디오를 시청합니다. | Visual Studio Code를 설치하고 대화형 편집기 플레이그라운드에서 Visual Studio Code 기능을 통해 작업합니다. | |
Python을 사용하는 프로그래밍 | 이 솔루션에서는 데이터 과학에서 가장 인기 있는 언어 중 하나인 Python을 사용합니다. 이 문서에서는 Python을 사용하는 분석 코드 작성의 기본 사항 및 자세한 리소스를 설명합니다. 이 참조의 1~9단계를 수행한 다음 정보를 확인합니다. | Python을 사용하여 Azure 테이블에 엔터티를 하나 추가합니다. | |
Jupyter Notebook 작업 | Notebooks는 같은 문서에서 텍스트와 코드를 도입하는 방법입니다. Machine Learning은 Notebook에서 작동하므로 이를 사용하는 방법을 이해하는 것이 좋습니다. 이 자습서를 읽고 지식 검사 섹션에서 시도해 보세요. | Jupyter 웹 페이지를 열고 Python.ipynb 시작 을 선택합니다. 해당 페이지에서 예제를 사용합니다. | |
기계 학습 | 고급 분석 솔루션을 만들 때는 기계 학습을 사용하여 데이터를 작업해야 하며, 이는 AI 및 딥 러닝 작업의 기초가 됩니다. 이 과정에서는 기계 학습에 대해 자세히 설명합니다. 데이터 과학에 대한 포괄적인 과정은 이 인증을 참조하세요. | 기계 학습 알고리즘에서 리소스를 찾습니다. (힌트: "azure Machine Learning 알고리즘 치트 시트" 검색) | |
scikit-learn | scikit-learn 도구 집합을 통해 Python에서 데이터 과학 작업을 수행할 수 있습니다. 솔루션에서 이 프레임워크를 사용합니다. 이 문서에서는 기본 사항을 다루고 자세히 알아볼 수 있는 위치를 설명합니다. | 아이리스 데이터 세트를 사용하여 Pickle을 사용하는 SVM 모델을 유지합니다. | |
Docker 작업 | Docker는 애플리케이션을 빌드, 배송 및 실행하는 데 사용되는 분산 플랫폼이며 기계 학습에서 자주 사용됩니다. 이 문서는 이 기술의 기본 사항을 다루고 자세히 알아볼 수 있는 위치를 설명합니다. | Visual Studio Code를 열고 Docker 확장을 설치합니다. 간단한 노드 Docker 컨테이너를 만듭니다. | |
Azure HDInsight | HDInsight는 Azure에서 서비스로 사용할 수 있는 Hadoop 오픈 소스 인프라입니다. 기계 학습 알고리즘에는 대규모 데이터 집합이 포함될 수 있으며, HDInsight를 사용하여 대규모 데이터를 저장, 전송 및 처리할 수 있습니다. 이 문서에서는 HDInsight 작업을 설명합니다. | 소규모 HDInsight 클러스터를 만듭니다. HiveQL 문을 사용하여 /example/data/sample.log 파일에 열을 프로젝션합니다. 또는 로컬 시스템에서 이 기술 검사를 완료합니다. | |
비즈니스 요구 사항에서 데이터 처리 흐름 만들기 | TDSP 다음 질문 확인 | 개발 환경을 설치하고 구성하며 기술 및 프로세스를 이해한 경우 분석을 수행하기 위해 TDSP을 사용하여 모든 기능을 통합합니다. 먼저 질문을 정의하고, 데이터 원본을 선택하고, TDSP의 나머지 단계를 선택해야 합니다. 이 프로세스를 설명할 때 DevOps 프로세스에 유의합니다. 이 문서에서는 조직의 요구 사항을 파악하고 애플리케이션을 통해 데이터 흐름 맵을 만들어 TDSP를 사용하여 솔루션을 정의하는 방법을 알아봅니다. | "5가지 데이터 과학 질문"에 대한 리소스를 찾고 조직에서 이러한 영역에서 가질 수 있는 한 가지 질문을 설명합니다. 해당 질문에 대해 집중해야 하는 알고리즘은 무엇인가요? |
Machine Learning을 사용하여 예측 솔루션 만들기 | Machine Learning | Machine Learning은 데이터 랭글링 및 기능 엔지니어링에 AI를 사용하고, 실험을 관리하고, 모델 실행을 추적합니다. 단일 환경을 사용하며 대부분의 함수는 로컬 또는 Azure에서 실행할 수 있습니다. PyTorch 프레임워크, TensorFlow 프레임워크 또는 기타 프레임워크를 사용하여 실험을 만들 수 있습니다. 이 문서에서는 지금까지 배운 모든 것을 사용하여 이 프로세스의 전체 예제를 집중합니다. | |
Power BI를 사용하여 결과 시각화 | Power BI | Power BI는 데이터 시각화 도구입니다. 웹 디바이스, 모바일 디바이스 및 데스크톱 컴퓨터와 같은 여러 플랫폼에서 사용할 수 있습니다. 이 문서에서는 Azure Storage의 결과에 액세스하고 Power BI를 사용하여 시각화를 만들어 만든 솔루션의 출력을 사용하는 방법을 알아봅니다. | Power BI에서 이 자습서를 완료합니다. 그런 다음 실험 실행에서 만든 Blob CSV에 Power BI를 연결합니다. |
솔루션 모니터링 | Application Insights | 최종 솔루션을 모니터링하는 데 사용할 수 있는 여러 도구가 있습니다. Application Insights를 사용하면 기본 제공 모니터링을 솔루션에 쉽게 통합할 수 있습니다. | 애플리케이션을 모니터링하도록 Application Insights를 설정합니다. |
Azure Monitor 로그 | 애플리케이션을 모니터링하는 다른 방법은 DevOps 프로세스에 통합하는 것입니다. Azure Monitor 로그는 배포 후 분석 솔루션을 모니터링하는 데 도움이 되는 다양한 기능 집합을 제공합니다. | Azure Monitor 로그 사용에 대한 이 자습서 를 완료합니다. | |
이 학습 경로 완료 | 축하합니다! 이 학습 경로를 완료했습니다. |
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
보안 주체 작성자:
- Mark Tabladillo | 선임 클라우드 솔루션 설계자
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인하세요.
다음 단계
AI 학습 허브에서 AI 경험을 계속합니다.
관련 참고 자료
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기