Apa itu Proses Data Science Tim?

Machine Learning

Proses Data Science Tim (TDSP) adalah metodologi data science yang tangkas dan berulang untuk memberikan solusi analisis prediktif dan aplikasi cerdas secara efisien. TDSP membantu meningkatkan kolaborasi dan pembelajaran tim dengan menyarankan bagaimana peran-peran tim dapat bekerja bersama dengan semaksimal mungkin. TDSP mencakup praktik dan struktur terbaik dari Microsoft dan para pemimpin industri lainnya untuk membantu keberhasilan implementasi inisiatif data science. Tujuannya adalah untuk membantu perusahaan sepenuhnya mendapatkan manfaat dari program analitik mereka.

Artikel ini memberikan gambaran umum tentang TDSP dan komponen utamanya. Kami memberikan deskripsi umum tentang proses di sini yang dapat diimplementasikan dengan berbagai jenis alat. Deskripsi yang lebih rinci tentang tugas dan peran proyek yang terlibat dalam siklus hidup proses disediakan dalam topik tambahan yang ditautkan. Panduan tentang cara mengimplementasikan TDSP menggunakan serangkaian alat dan infrastruktur Microsoft tertentu yang kami gunakan untuk mengimplementasikan TDSP di tim kami juga disediakan.

Komponen utama TDSP

TDSP memiliki komponen utama berikut:

  • Definisi siklus hidup data science
  • Struktur proyek yang terstandardisasi
  • Infrastruktur dan sumber daya yang direkomendasikan untuk proyek data science
  • Alat dan utilitas yang direkomendasikan untuk eksekusi proyek

Siklus hidup data science

Proses Data Science Tim (TDSP) menyediakan siklus hidup untuk menyusun pengembangan proyek data science Anda. Siklus hidup menguraikan langkah-langkah lengkap yang diikuti oleh proyek yang berhasil.

Jika Anda menggunakan siklus hidup data science lain, seperti CRISP-DM,KDD, atau proses kustom organisasi Anda sendiri, Anda masih dapat menggunakan TDSP berbasis tugas dalam konteks siklus hidup pengembangan tersebut. Pada tingkat tinggi, metodologi yang berbeda ini memiliki banyak kesamaan.

Siklus hidup ini telah dirancang untuk proyek data science yang dikirim sebagai bagian dari aplikasi cerdas. Aplikasi ini menyebarkan model pembelajaran mesin atau kecerdasan buatan untuk analisis prediktif. Proyek data science eksploratif atau proyek analitik improvisasi juga dapat memperoleh manfaat dari penggunaan proses ini. Namun dalam kasus seperti itu beberapa langkah yang dijelaskan mungkin tidak diperlukan.

Siklus hidup merangkum tahapan-tahapan utama yang biasanya dijalankan proyek, dan sering kali berulang:

  • Pemahaman Bisnis
  • Akuisisi dan Pemahaman Data
  • Pemodelan
  • Penyebaran

Berikut adalah representasi visual dari siklus hidup Proses Data Science Tim.

Diagram shows the data science lifecycle, including business understanding, data acquisition / understanding, modeling and deployment.

Tujuan, tugas, dan artefak dokumentasi untuk setiap tahap siklus hidup dalam TDSP dijelaskan dalam topik siklus hidup TProses Data Science Tim. Tugas dan artefak ini dikaitkan dengan peran proyek:

  • Arsitek solusi
  • Manajer proyek
  • Teknisi data
  • Ilmuwan data
  • Pengembang aplikasi
  • Pemimpin proyek

Diagram berikut memberikan tampilan kisi tugas (berwarna biru) dan artefak (berwarna hijau) yang terkait dengan setiap tahap siklus hidup (pada sumbu horizontal) untuk peran ini (pada sumbu vertikal).

TDSP-roles-and-tasks

Struktur proyek yang terstandardisasi

Menjadikan semua proyek memiliki struktur direktori yang sama dan menggunakan templat untuk dokumen proyek memudahkan anggota tim untuk menemukan informasi tentang proyek mereka. Semua kode dan dokumen disimpan dalam sistem kontrol versi (VCS) seperti Git, TFS, atau Subversion untuk memungkinkan kolaborasi tim. Melacak tugas dan fitur dalam sistem pelacakan proyek yang tangkas seperti Jira, Rally, dan Azure DevOps memungkinkan pelacakan kode untuk fitur individual yang lebih akurat. Pelacakan semacam itu juga memungkinkan tim untuk mendapatkan estimasi biaya yang lebih baik. TDSP menyarankan pembuatan repositori terpisah untuk setiap proyek di VCS untuk penerapan versi, keamanan informasi, dan kolaborasi. Struktur yang terstandardisasi untuk semua proyek membantu membangun pengetahuan institusional di seluruh organisasi.

Kami menyediakan templat untuk struktur folder dan dokumen yang diperlukan di lokasi standar. Struktur folder ini mengatur file yang berisi kode untuk eksplorasi data dan ekstraksi fitur, serta perulangan model rekaman tersebut. Templat ini memudahkan anggota tim untuk memahami pekerjaan yang dilakukan oleh orang lain dan menambahkan anggota baru ke tim. Sangat mudah untuk melihat dan memperbarui templat dokumen dalam format markdown. Gunakan templat untuk memberikan daftar periksa dengan pertanyaan utama untuk setiap proyek guna memastikan bahwa masalah ditentukan dengan baik dan hasil kerja memenuhi kualitas yang diharapkan. Contoh meliputi:

  • piagam proyek untuk mendokumentasikan masalah bisnis dan cakupan proyek
  • laporan data untuk mendokumentasikan struktur dan statistik data mentah
  • laporan model untuk mendokumentasikan fitur turunan
  • metrik performa model seperti kurva ROC atau MSE

TDSP-directories

Struktur direktori dapat diklon dari GitHub.

Infrastruktur dan sumber daya untuk proyek data science

TDSP memberikan rekomendasi untuk mengelola analitik dan infrastruktur penyimpanan bersama seperti:

  • sistem file cloud untuk menyimpan himpunan data
  • database
  • kluster big data (SQL atau Spark)
  • layanan pembelajaran mesin

Infrastruktur analitik dan penyimpanan, tempat himpunan data mentah dan yang diproses disimpan, mungkin ada di cloud atau lokal. Infrastruktur ini memungkinkan analisis yang dapat direproduksi. Infrastruktur ini juga menghindari duplikasi, yang dapat menyebabkan inkonsistensi dan biaya infrastruktur yang tidak perlu. Alat diberikan untuk menyediakan sumber daya bersama, melacaknya, dan memungkinkan setiap anggota tim untuk tersambung ke sumber daya tersebut dengan aman. Membuat anggota proyek menciptakan lingkungan komputasi yang konsisten merupakan praktik yang baik. Anggota tim yang berbeda kemudian dapat mereplikasi dan memvalidasi eksperimen.

Berikut adalah contoh tim yang mengerjakan beberapa proyek dan menggunakan berbagai komponen infrastruktur analitik cloud yang sama.

TDSP-infrastructure

Alat dan utilitas untuk eksekusi proyek

Di sebagian besar organisasi, memperkenalkan proses sangatlah menantang. Alat yang diberikan untuk mengimplementasikan proses data science dan siklus hidup membantu menurunkan hambatan dan meningkatkan konsistensi adopsinya. TDSP menyediakan sekumpulan alat dan skrip awal untuk memulai proses adopsi TDSP dalam tim. Ini juga membantu mengotomatiskan beberapa tugas umum dalam siklus hidup data science seperti eksplorasi data dan pemodelan dasar. Ada struktur yang terdefinisi dengan baik yang disediakan bagi individu untuk memberikan kontribusi berupa alat dan utilitas bersama ke dalam repositori kode bersama milik tim mereka. Sumber daya ini kemudian dapat dimanfaatkan oleh proyek lain dalam tim atau organisasi. Microsoft menyediakan alat ekstensif di dalam Azure Machine Learning yang mendukung sumber terbuka (Python, R, ONNX, dan kerangka kerja pembelajaran mendalam umum) serta alat (AutoML) Microsoft sendiri.

Langkah berikutnya

Proses Data Science Tim: Peran dan tugas Menguraikan peran personil utama dan tugas terkait mereka untuk tim data science yang menstandarkan proses ini.