Mengapa alur data?

Azure DevOps

Anda dapat menggunakan alur data untuk:

  • Menyerap data dari berbagai sumber data
  • Memproses dan mengubah data
  • Simpan data yang diproses ke lokasi penahapan untuk dikonsumsi orang lain

Data pipeline overview

Alur data di perusahaan dapat berkembang menjadi skenario yang lebih rumit dengan beberapa sistem sumber dan mendukung berbagai aplikasi hilir.

Alur data menyediakan:

  • Konsistensi: Alur data mengubah data menjadi format yang konsisten untuk digunakan pengguna
  • Pengurangan kesalahan: Alur data otomatis menghilangkan kesalahan manusia saat memanipulasi data
  • Efisiensi: Profesional data menghemat waktu yang dihabiskan untuk transformasi pemrosesan data. Menghemat waktu memungkinkan kemudian untuk fokus pada fungsi pekerjaan inti mereka - mendapatkan wawasan dari data dan membantu bisnis membuat keputusan yang lebih baik

Apa itu CI/CD?

Integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) adalah pendekatan pengembangan perangkat lunak di mana semua pengembang bekerja sama pada repositori kode bersama - dan saat perubahan dilakukan, ada proses build otomatis untuk mendeteksi masalah kode. Hasilnya adalah siklus hidup pengembangan yang lebih cepat dan tingkat kesalahan yang lebih rendah.

Apa itu alur data CI/CD dan mengapa penting bagi ilmu data?

Pembangunan model pembelajaran mesin mirip dengan pengembangan perangkat lunak tradisional dalam arti bahwa ilmuwan data perlu menulis kode untuk melatih dan menilai model pembelajaran mesin.

Tidak seperti pengembangan perangkat lunak tradisional di mana produk didasarkan pada kode, model pembelajaran mesin ilmu data didasarkan pada kode (algoritma, parameter hiper) dan data yang digunakan untuk melatih model. Itu sebabnya sebagian besar ilmuwan data akan memberi tahu Anda bahwa mereka menghabiskan 80% dari waktu melakukan persiapan data, pembersihan, dan rekayasa fitur.

Untuk mempersulit masalah lebih jauh – untuk memastikan kualitas model pembelajaran mesin, teknik seperti pengujian A/B digunakan. Dengan pengujian A/B, mungkin ada beberapa model pembelajaran mesin yang digunakan secara bersamaan. Biasanya ada satu model kontrol dan satu atau beberapa model perawatan untuk perbandingan - sehingga performa model dapat dibandingkan dan dipertahankan. Memiliki beberapa model menambahkan lapisan kompleksitas lain untuk CI/CD model pembelajaran mesin.

Memiliki alur data CI/CD sangat penting bagi tim ilmu data untuk memberikan model pembelajaran mesin ke bisnis secara tepat waktu dan berkualitas.

Langkah berikutnya