Apa itu Ilmu Data di Microsoft Fabric?

Microsoft Fabric menawarkan pengalaman Ilmu Data untuk memberdayakan pengguna untuk menyelesaikan alur kerja ilmu data end-to-end untuk tujuan pengayaan data dan wawasan bisnis. Anda dapat menyelesaikan berbagai aktivitas di seluruh proses ilmu data, mulai dari eksplorasi data, persiapan dan pembersihan hingga eksperimen, pemodelan, penilaian model, dan penyajian wawasan prediktif ke laporan BI.

Pengguna Microsoft Fabric dapat mengakses halaman Beranda Ilmu Data. Dari sana, mereka dapat menemukan dan mengakses berbagai sumber daya yang relevan. Misalnya, mereka dapat membuat Eksperimen, Model, dan Notebook pembelajaran mesin. Mereka juga dapat mengimpor Notebook yang sudah ada di halaman Beranda Ilmu Data.

Cuplikan layar beranda Ilmu data.

Anda mungkin tahu cara kerja proses ilmu data yang khas. Sebagai proses terkenal, sebagian besar proyek pembelajaran mesin mengikutinya.

Pada tingkat tinggi, prosesnya melibatkan langkah-langkah berikut:

  • Rumusan dan ideasi masalah
  • Penemuan dan pra-pemrosesan data
  • Eksperimen dan pemodelan
  • Memperkaya dan mengoprasionalkan
  • Mendapatkan wawasan

Diagram proses ilmu data.

Artikel ini menjelaskan kemampuan Microsoft Fabric Ilmu Data dari perspektif proses ilmu data. Untuk setiap langkah dalam proses ilmu data, artikel ini merangkum kemampuan Microsoft Fabric yang dapat membantu.

Rumusan dan ideasi masalah

Ilmu Data pengguna di Microsoft Fabric bekerja pada platform yang sama dengan pengguna bisnis dan analis. Berbagi dan kolaborasi data menjadi lebih mulus di berbagai peran sebagai hasilnya. Analis dapat dengan mudah berbagi laporan dan himpunan data Power BI dengan praktisi ilmu data. Kemudahan kolaborasi di seluruh peran di Microsoft Fabric membuat hand-off selama fase formulasi masalah jauh lebih mudah.

Penemuan dan pra-pemrosesan data

Pengguna Microsoft Fabric dapat berinteraksi dengan data di OneLake menggunakan item Lakehouse. Lakehouse dengan mudah dilampirkan ke Notebook untuk menelusuri dan berinteraksi dengan data.

Pengguna dapat dengan mudah membaca data dari Lakehouse langsung ke dalam dataframe Pandas. Untuk eksplorasi, hal ini memungkinkan pembacaan data yang mulus dari OneLake.

Sekumpulan alat yang kuat tersedia untuk penyerapan data dan alur orkestrasi data dengan alur integrasi data - bagian asli yang terintegrasi dari Microsoft Fabric. Alur data yang mudah dibangun dapat mengakses dan mengubah data menjadi format yang dapat dikonsumsi pembelajaran mesin.

Eksplorasi data

Bagian penting dari proses pembelajaran mesin adalah memahami data melalui eksplorasi dan visualisasi.

Bergantung pada lokasi penyimpanan data, Microsoft Fabric menawarkan serangkaian alat yang berbeda untuk menjelajahi dan menyiapkan data untuk analitik dan pembelajaran mesin. Notebook menjadi salah satu cara tercepat untuk memulai eksplorasi data.

Apache Spark dan Python untuk persiapan data

Microsoft Fabric menawarkan kemampuan untuk mengubah, menyiapkan, dan menjelajahi data Anda dalam skala besar. Dengan Spark, pengguna dapat memanfaatkan alat PySpark/Python, Scala, dan SparkR/SparklyR untuk pra-pemrosesan data dalam skala besar. Pustaka visualisasi sumber terbuka yang kuat dapat meningkatkan pengalaman eksplorasi data untuk membantu lebih memahami data.

Wrangler Data untuk pembersihan data yang mulus

Pengalaman Microsoft Fabric Notebook menambahkan fitur untuk menggunakan Data Wrangler, alat kode yang menyiapkan data dan menghasilkan kode Python. Pengalaman ini memudahkan untuk mempercepat tugas yang melelahkan dan biasa - misalnya, pembersihan data, dan membangun pengulangan dan otomatisasi melalui kode yang dihasilkan. Pelajari selengkapnya tentang Data Wrangler di bagian Data Wrangler dari dokumen ini.

Eksperimen dan pemodelan ML

Dengan alat seperti PySpark/Python, SparklyR/R, notebook dapat menangani pelatihan model pembelajaran mesin.

Algoritma dan pustaka ML dapat membantu melatih model pembelajaran mesin. Alat manajemen pustaka dapat menginstal pustaka dan algoritma ini. Oleh karena itu, pengguna memiliki opsi untuk memanfaatkan berbagai pustaka pembelajaran mesin populer untuk menyelesaikan pelatihan model ML mereka di Microsoft Fabric.

Selain itu, pustaka populer seperti Scikit Learn juga dapat mengembangkan model.

Eksperimen dan eksekusi MLflow dapat melacak pelatihan model ML. Microsoft Fabric menawarkan pengalaman MLflow bawaan yang dapat berinteraksi dengan pengguna, untuk mencatat eksperimen dan model. Pelajari selengkapnya tentang cara menggunakan MLflow untuk melacak eksperimen dan mengelola model di Microsoft Fabric.

SynapseML

Pustaka sumber terbuka SynapseML (sebelumnya dikenal sebagai MMLSpark), yang dimiliki dan dikelola Microsoft, menyederhanakan pembuatan alur pembelajaran mesin yang dapat diskalakan secara besar-besaran. Sebagai ekosistem alat, ini memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada dan algoritma Microsoft baru menjadi satu API yang dapat diskalakan. Pustaka SynapseML sumber terbuka mencakup ekosistem alat ML yang kaya untuk pengembangan model prediktif, serta memanfaatkan model AI yang telah dilatih sebelumnya dari layanan Azure AI. Pelajari selengkapnya tentang SynapseML.

Memperkaya dan mengoprasionalkan

Notebook dapat menangani penilaian batch model pembelajaran mesin dengan pustaka sumber terbuka untuk prediksi, atau fungsi Prediksi Spark universal yang dapat diskalakan Microsoft Fabric, yang mendukung model paket MLflow di registri model Microsoft Fabric.

Mendapatkan wawasan

Di Microsoft Fabric, Nilai yang diprediksi dapat dengan mudah ditulis ke OneLake, dan dikonsumsi dengan mulus dari laporan Power BI, dengan mode Power BI Direct Lake. Ini membuatnya sangat mudah bagi praktisi ilmu data untuk berbagi hasil dari pekerjaan mereka dengan pemangku kepentingan dan juga menyederhanakan operasionalisasi.

Notebook yang berisi penilaian batch dapat dijadwalkan untuk dijalankan menggunakan kemampuan Penjadwalan Notebook. Penilaian batch juga dapat dijadwalkan sebagai bagian dari aktivitas alur data atau pekerjaan Spark. Power BI secara otomatis mendapatkan prediksi terbaru tanpa perlu memuat atau menyegarkan data, berkat mode Direct lake di Microsoft Fabric.

Penting

Fitur ini dalam pratinjau.

Ilmuwan data dan analis bisnis menghabiskan banyak waktu untuk mencoba memahami, membersihkan, dan mengubah data sebelum mereka dapat memulai analisis yang bermakna. Analis bisnis biasanya bekerja dengan model semantik dan mengodekan pengetahuan domain dan logika bisnis mereka ke dalam langkah-langkah Power BI. Di sisi lain, ilmuwan data dapat bekerja dengan data yang sama, tetapi biasanya dalam lingkungan atau bahasa kode yang berbeda.

Tautan semantik (pratinjau) memungkinkan ilmuwan data untuk membuat koneksi antara model semantik Power BI dan Ilmu Data Synapse dalam pengalaman Microsoft Fabric melalui pustaka SemPy Python. SemPy menyederhanakan analitik data dengan menangkap dan memanfaatkan semantik data saat pengguna melakukan berbagai transformasi pada model semantik. Dengan memanfaatkan tautan semantik, ilmuwan data dapat:

  • menghindari kebutuhan untuk menerapkan kembali logika bisnis dan pengetahuan domain dalam kode mereka
  • mengakses dan menggunakan pengukuran Power BI dengan mudah dalam kodenya
  • menggunakan semantik untuk mendukung pengalaman baru, seperti fungsi semantik
  • menjelajahi dan memvalidasi dependensi fungsional dan hubungan antara data

Melalui penggunaan SemPy, organisasi dapat mengharapkan untuk melihat:

  • peningkatan produktivitas dan kolaborasi yang lebih cepat di seluruh tim yang beroperasi pada himpunan data yang sama
  • peningkatan kolaborasi silang di seluruh kecerdasan bisnis dan tim AI
  • mengurangi ambiguitas dan kurva pembelajaran yang lebih mudah saat onboarding ke model atau himpunan data baru

Untuk informasi selengkapnya tentang tautan semantik, lihat Apa itu tautan semantik (pratinjau)?.