Pemetaan aliran data Mode Debug
BERLAKU UNTUK:
Azure Data Factory
Azure Synapse Analytics
Gambaran Umum
Mode debug aliran data pemetaan Azure Data Factory dan Synapse Analytics memungkinkan Anda melihat transformasi bentuk data secara interaktif saat Anda membangun dan men-debug aliran data. Sesi debug dapat digunakan baik dalam sesi desain Aliran Data maupun selama eksekusi debug alur aliran data. Untuk mengaktifkan mode debug, klik tombol Debug Aliran Data di bilah atas kanvas aliran data atau kanvas alur saat Anda memiliki aktivitas aliran data.
Setelah menyalakan penggeser, Anda akan diminta untuk memilih konfigurasi runtime integrasi mana yang ingin digunakan. Jika AutoResolveIntegrationRuntime dipilih, kluster dengan delapan inti komputasi umum dengan waktu 60 menit default untuk aktif akan berputar. Jika anda ingin mengizinkan tim siaga lebih banyak lagi sebelum sesi anda habis, anda dapat memilih pengaturan TTL yang lebih tinggi. Selengkapnya tentang runtime integrasi aliran data, lihat Performa Integration Runtime.
Saat mode Debug aktif, Anda akan secara interaktif membangun aliran data dengan kluster Spark aktif. Sesi akan ditutup setelah Anda menonaktifkan debug di Azure Data Factory. Anda harus mengetahui biaya per jam yang dikeluarkan oleh Azure Data Factory selama Anda mengaktifkan sesi debug.
Dalam kebanyakan kasus, ini adalah praktik yang baik untuk membangun Aliran Data Anda dalam mode debug, sehingga Anda dapat memvalidasi logika bisnis dan melihat transformasi data Anda sebelum memublikasikan pekerjaan di Azure Data Factory. Gunakan tombol "Debug" pada panel alur untuk menguji aliran data Anda dalam alur.
Catatan
Masing-masing sesi debug yang dimulai pengguna dari UI browser ADF mereka adalah sesi baru dengan kluster Spark sendiri. Anda dapat menggunakan tampilan pemantauan untuk sesi debug di atas untuk melihat dan mengelola sesi debug. Anda dikenakan biaya untuk setiap jam yang dijalankan masing-masing sesi debug termasuk waktu TTL.
Status kluster
Indikator status kluster di bagian atas permukaan desain berubah menjadi hijau saat kluster siap untuk debug. Jika kluster Anda sudah hangat, maka indikator hijau akan muncul hampir secara langsung. Jika kluster Anda belum berjalan saat Anda memasuki mode debug, maka kluster Spark akan melakukan boot dingin. Indikator akan berputar sampai lingkungan siap untuk penelusuran kesalahan interaktif.
Setelah selesai dengan penelusuran kesalahan, matikan tombol Debug agar kluster Spark dapat dihentikan dan Anda tidak lagi ditagih untuk aktivitas debug.
Pengaturan debug
Setelah mengaktifkan mode debug, Anda dapat mengedit cara aliran data mempratinjau data. Pengaturan debug dapat diedit dengan mengklik "Pengaturan Debug" pada toolbar kanvas Aliran Data. Anda dapat memilih batas baris atau sumber file yang akan digunakan untuk masing-masing transformasi Sumber di sini. Batas baris dalam pengaturan ini hanya untuk sesi debug saat ini. Anda juga dapat memilih layanan penahapan yang ditautkan untuk digunakan sebagai sumber Azure Synapse Analytics.
Jika Anda memiliki parameter di Aliran Data atau himpunan data yang direferensikan, Anda dapat menentukan nilai apa yang akan digunakan selama penelusuran kesalahan dengan memilih tab Parameter.
Gunakan pengaturan pengambilan sampel di sini untuk menunjuk ke file sampel atau tabel sampel data, sehingga Anda tidak perlu mengubah himpunan data sumber. Dengan menggunakan file atau tabel sampel di sini, Anda dapat mempertahankan logika dan pengaturan properti yang sama dalam aliran data saat menguji terhadap subset data.
IR default yang digunakan untuk mode debug dalam aliran data ADF adalah simpul pekerja tunggal 4 inti kecil dengan simpul driver tunggal 4 inti. Hal ini berfungsi dengan baik pada sampel data yang lebih kecil saat menguji logika aliran data Anda. Jika Anda memperluas batas baris di pengaturan debug selama pratinjau data atau mengatur jumlah baris sampel yang lebih tinggi pada sumber selama debug alur, maka Anda mungkin ingin mempertimbangkan pengaturan lingkungan komputasi yang lebih besar di Integration Runtime Azure baru. Kemudian, Anda dapat menghidupkan ulang sesi debug menggunakan lingkungan komputasi yang lebih besar.
Pratinjau data
Dengan debug aktif, tab Pratinjau Data akan menyala di panel bawah. Tanpa mode debug menyala, Aliran Data hanya akan menampilkan metadata saat ini masuk dan keluar dari masing-masing transformasi Anda di tab Inspeksi. Pratinjau data hanya akan mengkueri jumlah baris yang telah diatur sebagai batas di pengaturan debug Anda. Klik Refresh untuk memperbarui pratinjau data berdasarkan transformasi Anda saat ini. Jika data sumber Anda telah berubah, klik Refresh > Refetch dari sumber.
Catatan
Sumber file hanya membatasi baris yang Anda lihat, bukan baris yang sedang dibaca. Untuk himpunan data yang sangat besar, disarankan agar Anda mengambil sebagian kecil file tersebut dan menggunakannya untuk pengujian. Anda dapat memilih file sementara di Pengaturan Debug untuk masing-masing sumber yang merupakan jenis himpunan data file.
Saat berjalan dalam Mode Debug di Aliran Data, data Anda tidak akan ditulis ke transformasi Sink. Sesi Debug dimaksudkan sebagai alat uji untuk transformasi Anda. Sink tidak diperlukan selama debug dan diabaikan dalam aliran data Anda. Jika Anda ingin menguji penulisan data dalam Sink, jalankan Aliran Data dari alur Azure Data Factory dan gunakan eksekusi Debug dari alur.
Pratinjau Data adalah rekam jepret dari data Anda yang ditransformasi menggunakan batas baris dan pengambilan sampel data dari bingkai data dalam memori Spark. Oleh karena itu, driver sink tidak digunakan atau diuji dalam skenario ini.
Menguji kondisi gabungan
Saat pengujian unit Bergabung, Ada, atau Cari transformasi, pastikan Anda menggunakan sekumpulan kecil data yang diketahui untuk pengujian Anda. Anda dapat menggunakan opsi Pengaturan Debug di atas untuk mengatur file sementara yang akan digunakan untuk pengujian. Hal ini diperlukan karena saat membatasi atau mengambil sampel baris dari himpunan data besar, Anda tidak dapat memprediksi baris mana dan kunci mana yang akan dibaca ke dalam alur untuk pengujian. Hasilnya tidak ditentukan, yang berarti kondisi gabungan Anda mungkin gagal.
Tindakan cepat
Setelah melihat pratinjau data, Anda dapat menghasilkan transformasi cepat untuk mengetik, menghapus, atau melakukan modifikasi pada kolom. Klik header kolom lalu pilih salah satu opsi dari toolbar pratinjau data.
Setelah Anda memilih modifikasi, pratinjau data akan segera di-refresh. Klik Konfirmasi di sudut kanan atas untuk menghasilkan transformasi baru.
Ketik dan Ubah akan menghasilkan transformasi Kolom Turunan dan Hapus akan menghasilkan transformasi Pilih.
Catatan
Jika Anda mengedit Aliran Data, Anda perlu mengambil kembali pratinjau data sebelum menambahkan transformasi cepat.
Pemrofilan data
Memilih kolom di tab pratinjau data Anda dan mengklik Statistik di toolbar pratinjau data akan memuncul bagan di ujung kanan kisi data Anda dengan statistik terperinci tentang masing-masing bidang. Azure Data Factory akan membuat penentuan berdasarkan pengambilan sampel data jenis bagan mana yang akan ditampilkan. Bidang kardinalitas tinggi akan atur default ke bagan NULL/BUKAN NULL sementara data kategori dan numerik yang memiliki kardinalitas rendah akan menampilkan bagan batang yang menunjukkan frekuensi nilai data. Anda juga akan melihat panjang max/len bidang untai (karakter), nilai min/max di bidang numerik, dev standar, persentil, hitungan, dan rata-rata.
Langkah berikutnya
- Setelah Anda selesai membangun dan menelusuri kesalahan aliran data , jalankan dari alur.
- Saat menguji alur Anda dengan aliran data, gunakan alur Opsi eksekusi jalankan debug.

