Transformasikan data secara aman menggunakan aliran data pemetaan

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Jika Anda baru menggunakan Azure Data Factory, lihat Pendahuluan Azure Data Factory.

Dalam tutorial ini, Anda akan menggunakan antarmuka pengguna (UI) Azure Data Factory untuk membuat alur yang menyalin dan mengubah data dari sumber Azure Data Lake Storage Gen2 menjadi sink Azure Data Lake Storage Gen2 (keduanya memungkinkan akses ke hanya jaringan yang dipilih) dengan menggunakan alur data pemetaan di Jaringan Virtual Terkelola Azure Data Factory. Anda dapat memperluas pola konfigurasi dalam tutorial ini saat mengubah data dengan menggunakan alur data pemetaan.

Dalam tutorial ini, Anda melakukan tugas-tugas berikut:

  • Buat pabrik data.
  • Buat alur dengan aktivitas aliran data.
  • Bangun aliran data pemetaan dengan empat transformasi.
  • Uji coba alur.
  • Pantau aktivitas aliran data.

Prasyarat

  • Langganan Azure. Jika Anda belum memiliki langganan Azure, buat akun Azure gratis sebelum Anda memulai.
  • Akun Microsoft Azure Storage. Anda menggunakan Azure Data Lake Storage sebagai penyimpanan data sumber dan sink. Jika Anda belum memiliki akun penyimpanan Azure, lihat Buat akun penyimpanan Azure untuk mengetahui langkah-langkah pembuatannya. Pastikan akun penyimpanan hanya mengizinkan akses dari jaringan yang dipilih.

File yang akan kita transformasi dalam tutorial ini adalah moviesDB.csv, yang dapat ditemukan di situs konten GitHub ini. Untuk mengambil file dari GitHub, salin konten ke editor teks pilihan Anda untuk disimpan secara lokal sebagai file .csv. Untuk mengunggah file ke akun penyimpanan Anda, lihat Mengunggah blob dengan portal Microsoft Azure. Contohnya akan merujuk kontainer bernama sample-data.

Buat pabrik data

Dalam langkah ini, Anda membuat pabrik data dan membuka antarmuka pengguna Azure Data Factory untuk membuat alur di pabrik data.

  1. Buka Microsoft Edge atau Google Chrome. Saat ini, hanya browser web Microsoft Edge dan Google Chrome yang mendukung antarmuka pengguna Azure Data Factory.

  2. Di menu bagian kiri, pilih Buat sumber daya>Analytics>Azure Data Factory.

  3. Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data harus unik secara global. Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data (misalnya, yournameADFTutorialDataFactory). Untuk aturan penamaan artefak Data Factory, lihat artikel aturan penamaan Data Factory.

  4. Pilih langganan Azure tempat Anda ingin membuat pabrik data.

  5. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    • Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari daftar drop-down.
    • Pilih Buat baru, dan masukkan nama grup sumber daya.

    Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  6. Di bawah Versi, pilih V2.

  7. Di bawah Lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Microsoft Azure Storage dan Microsoft Azure SQL Database) dan komputasi (misalnya, Microsoft Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.

  8. Pilih Buat.

  9. Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka sumber daya untuk masuk ke halaman Azure Data Factory.

  10. Pilih Author & Monitor untuk meluncurkan antarmuka pengguna Data Factory di tab terpisah.

Buat runtime integrasi Azure di Jaringan Virtual Terkelola Azure Data Factory

Dalam langkah ini, Anda membuat runtime integrasi Azure dan mengaktifkan Jaringan Virtual Terkelola Azure Data Factory.

  1. Di portal Azure Data Factory, buka Kelola dan pilih Baru untuk membuat runtime integrasi Azure baru.

    Screenshot that shows creating a new Azure IR.

  2. Pada halaman Penyetelan runtime integrasi, pilih runtime integrasi apa yang akan dibuat berdasarkan kapabilitas yang diperlukan. Dalam tutorial ini, pilih Azure, Host Mandiri lalu klik Lanjutkan.

  3. Pilih Azure lalu klik Lanjutkan untuk membuat runtime integrasi Azure.

    Screenshot that shows a new Azure IR.

  4. Di bawah Konfigurasi jaringan virtual (Pratinjau) , pilih Aktifkan.

    Screenshot that shows enabling a new Azure IR.

  5. Pilih Buat.

Buat alur dengan aktivitas aliran data

Dalam langkah ini, Anda akan membuat alur yang berisi aktivitas aliran data.

  1. Di halaman beranda Azure Data Factory, pilih Atur.

    Screenshot that shows creating a pipeline.

  2. Di panel properti untuk alur, masukkan TransformMovies untuk nama alur.

  3. Di panel Aktivitas, perluas Pindahkan dan Transformasi. Seret aktivitas Aliran Data dari panel ke kanvas alur.

  4. Di pop-up Tambahkan aliran data, pilih Buat aliran data baru, lalu pilihPemetaan Aliran Data. Pilih OK saat sudah selesai.

    Screenshot that shows Mapping Data Flow.

  5. Beri nama aliran data Anda TransformMovies di panel properti.

  6. Di bilah atas kanvas alur, geser penggeser debug Aliran Data ke aktif. Mode debug memungkinkan pengujian interaktif logika transformasi terhadap kluster Spark langsung. Kluster Aliran Data membutuhkan waktu pemanasan 5-7 menit dan pengguna disarankan untuk mengaktifkan debug terlebih dahulu jika berencana untuk melakukan pengembangan Aliran Data. Untuk mengetahui informasi selengkapnya, lihat Mode Debug.

    Screenshot that shows the Data flow debug slider.

Membangun logika transformasi di kanvas aliran data

Setelah membuat aliran data, Anda akan dikirim secara otomatis ke kanvas aliran data. Dalam langkah ini, Anda akan membangun aliran data yang mengambil file moviesDB.csv di Azure Data Lake Storage dan mengagregasi peringkat rata-rata komedi dari 1910 hingga 2000. Anda kemudian akan menulis kembali file ini ke Azure Data Lake Storage.

Tambahkan transformasi sumber

Dalam langkah ini, Anda menyiapkan Data Lake Storage Gen2 sebagai sumber.

  1. Di kanvas aliran data, tambahkan sumber dengan memilih kotak Tambahkan Sumber.

  2. Beri nama sumber Anda MoviesDB. Klik Baru untuk membuat himpunan data sumber baru.

  3. Pilih Azure Data Lake Storage Gen2, lalu pilih Lanjutkan.

  4. Pilih DelimitedText, lalu pilih Lanjutkan.

  5. Beri nama himpunan data Anda MoviesDB. Di drop down layanan tertaut, pilih Baru.

  6. Di layar pembuatan layanan yang ditautkan, beri nama layanan tertaut Azure Data Lake Storage Gen2 anda ADLSGen2 dan tentukan metode autentikasi Anda. Lalu masukkan kredensial koneksi Anda. Dalam tutorial ini, kami menggunakan Kunci akun untuk terhubung ke akun penyimpanan kami.

  7. Pastikan Anda mengaktifkan Penulisan interaktif. Mungkin perlu waktu satu menit untuk diaktifkan.

    Screenshot that shows Interactive authoring.

  8. Pilih Pengujian koneksi. Ini harus gagal karena akun penyimpanan tidak mengaktifkan akses ke dalamnya tanpa pembuatan dan persetujuan titik akhir pribadi. Dalam pesan kesalahan, Anda akan melihat tautan untuk membuat titik akhir privat yang bisa Anda ikuti untuk membuat titik akhir privat terkelola. Alternatifnya adalah langsung masuk ke tab Kelola dan ikuti instruksi di bagian ini untuk membuat titik akhir privat terkelola.

  9. Biarkan kotak dialog terbuka, lalu buka akun penyimpanan Anda.

  10. Ikuti instruksi di bagian ini untuk menyetujui tautan pribadi.

  11. Kembali ke kotak dialog. Pilih Pengujian koneksi lagi, dan pilih Buat untuk menyebarkan layanan tertaut.

  12. Di layar pembuatan himpunan data, masukkan lokasi file Anda di bawah bidang Jalur file. Dalam tutorial ini, file moviesDB.csv terletak di sampel-data kontainer. Karena file memiliki headers, pilih kotak centang Baris pertama sebagai header. Pilih Dari koneksi/penyimpanan untuk mengimpor skema header langsung dari file dalam penyimpanan. Pilih OK saat sudah selesai.

    Screenshot that shows the source path.

  13. Jika kluster debug Anda telah dimulai, buka tab Pratinjau Data dari transformasi sumber dan pilih Refresh untuk mendapatkan rekam jepret data. Anda dapat menggunakan pratinjau data untuk memverifikasi transformasi Anda dikonfigurasi dengan benar.

    Screenshot that shows the Data Preview tab.

Buat titik akhir privat terkelola

Jika Anda tidak memilih hyperlink saat menguji koneksi, ikuti jalurnya. Sekarang Anda perlu membuat titik akhir privat terkelola yang akan Anda sambungkan ke layanan tertaut yang Anda buat.

  1. Masuk ke tab Kelola.

    Catatan

    Tab Kelola mungkin tidak tersedia untuk semua instans Azure Data Factory. Jika Anda tidak melihatnya, Anda dapat mengakses titik akhir privat dengan memilih Titik Akhir Privat>Koneksi>Pembuat.

  2. Masuk ke bagian Titik akhir pribadi terkelola.

  3. Pilih + Baru di bawah Titik akhir privat terkelola.

    Screenshot that shows the Managed private endpoints New button.

  4. Pilih petak peta Azure Data Lake Storage Gen2 dari daftar, dan pilih Lanjutkan.

  5. Masukkan nama akun penyimpanan yang Anda buat.

  6. Pilih Buat.

  7. Setelah beberapa detik, Anda akan melihat bahwa tautan pribadi yang dibuat memerlukan persetujuan.

  8. Pilih titik akhir privat yang Anda buat. Anda bisa melihat hyperlink yang akan membawa Anda menyetujui titik akhir privat di tingkat akun penyimpanan.

    Screenshot that shows the Manage private endpoint pane.

  1. Di akun penyimpanan, buka Koneksi titik akhir privat di bawah bagianPengaturan.

  2. Pilih kotak centang untuk titik akhir privat yang Anda buat, dan pilih Setujui.

    Screenshot that shows the private endpoint Approve button.

  3. Tambahkan deskripsi, dan pilih ya.

  4. Kembali ke bagian Titik akhir privat terkelola pada tab Kelola di Azure Data Factory.

  5. Setelah sekitar satu menit, Anda akan melihat persetujuan muncul untuk titik akhir privat Anda.

Tambahkan transformasi filter

  1. Di samping simpul sumber Anda pada kanvas aliran data, klik ikon plus untuk menambahkan transformasi baru. Transformasi pertama yang Anda tambahkan adalah Filter.

    Screenshot that shows adding a filter.

  2. Beri nama filter transformasi FilterYears Anda. Klik pada kotak ekspresi di samping Filter untuk membuka penyusun ekspresi. Di sini Anda akan menentukan kondisi pemfilteran Anda.

    Screenshot that shows FilterYears.

  3. Penyusun ekspresi aliran data memungkinkan Anda membangun ekspresi secara interaktif yang digunakan dalam berbagai transformasi. Ekspresi dapat menyertakan fungsi bawaan, kolom dari skema input, dan parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang cara menyusun ekspresi, lihat Penyusun ekspresi Aliran Data.

    • Dalam tutorial ini, Anda ingin memfilter film komedi genre yang keluar antara tahun 1910 dan 2000. Karena tahun saat ini adalah untai (karakter), Anda perlu mengonversinya menjadi bilangan bulat menggunakan toInteger() fungsi. Gunakan operator yang lebih besar dari atau sama dengan (>=) dan lebih kecil atau sama dengan (<=) untuk membandingkan dengan nilai tahun literal 1910 dan 2000. Satukan ekspresi ini bersama dengan operator and (&&). Ekspresi keluar sebagai:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Untuk menemukan film mana yang merupakan komedi, Anda dapat menggunakan rlike()fungsi untuk menemukan pola 'Komedi' dalam genre kolom. Satukan ekspresi rlike dengan perbandingan tahun untuk mendapatkan:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Jika kluster debug aktif, Anda dapat memverifikasi logika dengan mengeklik Refresh untuk melihat output ekspresi dibandingkan dengan input yang digunakan. Ada lebih dari satu jawaban yang tepat tentang bagaimana Anda dapat menyelesaikan logika ini menggunakan bahasa pemrograman ekspresi aliran data.

      Screenshot that shows the filter expression.

    • Pilih Simpan dan selesaikan setelah Anda selesai dengan ekspresi Anda.

  4. Ambil Pratinjau Data untuk memverifikasi bahwa filter berfungsi dengan benar.

    Screenshot that shows the filtered Data Preview.

Tambahkan transformasi agregat

  1. Transformasi berikutnya yang akan Anda tambahkan adalah transformasi Agregat di bawah pengubah Skema.

    Screenshot that shows adding the aggregate.

  2. Beri nama transformasi agregat Anda AggregateComedyRating. Di tab Kelompokkan menurut, pilih tahun dari menu drop-down untuk mengelompokkan agregasi menurut tahun film yang telah keluar.

    Screenshot that shows the aggregate group.

  3. Masuk ke tab Agregat. Di kotak teks kiri, beri nama kolom agregat AverageComedyRating. Pilih kotak ekspresi kanan untuk memasukkan ekspresi agregat melalui pembuat ekspresi.

    Screenshot that shows the aggregate column name.

  4. Untuk mendapatkan rata-rata kolom Peringkat, gunakan avg() fungsi agregat. Karena Peringkat adalah untai (karakter) dan avg() mengambil input numerik, kita harus mengonversi nilai ke angka melalui toInteger() fungsi. Ekspresi ini terlihat seperti:

    avg(toInteger(Rating))

  5. Pilih Simpan dan selesai setelah Anda selesai.

    Screenshot that shows saving the aggregate.

  6. Buka tab Pratinjau Data untuk melihat output transformasi. Perhatikan hanya dua kolom yang ada di sana, tahun dan AverageComedyRating.

Tambahkan transformasi sink

  1. Selanjutnya, Anda ingin menambahkan transformasi Sink di bawah Tujuan.

    Screenshot that shows adding a sink.

  2. Beri nama sink Anda Sink. Klik Baru untuk membuat himpunan data sink Anda.

    Screenshot that shows creating a sink.

  3. Pada halaman Himpunan Data Baru, pilih Azure Data Lake Storage Gen2, lalu pilih Lanjutkan.

  4. Pada halaman Pilih format, pilih DelimitedText lalu pilih Lanjutkan.

  5. Beri nama himpunan data sink Anda MoviesSink. Untuk layanan tertaut, pilih layanan tertaut ADLSGen2 sama yang Anda buat untuk transformasi sumber. Masukkan folder output untuk menulis data Anda. Dalam tutorial ini, kita menulis ke folder output dalam kontainer sample-data. Folder tidak perlu ada sebelumnya dan dapat dibuat secara dinamis. Pilih kotak centang Baris pertama sebagai header, dan pilih Tidak Ada untuk Mengimpor skema. PilihOK.

    Screenshot that shows the sink path.

Sekarang Anda sudah selesai membangun aliran data. Anda siap untuk menjalankannya pada alur Anda.

Jalankan dan pantau aliran data

Anda dapat men-debug alur sebelum memublikasikannya. Dalam langkah ini, Anda akan memicu proses debug dari alur aliran data. Meskipun pratinjau data tidak menulis data, debug berjalan akan menulis data ke tujuan sink Anda.

  1. Pergi ke kanvas alur. Klik Debug untuk memicu eksekusi debug.

  2. Debug alur aktivitas aliran data menggunakan kluster debug aktif tetapi masih membutuhkan waktu setidaknya satu menit untuk menginisialisasi. Anda dapat melacak kemajuan melalui tab Output. Setelah eksekusi berhasil, pilih ikon kacamata untuk detail eksekusi.

  3. Pada halaman detail, Anda dapat melihat jumlah baris dan waktu yang dihabiskan untuk setiap langkah transformasi.

    Screenshot that shows a monitoring run.

  4. Klik transformasi untuk mendapatkan informasi terperinci tentang kolom dan pemartisian data.

Jika Anda mengikuti tutorial ini dengan benar, Anda harus menulis 83 baris dan 2 kolom ke dalam folder sink Anda. Anda dapat memverifikasi bahwa data sudah benar dengan memeriksa penyimpanan blob Anda.

Ringkasan

Dalam tutorial ini, Anda menggunakan antarmuka pengguna Azure Data Factory untuk membuat alur yang menyalin dan mengubah data dari sumber Azure Data Lake Storage Gen2 menjadi sink Azure Data Lake Storage Gen2 (keduanya memungkinkan akses ke hanya jaringan yang dipilih) dengan menggunakan aliran data pemetaan di Microsoft Azure Virtual Network Terkelola Azure Data Factory.