Mentransformasikan data menggunakan aliran data pemetaan

Artikel
12/09/2023

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Jika Anda baru menggunakan Azure Data Factory, lihat Pendahuluan Azure Data Factory.

Dalam tutorial ini, Anda akan menggunakan antarmuka pengguna Azure Data Factory (UX) untuk membuat alur yang menyalin dan mentransformasikan data dari sumber Azure Data Lake Storage (ADLS) Gen2 ke sink ADLS Gen2 menggunakan alur data pemetaan. Pola konfigurasi dalam tutorial ini dapat diperluas saat mentransformasikan data menggunakan alur data pemetaan

Catatan

Tutorial ini dimaksudkan untuk memetakan aliran data secara umum. Alur data tersedia baik di Azure Data Factory maupun Alur Synapse. Jika Anda baru menggunakan alur data di Alur Azure Synapse, silakan ikuti Aliran Data menggunakan Alur Azure Synapse

Dalam tutorial ini, Anda melakukan tugas-tugas berikut:

Membuat pabrik data.
Buat alur dengan aktivitas Aliran Data.
Bangun aliran data pemetaan dengan empat transformasi.
Uji coba alur.
Memantau aktivitas Aliran Data

Prasyarat

Langganan Azure. Jika tidak memiliki langganan Azure, buat akun Azure gratis sebelum Anda memulai.
Akun Microsoft Azure Storage. Anda menggunakan penyimpanan ADLS sebagai penyimpanan data sumber dan sink. Jika Anda tidak memiliki akun penyimpanan Azure, lihat artikel Membuat akun penyimpanan Azure untuk langkah-langkah pembuatannya.

File yang kita transformasi dalam tutorial ini adalah MoviesDB.csv, yang dapat ditemukan di sini. Untuk mengambil file dari GitHub, salin konten ke editor teks pilihan Anda untuk disimpan secara lokal sebagai file .csv. Untuk mengunggah file ke akun penyimpanan Anda, lihat Mengunggah blob dengan portal Microsoft Azure. Contohnya akan merujuk kontainer bernama 'sample-data'.

Membuat pabrik data

Dalam langkah ini, Anda membuat pabrik data dan membuka UX Azure Data Factory untuk membuat alur di pabrik data.

Buka Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Azure Stack Edge dan Google Chrome.
Di menu sebelah kiri, pilih Buat sumber daya>Integrasi>Data Factory:
Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

Nama pabrik data Azure harus bersifat unik secara global. Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. (misalnya, yournameADFTutorialDataFactory). Untuk aturan penamaan artefak Data Factory, lihat artikel aturan penamaan Data Factory.
Pilih langganan Azure Anda tempat Anda ingin membuat pabrik datanya.
Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

a. Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari menu drop-down.

b. Pilih Buat baru, lalu masukkan nama grup sumber daya.

Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.
Di bawah Versi, pilih V2.
Di bawah Lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.
Pilih Buat.
Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka sumber daya untuk masuk ke halaman pabrik Data.
Klik Pembuat & Monitor untuk meluncurkan antarmuka pengguna Azure Data Factory di tab terpisah.

Buat alur dengan aktivitas Aliran Data

Dalam langkah ini, Anda akan membuat alur yang berisi aktivitas Aliran Data.

Di halaman beranda Azure Data Factory, pilih Orkestrasi.
Di tab Umum untuk alur, masukkanTransformMovies untuk Nama alur.
Di panel Aktivitas, perluas akordeon Pindah dan Transformasi. Seret dan letakkan aktivitas Aliran Data dari panel ke kanvas alur.
Di pop-up Menambahkan Aliran Data, pilih Buat Alur Data baru lalu beri nama alur data Anda TransformMovies. Klik Selesai jika sudah selesai.
Di bilah atas kanvas alur, geser penggeser debug Aliran Data ke aktif. Mode debug memungkinkan pengujian interaktif logika transformasi terhadap kluster Spark langsung. Kluster Aliran Data membutuhkan waktu pemanasan 5-7 menit dan pengguna disarankan untuk mengaktifkan debug terlebih dahulu jika berencana untuk melakukan pengembangan Aliran Data. Untuk informasi selengkapnya, lihat Mode Debug.

Bangun logika transformasi di kanvas aliran data

Setelah membuat Aliran Data, Anda akan dikirim secara otomatis ke kanvas aliran data. Jika Anda tidak diarahkan ke kanvas aliran data, di panel di bawah kanvas, buka Pengaturan dan pilih Buka, yang terletak di samping bidang aliran data. Ini akan membuka kanvas aliran data.

Screenshot showing how to open the data flow editor from the pipeline editor.

Dalam langkah ini, Anda akan membangun aliran data yang mengambil moviesDB.csv penyimpanan ADLS dan mengagregasi peringkat rata-rata komedi dari 1910 hingga 2000. Anda kemudian akan menulis kembali file ini ke penyimpanan ADLS.

Di kanvas aliran data, tambahkan sumber dengan mengklik kotak Tambahkan Sumber.
Beri nama sumber Anda MoviesDB. Klik Baru untuk membuat set data sumber baru.
Pilih Azure Data Lake Storage Gen2. Klik Lanjutkan.
Pilih DelimitedText. Klik Lanjutkan.
Beri nama himpunan data Anda MoviesDB. Di dropdown layanan tertaut, pilih Baru.
Di layar pembuatan layanan yang ditautkan, beri nama layanan tertaut ADLS gen2 Anda ADLSGen2 dan tentukan metode autentikasi Anda. Lalu masukkan informasi masuk koneksi Anda. Dalam tutorial ini, kami menggunakan Kunci akun untuk terhubung ke akun penyimpanan kami. Anda dapat mengklik Uji koneksi untuk memverifikasi bahwa info masuk Anda dimasukkan dengan benar. Klik Buat saat selesai.
Setelah Anda kembali ke layar pembuatan himpunan data, masukkan lokasi file Anda di bawah bidang Jalur file. Dalam tutorial ini, file moviesDB.csv terletak di sampel-data kontainer. Saat file memiliki header, centang Baris pertama sebagai header. Pilih Dari koneksi/penyimpanan untuk mengimpor skema header langsung dari file dalam penyimpanan. Klik Oke jika selesai.
Jika kluster debug Anda telah dimulai, buka tab Pratinjau Data dari transformasi sumber dan klik Refresh untuk mendapatkan rekam jepret data. Anda dapat menggunakan pratinjau data untuk memverifikasi bahwa transformasi Anda dikonfigurasi dengan benar.
Di samping node sumber Anda pada kanvas aliran data, klik ikon plus untuk menambahkan transformasi baru. Transformasi pertama yang Anda tambahkan adalah Filter.
Beri nama filter transformasi Anda FilterYears. Klik pada kotak ekspresi di samping Filter berdasarkan untuk membuka penyusun ekspresi. Di sini Anda akan menentukan kondisi pemfilteran Anda.
Penyusun ekspresi aliran data memungkinkan Anda membangun ekspresi secara interaktif yang digunakan dalam berbagai transformasi. Ekspresi dapat menyertakan fungsi bawaan, kolom dari skema input, dan parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang cara menyusun ekspresi, lihat Penyusun ekspresi Aliran Data.

Dalam tutorial ini, Anda ingin memfilter film genre komedi yang keluar antara tahun 1910 dan 2000. Karena tahun saat ini adalah untai (karakter), Anda perlu mengonversinya menjadi bilangan bulat menggunakan fungsi toInteger(). Gunakan operator yang lebih besar dari atau sama dengan (>=) dan lebih kecil dari atau sama dengan (<=) untuk membandingkan dengan nilai tahun harfiah 1910 dan 2000. Satukan ekspresi ini bersama dengan dan operator (&&). Ekspresi akan keluar sebagai:

toInteger(year) >= 1910 && toInteger(year) <= 2000

Untuk menemukan film mana yang merupakan komedi, Anda dapat menggunakan fungsi rlike() untuk menemukan pola 'Komedi' dalam genre kolom. Satukan ekspresi rlike dengan perbandingan tahun untuk mendapatkan:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Jika kluster debug aktif, Anda dapat memverifikasi logika dengan mengklik Refresh untuk melihat output ekspresi dibandingkan dengan input yang digunakan. Ada lebih dari satu jawaban yang tepat tentang bagaimana Anda dapat menyelesaikan logika ini menggunakan bahasa ekspresi aliran data.

Klik Simpan dan Selesai setelah selesai dengan ekspresi Anda.
Ambil Pratinjau Data untuk memverifikasi bahwa filter berfungsi dengan benar.
Transformasi berikutnya yang akan Anda tambahkan adalah transformasi Agregat di bawah pengubah Skema.
Beri nama transformasi agregat Anda AggregateComedyRatings. Di tab Kelompokkan menurut, pilih tahun dari dropdown untuk mengelompokkan agregasi menurut tahun film yang telah keluar.
Masuk ke tab Agregat. Di kotak teks kiri, beri nama kolom agregat AverageComedyRating. Klik kotak ekspresi di sebelah kanan untuk memasukkan ekspresi agregat melalui pembuat ekspresi.
Untuk mendapatkan rata-rata kolom Peringkat, gunakan avg() fungsi agregat. Karena Peringkat adalah untai (karakter) dan avg() mengambil input numerik, kita harus mengonversi nilai ke angka melalui fungsi toInteger(). Ini adalah ekspresi terlihat seperti:

avg(toInteger(Rating))

Klik Simpan dan Selesai saat selesai.
Masuk ke tab Pratinjau Data untuk melihat output transformasi. Perhatikan hanya dua kolom yang ada di sana, tahun dan AverageComedyRating.
Selanjutnya, Anda ingin menambahkan transformasi Sink di bawah Tujuan.
Beri nama sink Anda Sink. Klik Baru untuk membuat himpunan data sink Anda.
Pilih Azure Data Lake Storage Gen2. Klik Lanjutkan.
Pilih DelimitedText. Klik Lanjutkan.
Beri nama set data sink Anda MoviesSink. Untuk layanan tertaut, pilih layanan tertaut ADLS gen2 yang Anda buat di langkah 6. Masukkan folder output untuk menulis data Anda. Dalam tutorial ini, kita menulis ke folder 'output' dalam kontainer 'sample-data'. Folder tidak perlu ada sebelumnya dan dapat dibuat secara dinamis. Atur Baris pertama sebagai header ke true dan pilih Tidak ada untuk Skema impor. Klik Selesai.

Sekarang Anda sudah selesai membangun aliran data Anda. Anda siap untuk menjalankannya pada pipeline.

Menjalankan dan memantau Aliran Data

Anda dapat men-debug alur sebelum memublikasikannya. Dalam langkah ini, Anda akan memicu proses debug dari pipeline aliran data. Meskipun pratinjau data tidak menulis data, proses debug akan menulis data ke tujuan sink Anda.

Pergi ke kanvas alur. Klik Debug untuk memicu proses debug.
Debug pipeline aktivitas Aliran Data menggunakan kluster debug aktif, tetapi masih membutuhkan waktu setidaknya satu menit untuk diinisialisasi. Anda dapat melacak proses melalui tab Output. Setelah proses berhasil, klik ikon kacamata untuk membuka panel pemantauan.
Di panel pemantauan, Anda dapat melihat jumlah baris dan waktu yang dihabiskan di setiap langkah transformasi.
Klik transformasi untuk mendapatkan informasi terperinci tentang kolom dan pemartisian data.

Jika Anda mengikuti tutorial ini dengan benar, Anda harus menulis 83 baris dan 2 kolom ke dalam folder sink Anda. Anda dapat memverifikasi bahwa data sudah benar dengan memeriksa penyimpanan blob Anda.

Alur dalam tutorial ini menjalankan aliran data yang menggabungkan peringkat rata-rata komedi dari 1910 hingga 2000 dan menulis data ke ADLS. Anda mempelajari cara untuk:

Membuat pabrik data.
Buat alur dengan aktivitas Aliran Data.
Bangun aliran data pemetaan dengan empat transformasi.
Uji coba alur.
Memantau aktivitas Aliran Data

Pelajari selengkapnya tentang bahasa ekspresi aliran data.