Mulai cepat: Membuat pabrik data dengan menggunakan UI Azure Data Factory

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Mulai cepat ini menjelaskan cara menggunakan antarmuka pengguna Azure Data Factory untuk membuat dan memantau pabrik data. Alur yang Anda buat di pabrik data ini menyalin data dari satu folder ke folder lain dalam penyimpanan Azure Blob. Untuk mengubah data menggunakan Azure Data Factory, lihat Memetakan aliran data.

Catatan

Jika Anda baru pernah menggunakan Azure Data Factory, lihat Pengantar Azure Data Factory sebelum melakukan mulai cepat ini.

Prasyarat

Langganan Azure

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Peran Azure

Untuk membuat instans Data Factory, akun pengguna yang Anda gunakan untuk masuk ke Azure harus menjadi anggota peran kontributor atau peran pemilik, atau administrator langganan Azure. Untuk menampilkan izin yang Anda miliki di langganan, di portal Microsoft Azure, pilih nama pengguna Anda di sudut kanan atas, lalu " ... " ikon untuk opsi selengkapnya, lalu pilih Izin saya. Jika Anda memiliki akses ke beberapa langganan, pilih langganan yang sesuai.

Untuk membuat dan mengelola sumber daya anak untuk Data Factory - termasuk himpunan data, layanan tertaut, alur, pemicu, dan runtime integrasi - persyaratan berikut ini berlaku:

  • Untuk membuat dan mengelola sumber daya anak di portal Microsoft Azure, Anda harus memiliki peran Kontributor Data Factory di tingkat Grup Sumber Daya atau di atasnya.
  • Untuk membuat dan mengelola sumber daya anak dengan PowerShell atau SDK, peran kontributor di tingkat sumber daya atau di atasnya cukup.

Untuk sampel instruksi tentang cara menambahkan pengguna ke peran, lihat artikel Menambahkan peran.

Untuk informasi selengkapnya, baca artikel berikut:

Akun Azure Storage

Anda menggunakan akun Azure Storage serba guna (khususnya penyimpanan Blob) sebagai sumber dan tujuan penyimpanan data dalam mulai cepat ini. Jika Anda tidak memiliki akun penyimpanan Azure Storage serba guna, lihat Buat akun penyimpanan untuk membuatnya.

Dapatkan nama akun penyimpanan

Anda memerlukan nama akun Azure Storage Anda untuk mulai cepat ini. Prosedur berikut ini menyediakan langkah-langkah untuk mendapatkan nama akun penyimpanan Anda:

  1. Di browser web, buka portal Microsoft Azure, lalu masuk menggunakan nama pengguna dan kata sandi Azure Anda.
  2. Dari menu portal Microsoft Azure, pilih Semua layanan, lalu pilih Penyimpanan > Akun penyimpanan. Anda juga dapat mencari dan memilih Akun penyimpanan dari halaman mana pun.
  3. Dalam halaman Akun penyimpanan, filter untuk akun penyimpanan Anda (jika diperlukan), lalu pilih akun penyimpanan Anda.

Anda juga dapat mencari dan memilih Akun penyimpanan dari halaman mana pun.

Membuat kontainer blob

Di bagian ini, Anda membuat kontainer blob bernama adftutorial di penyimpanan Azure Blob.

  1. Dari halaman akun penyimpanan, pilih Gambaran > Kontainer.

  2. Pada bar alat halaman <Account name> - Kontainer, select Kontainer.

  3. Di Kotak dialog Kontainer baru, masukkan adftutorial untuk nama, lalu pilih OK. Halaman <Account name> - Kontainer diperbarui untuk menyertakan adftutorial dalam daftar kontainer.

    Daftar kontainer

Menambahkan folder input dan file untuk kontainer blob

Di bagian ini, Anda membuat folder bernama input dalam kontainer yang Anda buat, lalu mengunggah file sampel ke folder input. Sebelum memulai, buka editor teks seperti Notepad, dan buat file bernama emp.txt dengan konten berikut:

John, Doe
Jane, Doe

Simpan file di folder C:\ADFv2QuickStartPSH. (Jika folder belum ada, buatlah.) Lalu kembali ke portal Microsoft Azure dan ikuti langkah-langkah berikut:

  1. Di halaman <Account name> - Kontainer di mana Anda tinggalkan, pilih adftutorial dari daftar kontainer yang diperbarui.

    1. Jika Anda menutup jendela atau pergi ke halaman lain, masuk lagi ke portal Microsoft Azure.
    2. Dari menu portal Microsoft Azure, pilih Semua layanan, lalu pilih Penyimpanan > Akun penyimpanan. Anda juga dapat mencari dan memilih Akun penyimpanan dari halaman mana pun.
    3. Pilih akun penyimpanan Anda, lalu pilih Kontainer > adftutorial.
  2. Pada bar alat halaman kontainer adftutorial, pilih Unggah.

  3. Di halaman Unggah blob, pilih kotak File, lalu telusuri dan pilih file emp.txt.

  4. Memperluas judul Tingkat Lanjut. Halaman sekarang ditampilkan seperti yang ditunjukkan:

    Pilih tautan Tingkat lanjut

  5. Di kotak Unggah ke folder, masukkan input.

  6. Pilih tombol Unggah. Anda akan melihat file emp.txt dan status unggahan dalam daftar.

  7. Pilih ikon Tutup (X) untuk menutup halaman Unggah blob.

Buka halaman kontainer adftutorial. Anda menggunakannya untuk memverifikasi output di akhir mulai cepat ini.

Video

Menonton video ini membantu Anda memahami antarmuka pengguna Data Factory:

Membuat pabrik data

  1. Luncurkan browser web Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Edge dan Google Chrome.

  2. Buka portal Microsoft Azure.

  3. Di portal Microsoft Azure, pilih Buat sumber daya.

  4. Pilih Integrasi, lalu pilih Pabrik Data.

    Pilihan Data Factory di panel Baru.

  5. Pada halaman Buat Pabrik Data, di bawah tab Dasar, pilih Langganan Azure tempat Anda ingin membuat pabrik data.

  6. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut ini:

    a. Pilih grup sumber daya yang ada di menu drop-down.

    b. Pilih Buat baru, dan masukkan nama grup sumber daya baru.

    Untuk mempelajari informasi grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  7. Untuk Wilayah, pilih lokasi pabrik data.

    Daftar ini hanya memperlihatkan lokasi yang didukung Data Factory, dan tempat data meta Azure Data Factory Anda akan disimpan. Penyimpanan (seperti Azure Storage dan Azure SQL Database) dan komputasi (seperti Azure HDInsight) data terkait yang digunakan Data Factory dapat berjalan di wilayah lain.

  8. Untuk Nama, masukkan ADFTutorialDataFactory. Nama pabrik data Azure harus unik secara global. Jika Anda menerima kesalahan berikut, ubah nama pabrik data (contohnya, <yourname>ADFTutorialDataFactory) dan coba buat lagi. Untuk penamaan aturan untuk artefak Pabrik Data, lihat artikel Pabrik Data - aturan penamaan.

    Pesan kesalahan pabrik data baru untuk nama duplikat.

  9. Untuk Versi, pilih V2.

  10. Pilih Berikutnya: Konfigurasi Git, lalu pilih kotak centang Konfigurasikan Git nanti.

  11. Pilih Tinjau + buat, dan pilih Buat setelah validasi berhasil. Setelah selesai membuat, pilih Buka sumber daya untuk menavigasi ke halaman Pabrik Data.

  12. Pilih Buka pada petak peta Open Azure Data Factory Studio untuk memulai aplikasi antarmuka pengguna (UI) Azure Data Factory pada tab browser terpisah.

    Halaman beranda untuk Azure Data Factory, dengan petak peta Open Azure Data Factory Studio.

    Catatan

    Jika browser web Anda tersendat di bagian "Otorisasi", hapus centang pada kotak centang Blokir cookie pihak ketiga dan data situs. Atau biarkan tercentang, dan buat pengecualian untuk login.microsoftonline.com, lalu coba buka aplikasi lagi.

Membuat layanan tertaut

Dalam prosedur ini, Anda membuat layanan tertaut untuk menautkan akun Azure Storage Anda ke pabrik data. Layanan tertaut memiliki informasi sambungan yang digunakan layanan Data Factory saat runtime bahasa umum untuk menyambungkan ke situ.

  1. Pada halaman antarmuka pengguna Azure Data Factory, buka tab Kelola di panel sebelah kiri.

  2. Pada halaman layanan tertaut, pilih +Baru untuk membuat layanan tertaut baru.

    Layanan tertaut baru.

  3. Di halaman Layanan Tertaut Baru, pilih Azure Blob Storage, lalu pilih Lanjutkan.

  4. Pada halaman Layanan Tertaut Baru (Azure Blob Storage), selesaikan langkah-langkah berikut ini:

    a. Untuk Nama, masukkan AzureStorageLinkedService.

    b. Untuk Nama akun penyimpanan, pilih nama akun Azure Storage Anda.

    c. Pilih Pengujian koneksi untuk mengonfirmasi bahwa layanan Data Factory dapat tersambung ke akun penyimpanan.

    d. Pilih Buat untuk menyimpan layanan tertaut.

    Layanan tertaut.

Membuat himpunan data

Dalam prosedur ini, Anda akan membuat dua himpunan data: InputDataset dan OutputDataset. Himpunan data ini merupakan jenis dari AzureBlob. Mereka merujuk ke layanan tertaut Azure Storage yang Anda buat di bagian sebelumnya.

HImpunan data input mewakili data sumber di folder input. Dalam definisi himpunan data input, tentukan kontainer blob (adftutorial), folder (input), dan file (emp.txt) yang berisi data sumber.

Himpunan data output menunjukkan data yang disalin ke tujuan. Dalam definisi himpunan data output, tentukan kontainer blob (adftutorial), folder (output), dan file tempat data disalin. Setiap eksekusi alur memiliki ID unik yang terkait dengannya. Anda dapat mengakses ID ini dengan menggunakan variabel sistem RunId. Nama file output dievaluasi secara dinamis berdasarkan ID eksekusi alur.

Di pengaturan layanan tertaut, Anda sudah menentukan akun Azure Storage yang memuat data sumber. Di pengaturan himpunan data sumber, tetapkan di mana tepatnya data sumber berada (kontainer blob, folder, dan file). Dalam pengaturan himpunan data sink, tentukan ke mana data disalin (kontainer blob, folder, dan file).

  1. Pilih tab Pembuat di panel sebelah kiri.

  2. Pilih tombol (plus) + , lalu pilih Himpunan Data.

    Menu untuk membuat himpunan data.

  3. Pada halaman Himpunan Data Baru, pilih Azure Blob Storage, lalu pilih Lanjutkan.

  4. Pada halaman Pilih Format, pilih jenis format data Anda, lalu pilih Lanjutkan. Dalam kasus ini, pilih Binary saat menyalin file apa adanya tanpa mengurai isinya.

    Pilih format.

  5. Pada halaman Atur Properti, selesaikan langkah-langkah berikut ini:

    a. Di bawah Nama, masukkan InputDataset.

    b. Untuk Layanan tertaut, pilih AzureStorageLinkedService.

    c. Untuk Jalur file, pilih tombol Telusur.

    d. Di jendela Pilih file atau folder, telusuri ke folder input di kontainer adftutorial, pilih file emp.txt, lalu pilih OK.

    e. Pilih OK.

    Atur properti untuk InputDataset.

  6. Ulangi langkah-langkah ini untuk membuat himpunan data output:

    a. Pilih tombol (plus) + , lalu pilih Himpunan Data.

    b. Pada halaman Himpunan Data Baru, pilih Azure Blob Storage, lalu pilih Lanjutkan.

    c. Pada halaman Pilih Format, pilih jenis format data Anda, lalu pilih Lanjutkan.

    d. Pada halaman Atur Properti, tetapkan OutputDataset sebagai namanya. Pilih AzureStorageLinkedService sebagai layanan tertaut.

    e. Di bawah Jalur file, masukkan adftutorial/output. Jika folder output tidak ada, aktivitas penyalinan membuatnya pada saat runtime bahasa umum.

    f. Pilih OK.

    Atur properti untuk OutputDataset.

Membuat alur

Dalam prosedur ini, Anda membuat dan memvalidasi alur dengan aktivitas penyalinan yang menggunakan himpunan data input dan output. Aktivitas penyalinan menyalin data dari file yang Anda tentukan di pengaturan himpunan data input ke file yang Anda tentukan di pengaturan himpunan data output. Jika himpunan data input hanya menentukan folder (bukan nama file), aktivitas penyalinan menyalin semua file di folder sumber ke tujuan.

  1. Pilih tombol (plus) + , lalu pilih Alur.

  2. Di panel Umum di bawah Properti, tetapkan CopyPipeline untuk Nama. Lalu ciutkan panel dengan mengeklik ikon Properti di pojok kanan atas.

  3. Di kotak alat Aktivitas, perluas Pindah & Transformasi. Tarik aktivitas Salin Data dari kotak alat Aktivitas ke permukaan perancang alur. Anda juga dapat mencari aktivitas di kotak alat Aktivitas. Tetapkan CopyFromBlobToBlob untuk Nama.

    Membuat aktivitas data salinan.

  4. Beralih ke tab Sumber di pengaturan aktivitas penyalinan, dan pilih InputDataset untuk Himpunan Data Sumber.

  5. Beralih ke tab Sink di pengaturan aktivitas penyalinan, dan pilih OutputDataset untuk Himpunan Data Sink.

  6. Klik Validasi pada toolbar alur di atas kanvas untuk memvalidasi pengaturan alur. Pastikan bahwa alur telah berhasil divalidasi. Untuk menutup output validasi, pilih tombol Validasi di sudut kanan atas.

    Memvalidasi alur.

Men-debug alur

Dalam langkah ini, Anda akan men-debug alur sebelum menyebarkannya ke Data Factory.

  1. Pada toolbar alur di atas kanvas, klik Debug untuk memicu uji coba.

  2. Pastikan Anda melihat status eksekusi alur pada tab Output di pengaturan alur di bagian bawah.

    Output eksekusi alur

  3. Pastikan Anda melihat file output di folder output dalam kontainer adftutorial. Jika folder output tidak ada, layanan Data Factory otomatis membuatnya.

Memicu eksekusi alur secara manual

Dalam prosedur ini, Anda menyebarkan entitas (layanan tertaut, himpunan data, alur) ke Azure Data Factory. Kemudian, Anda picu eksekusi alur secara manual.

  1. Sebelum memicu alur, Anda harus menerbitkan entitas ke Data Factory. Untuk menerbitkan, pilih Terbitkan semua di bagian atas.

    Terbitkan semua.

  2. Untuk memicu alur secara manual, pilih Tambahkan Pemicu pada toolbar alur, lalu pilih Picu Sekarang. Pada halaman Eksekusi alur, pilih OK.

Monitor saluran pipa

  1. Beralih ke tab Monitor di sebelah kiri. Gunakan tombol Refresh untuk merefresh daftar.

    Tab untuk memantau eksekusi alur

  2. Pilih tautan CopyPipeline, Anda akan melihat status eksekusi aktivitas penyalinan di halaman ini.

  3. Untuk melihat detail tentang operasi penyalinan, pilih tautan Detail (gambar kacamata). Untuk detail properti, lihat Gambaran umum Aktivitas Penyalinan.

    Detail operasi penyalinan.

  4. Pastikan Anda melihat file baru di folder output.

  5. Anda dapat kembali ke tampilan Eksekusi alur dari tampilan Eksekusi aktivitas dengan memilih tautan Semua eksekusi alur.

Memicu alur sesuai jadwal

Prosedur ini bersifat opsional dalam tutorial ini. Anda dapat membuat pemicu terjadwal untuk menjadwalkan eksekusi alur secara berkala (per jam, per hari, dan sebagainya). Dalam prosedur ini, Anda membuat pemicu supaya berjalan setiap menitnya hingga tanggal dan waktu selesai yang Anda tentukan.

  1. Beralih ke tab Pembuat.

  2. Masuk ke alur Anda, pilih Tambah Pemicu pada toolbar alur, lalu pilih Baru/Edit.

  3. Pada halaman Tambah Pemicu, pilih Pilih pemicu, lalu pilih Baru.

  4. Pada halaman Pemicu Baru, di bawah Akhiri, pilih Pada Tanggal, tentukan waktu selesai beberapa menit setelah waktu saat ini, lalu pilih OK.

    Ada biaya untuk setiap eksekusi alur, jadi tentukan waktu selesai hanya beberapa menit setelah waktu mulai. Pastikan bahwa itu adalah hari yang sama. Namun, pastikan ada cukup waktu bagi alur untuk dieksekusi di antara waktu penerbitan dan waktu selesai. Pemicu mulai bekerja hanya setelah Anda menerbitkan solusi ke Data Factory, bukan ketika Anda menyimpan pemicu di antarmuka pengguna.

  5. Pada halaman Pemicu Baru, pilih kotak centang Diaktifkan, lalu pilih OK.

    Pengaturan Pemicu Baru.

  6. Tinjau pesan peringatan, dan pilih OK.

  7. Pilih Terbitkan semua untuk menerbitkan perubahan pada Data Factory.

  8. Beralih ke tab Monitor di sebelah kiri. Pilih Refresh untuk merefresh daftar. Anda melihat bahwa eksekusi alur terjadi sekali setiap menit dari waktu penerbitan hingga waktu selesai.

    Perhatikan nilai di kolom DIPICU OLEH. Eksekusi pemicu manual adalah dari langkah (Picu Sekarang) yang Anda lakukan sebelumnya.

  9. Beralih ke tampilan Eksekusi pemicu.

  10. Pastikan bahwa file output dibuat untuk setiap eksekusi alur hingga tanggal dan waktu selesai yang ditentukan di folder output.

Langkah berikutnya

Alur dalam sampel ini menyalin data dari satu lokasi ke lokasi lain dalam penyimpanan Azure Blob. Untuk mempelajari cara menggunakan Data Factory dalam skenario lebih banyak, buka tutorial.