Salin data dari penyimpanan Blob Azure ke database di Azure SQL Database dengan menggunakan Azure Data Factory

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam tutorial ini, Anda membuat pabrik data dengan menggunakan antarmuka pengguna (UI) Azure Data Factory. Alur di pabrik data ini menyalin data dari penyimpanan Blob Azure ke database di Azure SQL Database. Pola konfigurasi di tutorial ini berlaku untuk menyalin dari penyimpanan data berbasis file ke penyimpanan data relasional. Untuk daftar penyimpanan data yang didukung sebagai sumber dan sink, lihat tabel penyimpanan data yang didukung.

Catatan

Jika Anda baru menggunakan Azure Data Factory, lihat Pengantar Azure Data Factory.

Di tutorial ini, Anda melakukan langkah-langkah berikuti:

  • Membuat pabrik data.
  • Membuat alur dengan aktivitas salinan.
  • Uji coba alur.
  • Memicu alur secara manual.
  • Memicu alur sesuai jadwal.
  • Pantau eksekusi alur dan aktivitas.

Prasyarat

  • Langganan Azure. Jika tidak memiliki langganan Azure, buat akun Azure gratis sebelum Anda memulai.
  • Akun Microsoft Azure Storage. Anda menggunakan penyimpanan Blob sebagai penyimpanan data sumber. Jika Anda tidak memiliki akun penyimpanan Azure, lihat artikel Membuat akun penyimpanan Azure untuk langkah-langkah pembuatannya.
  • Microsoft Azure SQL database. Anda menggunakan database sebagai penyimpanan data sink. Jika Anda belum memiliki database di Azure SQL Database, lihat Buat database di Azure SQL Database untuk mengetahui langkah-langkah membuatnya.

Buat blob dan tabel SQL

Sekarang, siapkan penyimpanan Blob Anda dan database SQL untuk tutorial dengan melakukan langkah-langkah berikut.

Membuat blob sumber

  1. Luncurkan Notepad. Salin teks berikut dan simpan sebagai file emp.txt di disk Anda:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Buat kontainer bernama adftutorial di penyimpanan Blob Anda. Buat folder bernama input dalam kontainer ini. Lalu, unggah file emp.txt ke folder input. Gunakan portal Microsoft Azure atau alat seperti Penjelajah Azure Storage untuk melakukan tugas ini.

Buat tabel SQL sink

  1. Gunakan skrip SQL berikut ini untuk membuat tabel dbo.emp di database Anda:

    CREATE TABLE dbo.emp
    (
        ID int IDENTITY(1,1) NOT NULL,
        FirstName varchar(50),
        LastName varchar(50)
    )
    GO
    
    CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
    
  2. Izinkan Layanan Azure untuk mengakses SQL Server. Pastikan bahwa Izinkan akses ke layanan Azure adalah AKTIF untuk SQL Server Anda sehingga Data Factory dapat menulis data ke SQL Server Anda. Untuk memverifikasi dan mengaktifkan pengaturan ini, buka >Gambaran umum> server SQL logis Atur firewall server> atur opsi Izinkan akses ke layanan Azure ke ON.

Membuat pabrik data

Dalam langkah ini, Anda membuat pabrik data dan memulai UI Data Factory untuk membuat alur di pabrik data.

  1. Buka Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Edge dan Google Chrome.

  2. Di menu sebelah kiri, pilih Buat sumber daya>Integrasi>Data Factory.

  3. Pada halaman Buat Data Factory, di bawah tab Dasar, pilih Langganan Azure tempat Anda ingin membuat pabrik data.

  4. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    a. Pilih grup sumber daya yang ada di menu drop-down.

    b. Pilih Buat baru, dan masukkan nama grup sumber daya baru.

    Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  5. Di bawah Wilayah, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.

  6. Di bawah Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Azure harus bersifat unik secara global. Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. (misalnya, yournameADFTutorialDataFactory). Untuk aturan penamaan artefak Data Factory, lihat artikel aturan penamaan Data Factory.

    New data factory error message for duplicate name.

  7. Di bawah Versi, pilih V2.

  8. Pilih tab Konfigurasi Git di bagian atas, lalu pilih kotak centang Konfigurasikan Git nanti.

  9. Pilih Tinjau + buat, lalu pilih Buat setelah validasi berhasil.

  10. Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka sumber daya untuk masuk ke halaman pabrik Data.

  11. Pilih Buka pada petak peta Buka Azure Data Factory Studio untuk meluncurkan UI Azure Data Factory di tab terpisah.

Buat alur

Dalam langkah ini, Anda membuat alur dengan aktivitas salinan di pabrik data. Aktivitas salinan menyalin data dari penyimpanan Blob ke SQL Database. Dalam tutorial Mulai Cepat, Anda membuat alur dengan mengikuti langkah-langkah berikut:

  1. Buat layanan tertaut.
  2. Membuat himpunan data input dan output.
  3. Buat alur.

Dalam tutorial ini, Anda mulai dengan membuat alur. Kemudian Anda membuat layanan dan himpunan data yang ditautkan saat Anda membutuhkannya untuk mengonfigurasikan alur.

  1. Di beranda, pilih Orkestrasi.

    Screenshot that shows the ADF home page.

  2. Di panel Umum di bawah Properti, tetapkan CopyPipeline untuk Nama. Kemudian ciutkan panel dengan mengeklik ikon Properti di pojok kanan atas.

  3. Dalam kotak alat Aktivitas, luaskan kategori Pindahkan dan Transformasi, lalu tarik dan lepas aktivitas Salin Data dari kotak alat ke permukaan perancang alur. Tentukan CopyFromBlobToSql untuk Nama.

    Copy activity

Konfigurasikan sumber

Tip

Dalam tutorial ini, Anda menggunakan Kunci akun sebagai jenis autentikasi penyimpanan data sumber Anda, tetapi Anda dapat memilih metode autentikasi lain yang didukung: SAS URI,Perwakilan Layanan dan Identitas Terkelola jika diperlukan. Lihat bagian terkait dalam artikel ini untuk detailnya. Untuk menyimpan rahasia untuk penyimpanan data dengan aman, disarankan juga untuk menggunakan Azure Key Vault. Lihat artikel ini untuk ilustrasi lebih detail.

  1. Masuk ke tabSumber. Pilih + Baru untuk membuat himpunan data sumber.

  2. Di kotak dialog Himpunan Data Baru, pilih Azure Blob Storage, lalu pilih Lanjutkan. Data sumber berada di penyimpanan Blob, sehingga Anda memilih Azure Blob Storage untuk himpunan data sumber.

  3. Di kotak dialog Pilih Format, pilih jenis format data Anda, lalu pilih Lanjutkan.

  4. Di kotak dialog Atur Properti, masukkan SourceBlobDataset untuk Nama. Pilih kotak centang untuk Baris pertama sebagai header. Di samping kotak teks Layanan tertaut, pilih + Baru.

  5. Di kotak dialog Layanan Tertaut Baru (Azure Blob Storage), masukkan AzureStorageLinkedService sebagai nama, pilih akun penyimpanan Anda dari daftar Nama akun penyimpanan. Pengujian koneksi, pilih Buat untuk menyebarkan layanan tertaut.

  6. Setelah layanan tertaut dibuat, layanan akan kembali ke halaman Atur properti. Di samping Jalur file, pilih Telusuri.

  7. Masuk ke folder adftutorial/input, pilih file emp.txt, lalu pilih OK.

  8. Pilih OK. Hal ini secara otomatis masuk ke halaman alur. Di tab Sumber, konfirmasikan bahwa SourceBlobDataset dipilih. Untuk melihat data di halaman ini, pilih Data pratinjau.

    Source dataset

Konfigurasikan sink

Tip

Dalam tutorial ini, Anda menggunakan SQL Authentication sebagai jenis autentikasi penyimpanan data sink Anda, tetapi Anda dapat memilih metode autentikasi lain yang didukung: Perwakilan Layanan dan Identitas Terkelola jika diperlukan. Lihat bagian terkait dalam artikel ini untuk detailnya. Untuk menyimpan rahasia untuk penyimpanan data dengan aman, disarankan juga untuk menggunakan Azure Key Vault. Lihat artikel ini untuk ilustrasi lebih detail.

  1. Buka tab Sink, dan pilih + Baru untuk membuat himpunan data sink.

  2. Di kotak dialog Himpunan Data Baru, masukkan "SQL" di kotak pencarian untuk memfilter konektor, pilih Azure SQL Database, lalu pilih Lanjutkan. Dalam tutorial ini, Anda menyalin data ke database SQL.

  3. Di kotak dialog Atur Properti, masukkan OutputSqlDataset untuk Nama. Dari daftar menurun Layanan tertaut, pilih + Baru. Himpunan data harus dikaitkan dengan layanan tertaut. Layanan tertaut memiliki string koneksi yang digunakan Data Factory untuk menyambungkan ke SQL Database pada runtime bahasa umum. Himpunan data menentukan kontainer, folder, dan file (opsional) tempat data disalin.

  4. Di kotak dialog Layanan Tertaut Baru (Azure SQL Database), lakukan langkah-langkah berikut ini:

    a. Di bawahNama, masukkan AzureSqlDatabaseLinkedService.

    b. Di bawah Nama server, pilih instans SQL Server Anda.

    c. Di bawah Nama database, pilih database Anda.

    d. Di bawahNama pengguna, masukkan nama pengguna.

    e. Di bawah Kata sandi, masukkan kata sandi untuk pengguna.

    f. Klik Pengujian koneksi untuk menguji koneksi.

    g. Pilih Buat untuk menyebarkan layanan tertaut.

    Save new linked service

  5. Hal ini secara otomatis mengarahkan ke kotak dialog Atur Properti. Dalam Tabel, pilih [dbo].[ emp]. Kemudian pilih OK.

  6. Buka tab dengan alur, dan di Himpunan data sink, konfirmasikan bahwa OutputSqlDataset dipilih.

    Pipeline tab

Anda dapat secara opsional memetakan skema sumber ke skema tujuan yang sesuai dengan mengikuti Pemetaan skema dalam aktivitas salinan.

Memvalidasi alur

Untuk memvalidasi alur, pilih Validasi dari bar alat.

Anda dapat melihat kode JSON yang terkait dengan alur dengan mengklik Kode di kanan atas.

Men-debug dan menerbitkan alur

Anda dapat men-debug alur sebelum menerbitkan artefak (layanan tertaut, himpunan data, dan alur) ke Data Factory atau repositori Azure Repos Git Anda sendiri.

  1. Untuk men-debug alur, pilih Debug pada toolbar. Anda akan melihat status eksekusi alur di tab Output di bagian bawah jendela.

  2. Setelah alur berhasil dijalankan, di toolbar bagian atas, pilih Terbitkan semua. Tindakan ini menerbitkan entitas (himpunan data, dan alur) yang Anda buat ke Data Factory.

  3. Tunggu hingga Anda melihat pesan Berhasil diterbitkan. Untuk melihat pesan pemberitahuan, klik tombol Perlihatkan Pemberitahuan di kanan atas (tombol bel).

Memicu eksekusi alur secara manual

Dalam langkah ini, Anda secara manual memicu alur yang Anda terbitkan di langkah sebelumnya.

  1. Pilih Pemicu pada toolbar, lalu pilih Picu Sekarang. Pada halaman Eksekusi alur, pilih OK.

  2. Buka tab Pemantauan di sebelah kiri. Anda melihat eksekusi alur yang dipicu oleh pemicu manual. Anda dapat menggunakan tautan di bawah kolom NAMA ALUR untuk menampilkan detail aktivitas dan untuk menjalankan ulang alur.

    Monitor pipeline runs

  3. Untuk melihat eksekusi aktivitas yang terkait dengan eksekusi alur, pilih tautan CopyPipeline di bawah kolom NAMA ALUR. Dalam contoh ini, hanya ada satu aktivitas, sehingga Anda hanya melihat satu entri dalam daftar. Untuk detail tentang operasi salinan, pilih tautan Detail (ikon kacamata) di bawah kolom NAMA AKTIVITAS. Pilih Semua eksekusi alur di bagian atas untuk kembali ke tampilan Eksekusi Alur. Untuk me-refresh tampilan, pilih Refresh.

    Monitor activity runs

  4. Periksa bahwa dua baris lagi ditambahkan ke tabel emp di database.

Memicu alur sesuai jadwal

Dalam jadwal ini, Anda membuat pemicu jadwal untuk alur. Pemicu menjalankan alur pada jadwal yang ditentukan, seperti per jam atau harian. Di sini Anda mengatur pemicu untuk berjalan setiap menit hingga tanggalwaktu akhir ditentukan.

  1. Masuk ke tab Pembuat di sebelah kiri di atas tab pemantauan.

  2. Buka alur Anda, klik Pemicu pada bilah alat, dan pilih Baru/Edit.

  3. Di kotak dialog Tambahkan pemicu, pilih + Baru untuk area Pilih pemicu.

  4. Di jendela Pemicu Baru, lakukan langkah-langkah berikut ini:

    a. Di bawah Nama, Masukkan RunEveryMinute.

    b. Perbarui tanggal Mulai untuk pemicu Anda. Jika tanggal adalah sebelum tanggalwaktu saat ini, pemicu akan mulai berlaku setelah perubahan diterbitkan.

    c. Di bawah Zona waktu, pilih menu drop-down.

    d. Atur Pengulangan ke Setiap 1 menit.

    e. Pilih kotak centang untuk Menentukan tanggal selesai, dan perbarui bagian Berakhir Pada menjadi beberapa menit melewati tanggalwaktu saat ini. Pemicu diaktifkan hanya setelah Anda mempublikasikan perubahan. Jika Anda mengaturnya hanya beberapa menit terpisah, dan Anda tidak mempublikasikannya pada saat itu, Anda tidak melihat pemicu berjalan.

    f. Untuk opsi Diaktifkan, pilih Ya.

    g. Pilih OK.

    Penting

    Biaya dikaitkan dengan masing-masing eksekusi alur, jadi atur tanggal selesai dengan tepat.

  5. Pada halaman Pemicu edit, tinjau peringatan, lalu pilih Simpan. Alur dalam contoh ini tidak mengambil parameter apa pun.

  6. Klik Terbitkan semua untuk menerbitkan perubahan.

  7. Buka tab Pemantauan di sebelah kiri untuk melihat eksekusi alur yang dipicu.

    Triggered pipeline runs

  8. Untuk beralih dari tampilan Eksekusi Alur ke tampilan Eksekusi Pemicu, pilih Eksekusi Pemicu di sisi kiri jendela.

  9. Anda melihat pemicu berjalan dalam daftar.

  10. Pastikan bahwa dua baris per menit (untuk masing-masing eksekusi alur) dimasukkan ke dalam tabel emp hingga waktu akhir yang ditentukan.

Alur dalam sampel ini menyalin data dari satu lokasi ke lokasi lain dalam penyimpanan Blob. Anda mempelajari cara untuk:

  • Membuat pabrik data.
  • Membuat alur dengan aktivitas salinan.
  • Uji coba alur.
  • Memicu alur secara manual.
  • Memicu alur sesuai jadwal.
  • Pantau eksekusi alur dan aktivitas.

Lanjutkan ke tutorial berikut untuk mempelajari cara menyalin data dari lingkungan lokal ke cloud: