Salin data dari Azure Data Lake Storage Gen1 ke Gen2 dengan Azure Data Factory

Artikel
10/20/2023

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Azure Data Lake Storage Gen2 adalah serangkaian kemampuan yang didedikasikan untuk analitik data besar yang terpasang ke Azure Blob Storage. Anda dapat menggunakannya untuk berinteraksi dengan data Anda dengan menggunakan paradigma sistem file dan penyimpanan objek.

Jika saat ini Anda menggunakan Azure Data Lake Storage Gen1, Anda dapat mengevaluasi Azure Data Lake Storage Gen2 dengan menyalin data dari Data Lake Storage Gen1 ke Gen2 dengan menggunakan Azure Data Factory.

Azure Data Factory adalah layanan integrasi data berbasis cloud yang dikelola sepenuhnya. Anda dapat menggunakan layanan ini untuk mengisi lake dengan data dari sekumpulan penyimpanan data lokal dan berbasis awan yang kaya serta menghemat waktu saat membangun solusi analitik. Untuk daftar mendetail konektor yang didukung, lihat tabel Penyimpanan data yang didukung.

Azure Data Factory menawarkan solusi pemindahan data terkelola yang diskalakan. Karena arsitektur scale-out Data Factory, Data Factory dapat menyerap data pada throughput tinggi. Untuk mengetahui informasi selengkapnya, lihat Performa aktivitas penyalin.

Artikel ini menunjukkan kepada Anda cara menggunakan alat salin data pada Data Factory untuk menyalin data dari Azure Data Lake Storage Gen1 ke Azure Data Lake Storage Gen2. Anda dapat mengikuti langkah serupa untuk menyalin data dari jenis penyimpanan data lainnya.

Prasyarat

Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.
Akun Azure Data Lake Storage Gen1 dengan data di dalamnya.
Akun Azure Storage dengan Data Lake Storage Gen2 diaktifkan. Jika Anda belum memiliki akun Penyimpanan, buat akun.

Membuat pabrik data

Apabila Anda belum membuat pabrik data, ikuti langkah-langkah di Mulai Cepat: Membuat pabrik data menggunakan portal Azure dan Studio Azure Data Factory untuk membuatnya. Setelah membuat pabrik data, telusuri ke pabrik data di portal Azure.
Pilih Buka pada petak peta Buka Azure Data Factory Studio untuk meluncurkan Aplikasi Integrasi Data di tab terpisah.

Memuat data ke Azure Data Lake Storage Gen2

Di beranda Azure Data Factory, pilih petak peta Penyerapan untuk meluncurkan alat penyalinan data.
Di halaman Properti, pilih Tugas salin bawaan di Jenis tugas, dan pilih Jalankan sekali sekarang di Rutinitas tugas atau jadwal tugas, lalu pilih Berikutnya.
Di halaman Penyimpanan data sumber, pilih + Koneksi baru.
Pilih Azure Data Lake Storage Gen1 dari galeri konektor, dan pilih Lanjutkan.
Pada halaman Koneksi baru Azure Data Lake Storage Gen1, ikuti langkah-langkah berikut ini:
1. Pilih Data Lake Storage Gen1 Anda untuk nama akun, dan tentukan atau validasi Penyewa.
2. Pilih Uji koneksi untuk memvalidasi pengaturan. Lalu pilih Buat.
Penting

Dalam panduan ini, Anda menggunakan identitas terkelola untuk sumber daya Azure guna mengautentikasi Azure Data Lake Storage Gen1 Anda. Untuk memberikan identitas terkelola izin yang tepat di Azure Data Lake Storage Gen1, ikuti instruksi ini.
Pada halaman Penyimpanan data sumber, selesaikan langkah-langkah berikut ini.
1. Pilih koneksi yang baru saja dibuat di bagian Sambungan.
2. Di File atau folder, jelajahi folder dan file yang ingin Anda salin. Pilih folder atau file, lalu pilih OK.
3. Tentukan perilaku penyalinan dengan mencentang opsi Berulang dan Penyalinan biner. Pilih Selanjutnya.
Di halaman Penyimpanan data tujuan, pilih + Koneksi baru>Azure Data Lake Storage Gen2>Lanjutkan.
Pada halaman Koneksi baru Azure Data Lake Storage Gen2, ikuti langkah-langkah berikut ini:
1. Pilih akun berkemampuan Data Lake Storage Gen2 Anda dari daftar menurun Nama akun penyimpanan.
2. Pilih Buat untuk membuat koneksi.
Di halaman Penyimpanan data tujuan, selesaikan langkah-langkah berikut ini.
1. Pilih koneksi yang baru dibuat di blok Koneksi.
2. Di Jalur folder, masukkan copyfromadlsgen1 sebagai nama folder output, dan pilih Berikutnya. Data Factory membuat sistem file dan subfolder Azure Data Lake Storage Gen2 yang sesuai selama penyalinan jika belum ada.
Di halaman Pengaturan, tentukan CopyFromADLSGen1ToGen2 untuk bidang Nama tugas, dan pilih Berikutnya untuk menggunakan pengaturan default.
Di halaman Ringkasan, tinjau pengaturan, dan pilih Selanjutnya.
Pada Halaman penyebaran, pilih Pemantauan untuk memantau alur.
Perhatikan bahwa tab Pemantauan di sebelah kiri dipilih secara otomatis. Kolom Nama alur menyertakan tautan untuk melihat detail aktivitas yang berjalan dan untuk menjalankan kembali alur.
Untuk melihat eksekusi aktivitas yang terkait dengan eksekusi alur, pilih tautan di kolom Nama alur. Hanya ada satu aktivitas (aktivitas salin) dalam alur, jadi Anda hanya akan melihat satu entri. Untuk kembali ke tampilan alur yang dijalankan, pilih tautan Semua eksekusi yang berjalan di menu breadcrumb. Pilih Refresh untuk menyegarkan daftar.
Untuk memantau detail eksekusi untuk masing-masing aktivitas penyalinan, pilih tautan (gambar kacamata) Detail di kolom Nama aktivitas dalam tampilan pemantauan aktivitas. Anda dapat memantau detail seperti volume data yang disalin dari sumber ke sink, throughput data, langkah-langkah eksekusi dengan durasi terkait, dan konfigurasi yang digunakan.
Pastikan bahwa data disalin ke akun Azure Data Lake Storage Gen2 Anda.

Praktik Terbaik

Untuk menilai peningkatan dari Azure Data Lake Storage Gen1 ke Azure Data Lake Storage Gen2 secara umum, lihat Peningkatan solusi analitik data besar Anda dari Azure Data Lake Storage Gen1 ke Azure Data Lake Storage Gen2. Bagian berikut ini memperkenalkan praktik terbaik untuk menggunakan Data Factory untuk peningkatan data dari Data Lake Storage Gen1 ke Data Lake Storage Gen2.

Migrasi data snapshot awal

Performa

ADF menawarkan arsitektur tanpa server yang memungkinkan paralelisme pada tingkat yang berbeda, yang memungkinkan pengembang guna membuat alur untuk sepenuhnya menggunakan bandwidth jaringan Anda serta IOPS penyimpanan dan bandwidth untuk memaksimalkan throughput pergerakan data untuk lingkungan Anda.

Pelanggan telah berhasil memigrasikan petabita data yang terdiri dari ratusan juta file dari Azure Data Lake Storage Gen1 ke Gen2, dengan {i>throughput

Anda dapat mencapai kecepatan pergerakan data yang lebih besar dengan menerapkan tingkat paralelisme yang berbeda:

Satu aktivitas penyalinan dapat memanfaatkan sumber daya komputasi yang dapat diskalakan: saat menggunakan Azure Integration Runtime, Anda dapat menentukan hingga 256 unit integrasi data (DIU) untuk setiap aktivitas penyalinan dengan cara tanpa server; saat menggunakan Integration Runtime yang dihost sendiri, Anda dapat meningkatkan mesin secara manual atau meluaskan skala ke beberapa komputer (hingga 4 simpul), dan satu aktivitas penyalinan akan mempartisi filenya yang ditetapkan di semua simpul.
Satu aktivitas penyalinan membaca dari dan menulis ke penyimpanan data dengan menggunakan beberapa rangkaian.
Alur kontrol ADF dapat memulai beberapa aktivitas penyalinan secara paralel, misalnya menggunakan Untuk Setiap perulangan.

Partisi data

Jika ukuran total data Anda di Azure Data Lake Storage Gen1 kurang dari 10 TB dan jumlah file kurang dari 1 juta, Anda dapat menyalin semua data dalam satu aktivitas penyalinan yang dijalankan. Jika Anda memiliki jumlah data yang lebih besar untuk disalin, atau Anda ingin fleksibilitas untuk mengelola migrasi data dalam batch dan membuat masing-masing selesai dalam jangka waktu tertentu, lakukan partisi data. Partisi juga mengurangi risiko masalah yang tidak terduga.

Cara mempartisi file adalah dengan menggunakan name range- listAfter/listBefore di properti aktivitas penyalinan. Setiap aktivitas salinan dapat dikonfigurasi untuk menyalin satu partisi pada satu waktu, sehingga beberapa aktivitas penyalinan dapat menyalin data dari satu akun Data Lake Storage Gen1 secara bersamaan.

Pembatasan tarif

Sebagai praktik terbaik, lakukan POC performa dengan himpunan data sampel yang representatif, sehingga Anda dapat menentukan ukuran partisi yang sesuai.

Mulailah dengan partisi tunggal dan aktivitas penyalinan tunggal dengan pengaturan DIU default. Penyalinan secara paralel sebaiknya diatur dengan setelan kosong (default). Jika throughput salinan tidak baik untuk Anda, identifikasi dan selesaikan penyempitan performa dengan mengikuti langkah-langkah penyetelah performa.
Tingkatkan pengaturan DIU secara bertahap hingga Anda mencapai batas bandwidth jaringan atau batas IOPS/bandwidth penyimpanan data, atau Anda telah mencapai maksimum 256 DIU yang diizinkan pada satu aktivitas penyalinan.
Jika Anda telah memaksimalkan performa aktivitas penyalinan tunggal, tetapi belum mencapai batas atas throughput lingkungan Anda, Anda dapat menjalankan beberapa aktivitas salinan secara paralel.

Ketika Anda melihat sejumlah besar kesalahan pembatasan dari pemantauan aktivitas penyalinan, kesalahan tersebut menunjukkan bahwa Anda telah mencapai batas kapasitas akun penyimpanan Anda. ADF akan mencoba kembali secara otomatis untuk mengatasi setiap kesalahan pembatasan untuk memastikan bahwa tidak akan ada data yang hilang, tetapi percobaan ulang yang terlalu banyak juga dapat menurunkan throughput salinan Anda. Dalam kasus seperti itu, Anda dianjurkan untuk mengurangi jumlah aktivitas penyalinan yang berjalan bersamaan untuk menghindari sejumlah besar kesalahan pembatasan. Jika Anda telah menggunakan aktivitas penyalinan tunggal untuk menyalin data, maka Anda dianjurkan untuk mengurangi unit integrasi data (DIU).

Migrasi data delta

Anda dapat menggunakan beberapa pendekatan untuk memuat hanya file baru atau yang diperbarui dari Data Lake Storage Gen1:

Muat file baru atau yang diperbarui menurut waktu yang dipartisi folder atau nama file. Contohnya adalah /2019/05/13/*.
Muat file baru atau yang diperbarui oleh LastModifiedDate. Jika Anda menyalin sejumlah besar file, lakukan partisi terlebih dahulu untuk menghindari hasil throughput salinan yang rendah dari aktivitas salinan tunggal yang memindai seluruh akun Data Lake Storage Gen1 Anda untuk mengidentifikasi file baru.
Identifikasi file baru atau yang diperbarui oleh alat atau solusi pihak ketiga mana pun. Kemudian berikan nama file atau folder ke alur Data Factory melalui parameter atau tabel atau file.

Frekuensi yang tepat untuk melakukan beban inkremental tergantung pada jumlah total file di Azure Data Lake Storage Gen1 dan volume file baru atau yang diperbarui yang akan dimuat setiap saat.

Keamanan jaringan

Secara default, ADF mentransfer data dari Azure Data Lake Storage Gen1 ke Gen2 menggunakan koneksi terenkripsi melalui protokol HTTPS. HTTPS menyediakan enkripsi data dalam transit dan mencegah pengupingan/eavesdropping dan serangan man-in-the-middle.

Atau, jika Anda tidak ingin data ditransfer melalui Internet publik, Anda dapat mencapai keamanan yang lebih tinggi dengan mentransfer data melalui jaringan privat.

Mempertahankan ACL

Jika Anda ingin mereplikasi ACL bersama dengan file data saat Anda meningkatkan dari Data Lake Storage Gen1 ke Data Lake Storage Gen2, lihat Mempertahankan ACL dari Data Lake Storage Gen1.

Ketahanan

Dalam satu aktivitas penyalinan yang dijalankan, ADF memiliki mekanisme coba lagi bawaan, yang memungkinkannya untuk menangani tingkat kegagalan sementara tertentu di penyimpanan data atau di jaringan yang mendasarinya. Jika Anda memigrasikan lebih dari 10 TB data, Anda dianjurkan untuk mempartisi data untuk mengurangi risiko masalah yang tidak terduga.

Anda juga dapat mengaktifkan toleransi kegagalan dalam aktivitas penyalinan untuk melewati kesalahan yang telah ditentukan sebelumnya. Verifikasi konsistensi data dalam aktivitas penyalinan juga dapat diaktifkan untuk melakukan verifikasi tambahan guna memastikan data tidak hanya berhasil disalin dari penyimpanan sumber ke penyimpanan tujuan tetapi juga diverifikasi agar terdapat konsistensi antara penyimpanan sumber dan tujuan.

Izin

Di Data Factory, konektor Data Lake Storage Gen1 mendukung perwakilan layanan dan identitas terkelola untuk autentikasi sumber daya Azure. Di Data Factory, konektor Data Lake Storage Gen2 mendukung kunci akun, perwakilan layanan, dan identitas terkelola untuk autentikasi sumber daya Azure. Untuk membuat Data Factory dapat menavigasi dan menyalin semua file atau daftar kontrol akses (ACL), Anda harus memberikan izin yang cukup tinggi ke akun untuk mengakses, membaca, atau menulis semua file dan mengatur ACL jika Anda memilih. Anda harus memberi akun peran pengguna super atau pemilik selama periode migrasi dan menghapus izin yang ditingkatkan setelah migrasi selesai.

Salin gambaran umum aktivitas Konektor Azure Data Lake Storage Gen1 Konektor Azure Data Lake Storage Gen2