Mentransformasi sumber dalam pemetaan aliran data

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Aliran data tersedia di Alur Azure Data Factory dan Azure Synapse. Artikel ini berlaku untuk memetakan aliran data. Jika Anda baru mengenal transformasi, silakan lihat artikel pengantar Transformasi data menggunakan aliran data pemetaan.

Transformasi sumber mengonfigurasi sumber data Anda untuk aliran data. Saat Anda mendesain aliran data, langkah pertamanya selalu mengonfigurasi transformasi sumber. Untuk menambahkan sumber, pilih kotak Tambahkan Sumber di kanvas aliran data.

Setiap aliran data memerlukan setidaknya satu transformasi sumber, tetapi Anda dapat menambahkan sumber sebanyak yang diperlukan untuk menyelesaikan transformasi data Anda. Anda dapat menggabungkan sumber-sumber tersebut dengan transformasi gabungan, pencarian, atau persatuan.

Setiap transformasi sumber dikaitkan dengan satu himpunan data atau layanan tertaut. Himpunan data menentukan bentuk dan lokasi data yang ingin Anda tulis atau baca. Jika Anda menggunakan himpunan data berbasis file, Anda dapat menggunakan daftar kartubebas dan file di sumber Anda untuk bekerja dengan lebih dari satu file sekaligus.

Himpunan data sebaris

Keputusan pertama saat membuat transformasi sumber adalah apakah informasi sumber Anda ditentukan dalam objek himpunan data atau dalam transformasi sumber. Sebagian besar format hanya tersedia dalam objek himpunan data atau dalam transformasi sumber. Untuk mempelajari cara menggunakan konektor tertentu, lihat dokumen konektor yang sesuai.

Saat format didukung untuk sebaris dan dalam objek himpunan data, ada manfaat untuk keduanya. Objek himpunan data adalah entitas yang dapat digunakan kembali dalam aliran data dan aktivitas lain seperti Salin. Entitas yang dapat digunakan kembali ini sangat berguna ketika Anda menggunakan skema yang diperkuat. Himpunan data tidak berbasis di Spark. Terkadang, Anda mungkin perlu mengambil alih pengaturan atau proyeksi skema tertentu dalam transformasi sumber.

Himpunan data sebaris disarankan saat Anda menggunakan skema fleksibel, instans sumber satu kali, atau sumber parameter. Jika sumber Anda sangat terparameter, himpunan data sebaris memungkinkan Anda untuk tidak membuat objek "percobaan". Himpunan data sebaris berbasis di Spark dan propertinya berasal dari aliran data.

Untuk menggunakan himpunan data sebaris, pilih format yang Anda inginkan di pemilih Jenis sumber. Alih-alih memilih himpunan data sumber, pilihlah layanan tertaut yang ingin Anda sambungkan.

Screenshot that shows Inline selected.

Workspace DB (hanya ruang kerja Synapse)

Di ruang kerja Azure Synapse, opsi tambahan hadir dalam transformasi sumber aliran data yang disebut Workspace DB. Ini akan memungkinkan Anda untuk langsung memilih database ruang kerja dari jenis yang tersedia sebagai data sumber Anda tanpa memerlukan layanan atau dataset terkait tambahan.

Screenshot that shows workspacedb selected.

Jenis sumber yang didukung

Pemetaan aliran data mengikuti pendekatan ekstrak, muat, dan transformasi (ELT) dan bekerja dengan himpunan data penahapan yang semuanya ada di Azure. Saat ini, himpunan data berikut dapat digunakan dalam transformasi sumber.

Konektor Format Himpunan data/sebaris
Amazon S3 Avro
Teks dibatasi
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Asana (Pratinjau) -/✓
Azure Blob Storage Avro
Teks dibatasi
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Cosmos DB (SQL API) ✓/-
Azure Data Lake Storage Gen1 Avro
Teks berbatas
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
Common Data Model
Teks dibatasi
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database untuk MySQL ✓/✓
Azure Database untuk PostgreSQL ✓/✓
Azure Data Explorer ✓/✓
Azure SQL Database ✓/✓
Instans Terkelola Azure SQL ✓/✓
Azure Synapse Analytics ✓/✓
data.world (Pratinjau) -/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
Apache Hive -/✓
Quickbase (Pratinjau) -/✓
SFTP Avro
Teks berbatas
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Smartsheet (Pratinjau) -/✓
Snowflake ✓/✓
SQL Server ✓/✓
REST ✓/✓
TeamDesk (Pratinjau) -/✓
Twilio (Pratinjau) -/✓
Zendesk (Pratinjau) -/✓

Pengaturan khusus untuk konektor ini terletak pada tab Opsi sumber. Contoh skrip informasi dan aliran data pada pengaturan ini terletak di dokumentasi konektor.

Azure Data Factory dan alur Synapse memiliki akses ke lebih dari 90 konektor asli. Untuk menyertakan data dari sumber lain di aliran data Anda, gunakan Aktivitas Salin untuk memuat data tersebut ke salah satu area sementara yang didukung.

Pengaturan sumber

Setelah menambahkan sumber, konfigurasikan melalui tab Pengaturan sumber. Di sini Anda dapat memilih atau membuat himpunan data di mana titik sumber Anda berada. Anda juga dapat memilih opsi skema dan pengambilan sampel untuk data Anda.

Nilai pengembangan untuk parameter himpunan data dapat dikonfigurasi dalam pengaturan debug. (Mode debug harus dinyalakan.)

Screenshot that shows the Source settings tab.

Nama aliran output: Nama transformasi sumber.

Jenis sumber: Pilih apakah Anda ingin menggunakan himpunan data sebaris atau objek himpunan data yang sudah ada.

Koneksi pengujian: Uji apakah layanan Spark aliran data berhasil terhubung ke layanan tertaut yang digunakan dalam himpunan data sumber Anda atau tidak. Mode debug harus menyala agar fitur ini diaktifkan.

Drift skema: Drift skema adalah kemampuan layanan untuk menangani skema fleksibel secara native dalam aliran data Anda tanpa perlu secara eksplisit menentukan perubahan kolom.

  • Pilih kotak centang Izinkan drift skema jika kolom sumber akan sering berubah. Setelan ini memungkinkan semua bidang sumber masuk mengalir melalui transformasi ke sink.

  • Memilih Simpulkan jenis kolom yang di-drift menginstruksikan layanan untuk mendeteksi dan menentukan tipe data untuk setiap kolom baru yang ditemukan. Jika fitur ini dimatikan, semua kolom yang di-drift akan berupa untai (karakter) jenis.

Validasi skema: Jika Validasi Skema dipilih, aliran data akan gagal dijalankan jika data sumber yang masuk tidak cocok dengan skema himpunan data yang ditentukan.

Lompati jumlah baris: Bidang Lompati Jumlah baris menentukan jumlah baris yang diabaikan di awal himpunan data.

Pengambilan Sampel: Aktifkan Pengambilan Sampel untuk membatasi jumlah baris dari sumber Anda. Gunakan pengaturan ini saat Anda menguji atau mengambil sampel data dari sumber Anda untuk tujuan penelusuran kesalahan. Hal ini sangat berguna ketika mengeksekusi aliran data dalam mode debug dari alur.

Untuk memvalidasi bahwa sumber Anda dikonfigurasi dengan benar, aktifkan mode debug dan ambil pratinjau data. Untuk informasi selengkapnya, lihat Mode debug.

Catatan

Saat mode debug diaktifkan, konfigurasi batas baris dalam pengaturan debug akan menimpa pengaturan pengambilan sampel di sumber selama pratinjau data.

Opsi sumber

Tab Opsi sumber berisi pengaturan khusus untuk konektor dan format yang dipilih. Untuk informasi dan contoh selengkapnya, lihat dokumentasi konektor yang relevan.

Proyeksi

Seperti skema dalam himpunan data, proyeksi dalam sumber menentukan kolom data, jenis, dan format dari data sumber. Untuk sebagian besar jenis himpunan data, seperti SQL dan Parquet, proyeksi dalam sumber diperbaiki untuk mencerminkan skema yang ditentukan dalam himpunan data. Saat file sumber Anda tidak diketik dengan kuat (misalnya, file .csv datar, bukan file Parquet), Anda dapat menentukan jenis data untuk setiap bidang dalam transformasi sumber.

Screenshot that shows settings on the Projection tab.

Jika file teks Anda tidak memiliki skema yang ditentukan, pilih Deteksi jenis data sehingga layanan akan mengambil sampel dan menyimpulkan jenis data. Pilih Tetapkan format default untuk mendeteksi secara otomatis format data default.

Atur ulang skema menyetel ulang proyeksi ke apa yang telah ditentukan dalam himpunan data yang direferensikan.

Timpa skema memungkinkan Anda mengubah jenis data yang diproyeksikan di sini sumbernya, menimpa jenis data yang ditentukan skema. Sebagai alternatif, Anda dapat memodifikasi tipe data kolom dalam transformasi kolom turunan hilir. Gunakan transformasi pilihan untuk mengubah nama kolom.

Mengimpor skema

Pilih tombol Impor skema pada tab Proyeksi untuk menggunakan kluster debug aktif untuk membuat proyeksi skema. Tombol impor skema tersedia di setiap jenis sumber. Mengimpor skema di sini akan mengambil alih proyeksi yang ditentukan dalam himpunan data. Objek himpunan data tidak akan diubah.

Mengimpor skema berguna dalam himpunan data seperti Avro dan Azure Cosmos DB yang mendukung struktur data kompleks yang tidak memerlukan definisi skema untuk ada di himpunan data. Untuk himpunan data sebaris, mengimpor skema adalah satu-satunya cara untuk mereferensikan metadata kolom tanpa drift skema.

Mengoptimalkan transformasi sumber

Tab Optimalkan memungkinkan pengeditan informasi partisi di setiap langkah transformasi. Dalam kebanyakan kasus, Gunakan partisi saat ini akan mengoptimalkan struktur partisi ideal untuk sumber.

Jika Anda membaca dari sumber Azure SQL Database, partisi Sumber kustom kemungkinan akan membaca data paling cepat. Layanan tersebut akan membaca kueri besar dengan membuat koneksi ke database Anda secara paralel. Partisi sumber ini dapat dilakukan pada kolom atau dengan menggunakan kueri.

Screenshot that shows the Source partition settings.

Untuk informasi selengkapnya tentang pengoptimalan dalam alur data pemetaan, lihat tab Optimalkan.

Langkah berikutnya

Mulai membangun aliran data Anda dengan transformasi kolom turunan dan transformasi pilihan.