Gambaran umum penyerapan data Data Explorer Azure Synapse (Pratinjau)

Penyerapan data adalah proses yang digunakan untuk memuat rekaman data dari satu atau beberapa sumber untuk mengimpor data ke dalam tabel di kumpulan Azure Synapse Data Explorer. Setelah diserap, data menjadi tersedia untuk kueri.

Layanan manajemen data Azure Synapse Data Explorer, yang bertanggung jawab atas penyerapan data, menerapkan proses berikut:

  • Menarik data dalam batch atau streaming dari sumber eksternal dan membaca permintaan dari antrean Azure yang tertunda.
  • Data batch yang mengalir ke database dan tabel yang sama dioptimalkan untuk throughput penyerapan.
  • Data awal divalidasi dan format diubah jika diperlukan.
  • Manipulasi data lebih lanjut termasuk pencocokan skema, pengorganisasian, pengindeksan, pengodean, dan kompresi data.
  • Data disimpan dalam penyimpanan sesuai dengan kebijakan penyimpanan yang ditetapkan.
  • Data yang diserap dimasukkan ke dalam mesin, di mana tersedia untuk kueri.

Format data, properti, dan izin yang didukung

Pembuatan batch vs penyerapan streaming

  • Penyerapan batch melakukan pengelompokan data dan dioptimalkan untuk throughput penyerapan yang tinggi. Metode ini adalah jenis konsumsi yang paling disukai dan paling efektif. Data dikelompokkan menurut properti penyerapan. Kumpulan kecil data digabungkan dan dioptimalkan untuk hasil kueri yang cepat. Kebijakan pembuatan batch penyerapan dapat diatur pada database atau tabel. Secara default, nilai pembuatan batch maksimum adalah 5 menit, 1000 item, atau ukuran total 1 GB. Batas ukuran data untuk perintah penyerapan batch adalah 4 GB.

  • Penyerapan streaming adalah penyerapan data yang sedang berlangsung dari sumber streaming. Penyerapan streaming memungkinkan latensi mendekati real-time untuk sekumpulan kecil data per tabel. Data awalnya diserap ke penyimpanan baris, lalu dipindahkan ke luas penyimpanan kolom.

Metode dan alat penyerapan

Data Explorer Azure Synapse mendukung beberapa metode penyerapan, masing-masing dengan skenario targetnya sendiri. Metode ini mencakup alat penyerapan, konektor, dan plugin ke beragam layanan, saluran terkelola, penyerapan terprogram menggunakan SDK, dan akses langsung ke penyerapan.

Penyerapan menggunakan alur yang dikelola

Untuk organisasi yang ingin manajemen (pelambatan, percobaan ulang, monitor, peringatan, dan lainnya) dilakukan oleh layanan eksternal, menggunakan konektor kemungkinan merupakan solusi yang paling tepat. Konsumsi antrean sesuai untuk volume data yang besar. Data Explorer Azure Synapse mendukung Azure Pipelines berikut:

  • Alur Synapse: Layanan integrasi data yang terkelola sepenuhnya untuk beban kerja analitik di Alur Synapse terhubung dengan lebih dari 90 sumber yang didukung untuk menyediakan transfer data yang efisien dan tangguh. Alur Synapse mempersiapkan, mengubah, dan memperkaya data untuk memberikan wawasan yang dapat dipantau dengan berbagai jenis cara. Layanan ini dapat digunakan sebagai solusi satu kali, pada garis waktu berkala, atau dipicu oleh peristiwa tertentu.

Penyerapan terprogram menggunakan SDK

Azure Synapse Data Explorer menyediakan SDK yang dapat digunakan untuk kueri dan penyerapan data. Penyerapan terprogram dioptimalkan untuk mengurangi biaya penyerapan (COG), dengan meminimalkan transaksi penyimpanan selama dan setelah proses penyerapan.

Sebelum Anda mulai, gunakan langkah-langkah berikut untuk mendapatkan titik akhir kumpulan Data Explorer untuk mengonfigurasi konsumsi terprogram.

  1. Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan Data Explorer.

  2. Pilih kumpulan Data Explorer yang ingin Anda gunakan untuk melihat detailnya.

    Cuplikan layar kumpulan Data Explorer, yang menampilkan daftar kumpulan yang sudah ada.

  3. Catat titik akhir Kueri dan Penyerapan Data. Gunakan titik akhir Kueri sebagai kluster saat mengonfigurasikan koneksi ke kumpulan Data Explorer Anda. Saat mengonfigurasi SDK untuk penyerapan data, gunakan titik akhir penyerapan data.

    Cuplikan layar panel properti kumpulan Data Explorer, yang menampilkan alamat URI Kueri dan Penyerapan Data.

SDK dan proyek sumber terbuka yang tersedia

Alat

  • Konsumsi satu klik : Memungkinkan Anda untuk dengan cepat menyerap data dengan membuat dan menyesuaikan tabel dari berbagai jenis sumber. Konsumsi satu klik secara otomatis menyarankan tabel dan struktur pemetaan berdasarkan sumber data di Data Explorer Azure Synapse. Penyerapan sekali klik dapat digunakan untuk penyerapan satu kali, atau untuk menentukan penyerapan berkelanjutan melalui Event Grid pada kontainer tempat data diserap.

Perintah kontrol penyerapan Kusto Query Language

Ada sejumlah metode di mana data dapat diserap langsung ke mesin oleh perintah Kusto Query Language (KQL). Karena metode ini melewati layanan Manajemen Data, metode ini hanya cocok untuk eksplorasi dan pembuatan prototipe. Jangan gunakan metode ini dalam skenario produksi atau volume tinggi.

  • Penyerapan sebaris: Perintah kontrol .ingest inline dikirim ke mesin, dengan data yang akan diserap menjadi bagian dari teks perintah itu sendiri. Metode ini dimaksudkan untuk tujuan pengujian improvisasi.

  • Penyerapan dari kueri: Perintah kontrol .set, .append, .set-or-append, atau .set-or-replace dikirim ke mesin, dengan data yang ditentukan secara tidak langsung sebagai hasil dari kueri atau perintah.

  • Penyerapan dari penyimpanan (penarikan) : Perintah kontrol .ingest into dikirim ke mesin, dengan data disimpan di beberapa penyimpanan eksternal (misalnya, Azure Blob Storage) yang dapat diakses oleh mesin dan ditunjuk oleh perintah.

Untuk contoh penggunaan perintah kontrol penyerapan, lihat Menganalisis dengan Data Explorer.

Proses penyerapan

Setelah Anda memilih metode konsumsi yang paling cocok untuk kebutuhan Anda, lakukan langkah-langkah berikut:

  1. Atur kebijakan penyimpanan

    Data yang diserap ke dalam tabel di Data Explorer Azure Synapse tunduk pada kebijakan penyimpanan efektif tabel. Kecuali ditetapkan pada tabel secara eksplisit, kebijakan penyimpanan yang efektif diturunkan dari kebijakan penyimpanan database. Retensi hot adalah fungsi dari ukuran kluster dan kebijakan retensi Anda. Menyerap lebih banyak data daripada ruang yang tersedia akan memaksa yang pertama dalam data ke retensi cold.

    Pastikan bahwa kebijakan penyimpanan database sesuai dengan kebutuhan Anda. Jika tidak, timpa secara eksplisit di tingkat tabel. Untuk informasi selengkapnya, lihat kebijakan penyimpanan.

  2. Buat tabel

    Untuk menyerap data, tabel perlu dibuat terlebih dahulu. Gunakan salah satu opsi berikut ini:

    Catatan

    Jika catatan tidak lengkap atau bidang tidak dapat diurai sebagai tipe data yang diperlukan, kolom tabel yang sesuai akan diisi dengan nilai nol.

  3. Buat pemetaan skema

    Pemetaan skema membantu mengikat bidang data sumber ke kolom tabel tujuan. Pemetaan memungkinkan Anda untuk mengambil data dari sumber yang berbeda ke dalam tabel yang sama, berdasarkan atribut yang ditentukan. Berbagai jenis pemetaan didukung, baik berorientasi baris (CSV, JSON dan AVRO), dan berorientasi kolom (Parquet). Di sebagian besar metode, pemetaan juga dapat dibuat sebelumnya di tabel dan direferensikan dari parameter perintah penyerapan.

  4. Atur kebijakan pembaruan (opsional)

    Beberapa pemetaan format data (Parquet, JSON, dan Avro) mendukung transformasi waktu penyerapan yang sederhana dan berguna. Jika skenario memerlukan pemrosesan yang lebih kompleks pada waktu penyerapan, gunakan kebijakan pembaruan, yang memungkinkan pemrosesan ringan menggunakan perintah Kusto Query Language. Kebijakan pembaruan secara otomatis menjalankan ekstraksi dan transformasi pada data yang diserap pada tabel asli, dan menyerap data yang dihasilkan menjadi satu atau lebih tabel tujuan. Atur kebijakan pembaruan Anda.

Langkah berikutnya