Mengambil data dari Azure Event Hubs dalam format Parquet

Artikel ini menjelaskan cara menggunakan editor tanpa kode untuk mengambil data streaming secara otomatis di Azure Event Hubs dalam akun Azure Data Lake Storage Gen2 dalam format Parquet.

Prasyarat

  • Namespace Azure Event Hubs dengan pusat aktivitas dan akun Azure Data Lake Storage Gen2 dengan kontainer untuk menyimpan data yang diambil. Sumber daya ini harus dapat diakses publik dan tidak dapat berada di belakang firewall atau diamankan di jaringan virtual Azure.

    Jika Anda tidak memiliki pusat aktivitas, buat hub peristiwa dengan mengikuti instruksi dari Mulai Cepat: Membuat pusat aktivitas.

    Jika Anda tidak memiliki akun Data Lake Storage Gen2, buat akun dengan mengikuti instruksi dari Membuat akun penyimpanan

  • Data di Azure Event Hubs Anda harus diserialisasikan dalam format JSON, CSV, atau Avro. Untuk tujuan pengujian, pilih Buat data (pratinjau) di menu sebelah kiri, pilih Data stok untuk himpunan data, lalu pilih Kirim.

    Cuplikan layar memperlihatkan halaman Buat data untuk menghasilkan data stok sampel.

Mengonfigurasi pekerjaan untuk mengambil data

Gunakan langkah-langkah berikut untuk mengonfigurasi pekerjaan Analisis Aliran untuk mengambil data di Azure Data Lake Storage Gen2.

  1. Di portal Microsoft Azure, pergi ke pusat aktivitas Anda.

  2. Di menu sebelah kiri, pilih Proses Data di bawah Fitur. Kemudian, pilih Mulai pada kartu format Ambil data ke ADLS Gen2 di Parquet .

    Cuplikan layar yang menampilkan Proses kartu mulai data Azure Event Hubs.

  3. Masukkan nama untuk pekerjaan Azure Stream Analytics Anda, lalu pilih Buat.

    Cuplikan layar yang menampilkan jendela pekerjaan Azure Stream Analytics Baru tempat Anda memasukkan nama pekerjaan.

  4. Tentukan jenis Serialisasi data Anda di Azure Event Hubs dan metode Autentikasi yang digunakan pekerjaan untuk menyambungkan ke Azure Event Hubs. Kemudian pilih Sambungkan.

    Cuplikan layar yang menampilkan konfigurasi koneksi Azure Event Hubs.

  5. Saat koneksi berhasil dibuat, Anda akan melihat:

    • Bidang yang ada dalam data input. Anda dapat memilih Tambahkan bidang atau Anda dapat memilih simbol tiga titik di samping bidang untuk menghapus, mengganti nama, atau mengubah namanya secara opsional.

    • Sampel langsung data masuk dalam tabel Pratinjau data di bawah tampilan diagram. Ini di-refresh secara berkala. Anda dapat memilih Jeda pratinjau streaming untuk melihat tampilan statis input sampel.

      Cuplikan layar yang menampilkan sampel data pada Pratinjau Data.

  6. Pilih petak peta Azure Data Lake Storage Gen2 untuk mengedit konfigurasi.

  7. Pada halaman konfigurasi Azure Data Lake Storage Gen2, ikuti langkah-langkah berikut:

    1. Pilih langganan, nama akun penyimpanan, dan kontainer dari menu drop-down.

    2. Setelah langganan dipilih, metode autentikasi dan kunci akun penyimpanan harus diisi secara otomatis.

    3. Pilih Parquet untuk Format serialisasi .

      Cuplikan layar memperlihatkan halaman konfigurasi Data Lake Storage Gen2.

    4. Untuk blob streaming, pola jalur direktori diharapkan menjadi nilai dinamis. Diperlukan tanggal untuk menjadi bagian dari jalur file untuk blob - dirujuk sebagai {date}. Untuk mempelajari tentang pola jalur kustom, lihat pemartisian output blob kustom Azure Stream Analytics.

      Cuplikan layar pertama yang menampilkan jendela Blob tempat Anda mengedit konfigurasi koneksi blob.

    5. Pilih Sambungkan

  8. Saat koneksi dibuat, Anda akan melihat bidang yang ada dalam data output.

  9. Pilih Simpan pada bilah perintah untuk menyimpan konfigurasi Anda.

    Cuplikan layar memperlihatkan tombol Simpan dipilih pada bilah perintah.

  10. Pilih Mulai untuk memulai alur streaming untuk mengambil data. Kemudian di jendela pekerjaan Mulai Analisis Aliran:

    1. Pilih waktu mulai keluaran.

    2. Pilih paket harga.

    3. Pilih jumlah Unit Streaming (SU) yang dijalankan pekerjaan. SU mewakili sumber daya komputasi yang dialokasikan untuk menjalankan tugas Analisis Aliran. Untuk informasi selengkapnya, lihat Unit Streaming di Azure Stream Analytics.

      Cuplikan layar yang menampilkan jendela Mulai pekerjaan Azure Stream Analytics tempat Anda mengatur waktu mulai output, unit streaming, dan penanganan kesalahan.

  11. Anda akan melihat pekerjaan Stream Analytic di tab pekerjaan Azure Stream Analytics di halaman Memproses data untuk hub peristiwa Anda.

    Cuplikan layar memperlihatkan pekerjaan Azure Stream Analytics di halaman Proses data.

Verifikasi output

  1. Pada halaman instans Azure Event Hubs untuk pusat aktivitas Anda, pilih Hasilkan data, pilih Data stok untuk himpunan data, lalu pilih Kirim untuk mengirim beberapa data sampel ke pusat aktivitas.

  2. Verifikasi bahwa file Parquet dihasilkan dalam kontainer Azure Data Lake Storage.

    Cuplikan layar yang menampilkan file Parquet yang dihasilkan dalam kontainer ADLS.

  3. Pilih Proses data di menu sebelah kiri. Beralih ke tab pekerjaan Azure Stream Analytics . Pilih Buka metrik untuk memantaunya.

    Cuplikan layar yang menampilkan link Buka Metrik yang dipilih.

    Berikut adalah contoh cuplikan layar metrik yang menunjukkan peristiwa input dan output.

    Cuplikan layar yang menampilkan metrik pekerjaan Azure Stream Analytics.

Langkah berikutnya

Sekarang Anda tahu cara menggunakan editor tanpa kode Analisis Aliran untuk membuat pekerjaan yang menangkap data Azure Event Hubs untuk Azure Data Lake Storage Gen2 dalam format Parquet. Selanjutnya, Anda dapat mempelajari selengkapnya tentang Azure Stream Analytics dan cara memantau pekerjaan yang Anda buat.