Tutorial: Mengambil data Azure Event Hubs dalam format parquet dan menganalisis dengan Azure Synapse Analytics

Tutorial ini menunjukkan kepada Anda cara menggunakan editor tanpa kode Azure Stream Analytics untuk membuat pekerjaan yang mengambil data Azure Event Hubs untuk Azure Data Lake Storage Gen2 dalam format parkek.

Dalam tutorial ini, Anda akan mempelajari cara:

  • Menyebarkan generator peristiwa yang mengirim peristiwa sampel ke pusat aktivitas
  • Membuat pekerjaan Analisis Aliran menggunakan editor tanpa kode
  • Meninjau data input dan skema
  • Mengonfigurasi Azure Data Lake Storage Gen2 ke data hub peristiwa mana yang akan diambil
  • Menjalankan pekerjaan Analisis Aliran
  • Menggunakan Azure Synapse Analytics untuk mengkueri file parket

Prasyarat

Sebelum memulai, pastikan Anda telah menyelesaikan langkah-langkah berikut:

Tidak menggunakan editor kode untuk membuat pekerjaan Azure Stream Analytics

  1. Temukan Grup Sumber Daya tempat generator peristiwa TollApp disebarkan.

  2. Pilih namespace Azure Event Hubs.

  3. Pada halaman Namespace Pusat Aktivitas, pilih Pusat Aktivitas di bawah Entitas pada menu sebelah kiri.

  4. Pilih entrystream instans.

    Cuplikan layar memperlihatkan pemilihan pusat aktivitas.

  5. Pada halaman Instans Event Hubs, pilih Proses data di bagian Fitur di menu sebelah kiri.

  6. Pilih Mulai pada petak peta Ambil data ke ADLS Gen2 dalam format Parket.

    Cuplikan layar memperlihatkan pilihan petak **Ambil data ke ADLS Gen2 dalam format Parquet**.

  7. Beri nama pekerjaan parquetcapture Anda dan pilih Buat.

    Cuplikan layar halaman pekerjaan Analisis Aliran Baru.

  8. Pada halaman konfigurasi pusat aktivitas, konfirmasikan pengaturan berikut, lalu pilih Sambungkan.

    • Grup Konsumen: Default

    • Jenis serialisasi data input Anda: JSON

    • Mode autentikasi yang akan digunakan pekerjaan untuk menyambungkan ke pusat aktivitas Anda: String koneksi.

      Cuplikan layar halaman konfigurasi untuk pusat aktivitas Anda.

  9. Dalam beberapa detik, Anda akan melihat contoh data input dan skema. Anda dapat memilih untuk menghapus bidang, mengganti nama bidang, atau mengubah jenis data.

    Cuplikan layar memperlihatkan bidang dan pratinjau data.

  10. Pilih petak peta Azure Data Lake Storage Gen2 di kanvas Anda dan konfigurasikan dengan menentukan

    • Langganan tempat akun Azure Data Lake Gen2 Anda berada
    • Nama akun penyimpanan, yang harus merupakan akun ADLS Gen2 yang sama dengan yang digunakan dengan ruang kerja Azure Synapse Analytics Anda yang dilakukan di bagian Prasyarat.
    • Kontainer di mana file Parket akan dibuat.
    • Pola jalur diatur ke {date}/{time}
    • Pola tanggal dan waktu sebagai default yyyy-mm-dd dan HH.
    • Pilih Sambungkan

    Cuplikan layar memperlihatkan pengaturan konfigurasi untuk Data Lake Storage.

  11. Pilih Simpan di pita atas untuk menyimpan pekerjaan Anda, lalu pilih Mulai untuk menjalankan pekerjaan Anda. Setelah pekerjaan dimulai, pilih X di sudut kanan untuk menutup halaman pekerjaan Azure Stream Analytics .

    Cuplikan layar memperlihatkan halaman Mulai Pekerjaan Azure Stream Analytics.

  12. Anda kemudian akan melihat daftar semua pekerjaan Analisis Aliran yang dibuat menggunakan editor tanpa kode. Dan dalam dua menit, pekerjaan Anda akan masuk ke status Berjalan. Pilih tombol Refresh pada halaman untuk melihat status berubah dari Dibuat -> Mulai -> Berjalan.

    Cuplikan layar memperlihatkan daftar pekerjaan Azure Stream Analytics.

Melihat output di akun Azure Data Lake Storage Gen 2 Anda

  1. Temukan akun Azure Data Lake Storage Gen2 yang telah Anda gunakan di langkah sebelumnya.

  2. Pilih kontainer yang telah Anda buat di langkah sebelumnya. Anda akan melihat file parket yang dibuat berdasarkan pola jalur {date}/{time} yang digunakan pada langkah sebelumnya.

    Cuplikan layar memperlihatkan file parket yang diambil di Azure Data Lake Storage Gen 2.

Kueri yang diambil data dalam format Parquet dengan Azure Synapse Analytics

Kueri menggunakan Azure Synapse Spark

  1. Temukan ruang kerja Azure Synapse Analytics Anda dan buka Synapse Studio.

  2. Buat kumpulan Apache Spark tanpa server di ruang kerja Anda jika belum ada.

  3. Di Synapse Studio, buka hub Kembangkan dan buat Notebook baru.

  4. Buat sel kode baru dan tempel kode berikut di sel tersebut: Ganti kontainer dan adlsname dengan nama kontainer dan akun ADLS Gen2 yang digunakan pada langkah sebelumnya.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Untuk Lampirkan ke pada toolbar, pilih kumpulan Spark Anda dari daftar dropdown.

  6. Pilih Jalankan Semua untuk melihat hasilnya

    Cuplikan layar hasil eksekusi spark di Azure Synapse Analytics.

Kueri menggunakan Azure Synapse Serverless SQL

  1. Di hub Kembangkan, buat skrip SQL baru.

    Cuplikan layar memperlihatkan halaman Kembangkan dengan menu skrip SQL baru dipilih.

  2. Tempel skrip berikut dan Jalankan menggunakan Bawaan titik akhir SQL tanpa server. Ganti kontainer dan adlsname dengan nama kontainer dan akun ADLS Gen2 yang digunakan pada langkah sebelumnya.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Cuplikan layar hasil skrip SQL di Azure Synapse Analytics.

Membersihkan sumber daya

  1. Temukan instans Pusat Aktivitas Anda dan lihat daftar pekerjaan Analisis Aliran di bawah bagian Proses Data. Hentikan semua pekerjaan yang sedang berjalan.
  2. Buka grup sumber daya yang Anda gunakan saat menyebarkan generator peristiwa TollApp.
  3. Pilih Hapus grup sumber daya. Ketik nama grup sumber daya untuk mengonfirmasi penghapusan.

Langkah berikutnya

Dalam tutorial ini, Anda mempelajari cara membuat tugas Stream Analytics menggunakan editor tanpa kode untuk menangkap aliran data Event Hubs dalam format Parket. Anda kemudian menggunakan Azure Synapse Analytics untuk membuat kueri file parket menggunakan Synapse Spark dan Synapse SQL.