Menjelajahi file Avro yang diambil di Azure Event Hubs

Artikel ini menyediakan skema untuk file Avro yang diambil oleh Azure Event Hubs dan beberapa alat untuk menjelajahi file.

Skema

File Avro yang dihasilkan oleh Event Hubs Capture memiliki skema Avro berikut:

Gambar yang menunjukkan skema file Avro yang diambil oleh Azure Event Hubs.

Azure Storage Explorer

Anda dapat memverifikasi bahwa file yang diambil dibuat di akun Azure Storage menggunakan alat seperti Azure Storage Explorer. Anda dapat mengunduh file secara lokal untuk mengerjakannya.

Cara mudah untuk menjelajahi file Avro adalah dengan menggunakan jar Alat Avro dari Apache. Anda juga dapat menggunakan Apache Spark untuk melakukan pemrosesan terdistribusi yang kompleks pada data yang diserap.

Gunakan Apache Spark

Apache Spark adalah "mesin analitik terpadu untuk pemrosesan data berskala besar." Apache Spark mendukung bahasa komputer lain, termasuk SQL, dan dapat dengan mudah mengakses penyimpanan Blob Azure. Ada beberapa opsi untuk menjalankan Apache Spark di Azure, dan masing-masing menyediakan akses mudah ke Azure Blob storage:

Gunakan Alat Avro

Alat Avro tersedia sebagai paket jar. Setelah mengunduh file jar, Anda dapat melihat skema file Avro tertentu dengan menjalankan perintah berikut:

java -jar avro-tools-1.9.1.jar getschema <name of capture file>

Perintah ini akan kembali

{

    "type":"record",
    "name":"EventData",
    "namespace":"Microsoft.ServiceBus.Messaging",
    "fields":[
                 {"name":"SequenceNumber","type":"long"},
                 {"name":"Offset","type":"string"},
                 {"name":"EnqueuedTimeUtc","type":"string"},
                 {"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
                 {"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
                 {"name":"Body","type":["null","bytes"]}
             ]
}

Anda juga dapat menggunakan Alat Avro untuk mengonversi file ke format JSON dan melakukan pemrosesan lainnya.

Untuk melakukan pemrosesan yang lebih canggih, unduh dan pasang Avro untuk platform pilihan Anda. Pada saat penulisan ini, ada implementasi yang tersedia untuk C, C ++, C #, Java, NodeJS, Perl, PHP, Python, dan Ruby.

Apache Avro memiliki panduan Memulai lengkap untuk Java dan Python. Anda juga dapat membaca artikel Memulai dengan Azure Event Hubs Capture.

Langkah berikutnya

Azure Event Hubs Capture adalah cara termudah untuk mendapatkan data ke Azure. Menggunakan Azure Data Lake, Azure Data Factory, dan Azure HDInsight, Anda dapat melakukan pemrosesan batch dan analitik lainnya menggunakan alat dan platform yang Anda pilih, dalam skala apa pun yang Anda butuhkan. Lihat artikel berikut untuk mempelajari lebih lanjut tentang fitur ini.