Apa itu Azure Data Factory?

Artikel
03/20/2024

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam dunia big data, data mentah dan tidak terorganisir sering kali disimpan dalam sistem penyimpanan relasional, non-relasional, dan lainnya. Namun, dengan sendirinya, data mentah tidak memiliki konteks atau makna yang tepat untuk memberikan wawasan yang bermakna kepada analis, ilmuwan data, atau pembuat keputusan bisnis.

Big data memerlukan layanan yang dapat mengatur dan mengoperasionalkan proses untuk memperbaiki penyimpanan data mentah yang sangat besar ini menjadi wawasan bisnis yang dapat ditindaklanjuti. Azure Data Factory adalah layanan cloud terkelola yang dibuat untuk proyek hybrid extract-transform-load (ETL), extract-load-transform (ELT), dan integrasi data yang kompleks ini.

Fitur Azure Data Factory

Kompresi Data: Selama aktivitas Salin Data, dimungkinkan untuk mengompresi data dan menulis data terkompresi ke sumber data target. Fitur ini membantu mengoptimalkan penggunaan bandwidth dalam penyalinan data.

Dukungan Koneksi ivitas yang luas untuk Sumber Data yang Berbeda: Azure Data Factory menyediakan dukungan konektivitas yang luas untuk menyambungkan ke sumber data yang berbeda. Ini berguna ketika Anda ingin menarik atau menulis data dari sumber data yang berbeda.

Pemicu Peristiwa Kustom: Azure Data Factory memungkinkan Anda mengotomatiskan pemrosesan data menggunakan pemicu peristiwa kustom. Fitur ini memungkinkan Anda untuk secara otomatis menjalankan tindakan tertentu ketika peristiwa tertentu terjadi.

Pratinjau dan Validasi Data: Selama aktivitas Salin Data, alat disediakan untuk mempratinjau dan memvalidasi data. Fitur ini membantu Anda memastikan bahwa data disalin dengan benar dan ditulis ke sumber data target dengan benar.

Aliran Data yang Dapat Disesuaikan: Azure Data Factory memungkinkan Anda membuat aliran data yang dapat disesuaikan. Fitur ini memungkinkan Anda menambahkan tindakan atau langkah kustom untuk pemrosesan data.

Keamanan Terintegrasi: Azure Data Factory menawarkan fitur keamanan terintegrasi seperti integrasi Azure Active Directory dan kontrol akses berbasis peran untuk mengontrol akses ke aliran data. Fitur ini meningkatkan keamanan dalam pemrosesan data dan melindungi data Anda.

Skenario penggunaan

Misalnya, bayangkan perusahaan game yang mengumpulkan petabyte log game yang diproduksi oleh game di cloud. Perusahaan tersebut ingin menganalisis log ini untuk mendapatkan wawasan tentang preferensi pelanggan, demografi, dan perilaku penggunaan. Perusahaan tersebut juga ingin mengidentifikasi peluang up-sell dan cross-sell, mengembangkan fitur baru yang menarik, mendorong pertumbuhan bisnis, dan memberikan pengalaman yang lebih baik kepada pelanggan.

Untuk menganalisis log ini, perusahaan perlu menggunakan data referensi seperti informasi pelanggan, informasi game, dan informasi kampanye pemasaran yang ada di penyimpanan data lokal. Perusahaan ingin menggunakan data ini dari penyimpanan data lokal, menggabungkannya dengan data log tambahan yang ada di penyimpanan data cloud.

Untuk mengekstrak wawasan, diharapkan dapat memproses data yang digabungkan dengan menggunakan kluster Spark di cloud (Azure HDInsight), dan menerbitkan data yang diubah menjadi gudang data cloud seperti Azure Synapse Analytics untuk dengan mudah membuat laporan di atasnya. Mereka ingin mengotomatisasi alur kerja ini, dan memantau dan mengelolanya di jadwal harian. Mereka juga ingin mengeksekusinya ketika file mendarat di kontainer penyimpanan blob.

Azure Data Factory adalah platform yang memecahkan skenario data tersebut. Azure Data Factory adalah ETL berbasis cloud dan layanan integrasi data yang memungkinkan Anda membuat alur kerja berbasis data untuk mengatur pergerakan data dan mengubah data dalam skala besar.. Dengan Azure Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data (disebut alur) yang dapat menyerap data dari penyimpanan data yang berbeda. Anda dapat membangun proses ETL kompleks yang mengubah data secara visual dengan alur data atau dengan menggunakan layanan komputasi seperti Azure HDInsight Hadoop, Azure Databricks, dan Azure SQL Database.

Selain itu, Anda dapat memublikasikan data yang ditransformasikan ke penyimpanan data seperti aplikasi Azure Synapse Analytics for inteligensi bisnis (BI) untuk dipakai. Pada akhirnya, melalui Azure Data Factory, data mentah dapat diatur ke dalam penyimpanan data dan data lake yang bermakna untuk keputusan bisnis yang lebih baik.

Bagaimana cara kerjanya?

Azure Data Factory (ADF) berisi serangkaian sistem yang saling terhubung, yang menyediakan platform end-to-end lengkap untuk para teknisi data.

Memperlihatkan diagram arsitektur tingkat atas Azure Data Factory.

Panduan visual ini memberikan gambaran umum terperinci tentang arsitektur lengkap Data Factory:

Untuk melihat detail selengkapnya, pilih gambar sebelumnya untuk memperbesar, atau telusuri ke gambar resolusi tinggi.

Menyambungkan dan mengumpulkan

Perusahaan memiliki berbagai jenis data yang terletak di sumber yang berbeda di lokal, di cloud, terstruktur, tidak terstruktur, dan semi-terstruktur, semuanya tiba pada interval dan kecepatan yang berbeda.

Langkah pertama dalam membangun sistem produksi informasi adalah terhubung ke semua sumber data dan pemrosesan yang diperlukan, seperti layanan perangkat lunak sebagai layanan (SaaS), database, berbagi file, dan layanan web FTP. Kemudian pindahkan data sesuai kebutuhan ke lokasi terpusat untuk pemrosesan berikutnya.

Tanpa Data Factory, perusahaan harus membangun komponen pemindahan data kustom atau menulis layanan kustom untuk mengintegrasikan sumber data dan pemrosesan ini. Mahal dan sulit untuk mengintegrasikan dan memelihara sistem tersebut. Sistem ini juga sering tidak memiliki pemantauan, pemberitahuan, dan kontrol tingkat perusahaan yang dapat ditawarkan oleh layanan yang dikelola penuh.

Dengan Azure Data Factory, Anda dapat menggunakan Salin Aktivitas dalam alur data untuk memindahkan data dari penyimpanan data sumber lokal dan cloud ke penyimpanan data sentralisasi di cloud untuk analisis lebih lanjut. Misalnya, Anda dapat mengumpulkan data di Azure Data Lake Store dan mengubah data nanti dengan menggunakan layanan komputasi Azure Data Lake Analytics. Anda juga dapat mengumpulkan data dalam penyimpanan Azure Blob dan mengubahnya nanti dengan menggunakan kluster Azure HDInsight Hadoop.

Mengubah dan memperkaya

Setelah data ada di penyimpanan data terpusat di cloud, proses atau transformasi data yang dikumpulkan dengan menggunakan alur data pemetaan ADF. Alur data memungkinkan teknisi data untuk membangun dan memelihara grafik transformasi data yang dijalankan pada Spark tanpa perlu memahami kluster Spark atau pemrograman Spark.

Jika Anda lebih suka melakukan transformasi kode dengan tangan, ADF mendukung aktivitas eksternal untuk mengeksekusi transformasi Anda pada layanan komputasi seperti HDInsight Hadoop, Spark, Data Lake Analytics, dan Azure Machine Learning.

CI/CD dan terbitkan

Data Factory menawarkan dukungan penuh untuk CI/CD alur data Anda menggunakan Azure DevOps dan GitHub. Ini memungkinkan Anda untuk secara bertahap mengembangkan dan memberikan proses ETL Anda sebelum menerbitkan produk jadi. Setelah data mentah disempurnakan ke dalam bentuk siap pakai bisnis, muat data ke Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB, atau mesin analitik apa pun yang dapat diarahkan pengguna bisnis Anda dari alat kecerdasan bisnis mereka.

Monitor

Setelah Anda berhasil membangun dan menerapkan alur integrasi data Anda, memberikan nilai bisnis dari data yang disempurnakan, pantau aktivitas dan alur terjadwal untuk tingkat keberhasilan dan kegagalan. Azure Data Factory memiliki dukungan bawaan untuk pemantauan alur melalui Azure Monitor, API, PowerShell, log Azure Monitor, dan panel kesehatan di portal Microsoft Azure.

Konsep tingkat atas

Langganan Azure dapat memiliki satu atau beberapa instans Azure Data Factory (atau pabrik data). Azure Data Factory terdiri dari komponen utama berikut:

Pipelines
Aktivitas
Himpunan data
Layanan Tertaut
Aliran Data
Integration Runtime

Komponen-komponen ini bekerja sama untuk menyediakan platform tempat Anda dapat menyusun alur kerja berbasis data dengan langkah-langkah untuk memindahkan dan mengubah data.

Alur

Pabrik data dapat memiliki satu atau beberapa alur. Pipeline adalah pengelompokan logis dari aktivitas yang melakukan satu unit kerja. Bersama-sama, aktivitas dalam alur menjalankan tugas. Misalnya, alur dapat berisi sekelompok aktivitas yang menyerap data dari Azure blob, lalu menjalankan kueri Apache Hive pada kluster HDInsight untuk mempartisi data.

Keuntungannya adalah bahwa alur memungkinkan Anda untuk mengelola aktivitas sebagai satu set alih-alih masing-masing secara individual. Kegiatan dalam pipa dapat dirangkai bersama untuk beroperasi secara berurutan, atau mereka dapat beroperasi secara independen secara paralel.

Aliran data pemetaan

Buat dan kelola grafik logika transformasi data yang bisa Anda gunakan untuk mentransformasi data berukuran apa pun. Anda dapat membangun library yang dapat digunakan kembali dari rutinitas transformasi data dan menjalankan proses tersebut dengan cara yang ditingkatkan dari pipeline ADF Anda. Azure Data Factory akan mengeksekusi logika Anda pada kluster Spark yang berputar ke atas dan bawah saat Anda membutuhkannya. Anda tidak perlu mengelola atau memelihara kluster.

Tinggi

Aktivitas mewakili langkah pemrosesan dalam alur. Misalnya, Anda dapat menggunakan aktivitas salin untuk menyalin data dari satu penyimpanan data ke penyimpanan data lain. Aktivitas Apache Hive menjalankan kueri Apache Hive pada kluster Azure HDInsight untuk mengubah atau menganalisis data Anda. Azure Data Factory memiliki tiga pengelompokan aktivitas: aktivitas pemindahan data, aktivitas transformasi data, dan aktivitas kontrol.

Himpunan data

Himpunan data mewakili struktur data dalam penyimpanan data, yang hanya menunjuk ke atau mereferensikan data yang ingin Anda gunakan dalam aktivitas Anda sebagai input atau output.

Layanan Tertaut

Layanan tertaut mirip seperti string koneksi, yang menentukan informasi koneksi yang diperlukan agar Data Factory tersambung ke sumber daya eksternal. Anggap seperti ini: layanan tertaut menentukan koneksi ke sumber data dan himpunan data mewakili struktur data. Misalnya, layanan yang ditautkan dengan Azure Storage menentukan string koneksi yang akan disambungkan ke akun Azure Storage. Himpunan data Azure blob menentukan kontainer blob dan folder yang berisi data.

Layanan tertaut digunakan karena dua alasan di Data Factory:

Untuk mewakili penyimpanan data yang mencakup, tetapi tidak terbatas pada, database SQL Server, database Oracle, berbagi file, atau akun penyimpanan Azure blob. Untuk daftar penyimpanan data yang didukung, lihat artikel aktivitas salin.
Untuk mewakili sumber daya komputasi yang dapat menghosting eksekusi aktivitas. Misalnya, aktivitas HDInsightHive yang berjalan pada kluster HDInsight Hadoop. Untuk daftar aktivitas transformasi dan lingkungan komputasi yang didukung, lihat artikel data transformasi.

Integration Runtime

Di Data Factory, aktivitas menentukan tindakan yang akan dilakukan. Layanan tertaut menentukan penyimpanan data target atau layanan komputasi. Runtime integrasi merupakan jembatan antara aktivitas dan Layanan tertaut. Ini dirujuk oleh layanan atau aktivitas tertaut, dan menyediakan lingkungan komputasi tempat aktivitas dijalankan atau dikirim. Dengan begitu, aktivitas dapat dilakukan di wilayah yang paling dekat dengan penyimpanan data target atau layanan komputasi melalui cara paling berperforma sekaligus memenuhi kebutuhan keamanan dan kepatuhan.

Pemicu

Pemicu mewakili unit pemrosesan yang menentukan kapan mulainya eksekusi alur. Ada berbagai jenis pemicu untuk berbagai jenis peristiwa.

Eksekusi alur

Proses alur adalah contoh eksekusi alur. Eksekusi alur biasanya dibuat dengan meneruskan argumen ke parameter yang ditentukan dalam alur. Argumen dapat dilewatkan secara manual atau dalam definisi pemicu.

Parameter

Parameter adalah pasangan kunci-nilai konfigurasi baca-saja.  Parameter didefinisikan dalam alur. Argumen untuk parameter yang ditentukan diteruskan selama eksekusi dari konteks proses yang dibuat oleh pemicu atau alur yang dijalankan secara manual. Aktivitas dalam alur mengonsumsi nilai parameter.

Himpunan data adalah parameter yang sangat diketik dan entitas yang dapat digunakan kembali/dapat direferensikan. Aktivitas dapat mereferensikan himpunan data dan dapat menggunakan properti yang ditentukan dalam definisi himpunan data.

Layanan tertaut juga merupakan parameter yang sangat diketik yang berisi informasi koneksi ke penyimpanan data atau lingkungan komputasi. Ini juga merupakan entitas yang dapat digunakan kembali/dapat direferensikan.

Alur kontrol

Alur kontrol adalah pengaturan aktivitas alur yang mencakup aktivitas penautan secara berurutan, percabangan, menentukan parameter pada tingkat alur, dan penerusan argumen sekaligus memanggil alur sesuai permintaan atau dari pemicu. Ini juga mencakup kontainer passing dan looping status kustom, yaitu untuk setiap iterator.

Variabel

Variabel dapat digunakan di dalam alur untuk menyimpan nilai sementara dan juga dapat digunakan bersama dengan parameter untuk memungkinkan nilai kelulusan antara alur, aliran data, dan aktivitas lainnya.

Berikut adalah dokumen langkah penting berikutnya untuk dijelajahi: