Apa itu Azure Data Factory?

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Dalam dunia big data, data mentah dan tidak terorganisir sering kali disimpan dalam sistem penyimpanan relasional, non-relasional, dan lainnya. Namun, dengan sendirinya, data mentah tidak memiliki konteks atau makna yang tepat untuk memberikan wawasan yang bermakna kepada analis, ilmuwan data, atau pembuat keputusan bisnis.

Big data memerlukan layanan yang dapat mengatur dan mengoperasionalkan proses untuk memperbaiki penyimpanan data mentah yang sangat besar ini menjadi wawasan bisnis yang dapat ditindaklanjuti. Azure Data Factory adalah layanan cloud terkelola yang dibuat untuk proyek hybrid extract-transform-load (ETL), extract-load-transform (ELT), dan integrasi data yang kompleks ini.

Misalnya, bayangkan perusahaan game yang mengumpulkan petabyte log game yang diproduksi oleh game di cloud. Perusahaan tersebut ingin menganalisis log ini untuk mendapatkan wawasan tentang preferensi pelanggan, demografi, dan perilaku penggunaan. Perusahaan tersebut juga ingin mengidentifikasi peluang up-sell dan cross-sell, mengembangkan fitur baru yang menarik, mendorong pertumbuhan bisnis, dan memberikan pengalaman yang lebih baik kepada pelanggan.

Untuk menganalisis log ini, perusahaan perlu menggunakan data referensi seperti informasi pelanggan, informasi game, dan informasi kampanye pemasaran yang ada di penyimpanan data lokal. Perusahaan ingin menggunakan data ini dari penyimpanan data lokal, menggabungkannya dengan data log tambahan yang ada di penyimpanan data cloud.

Untuk mengekstrak wawasan, diharapkan dapat memproses data yang digabungkan dengan menggunakan kluster Spark di cloud (Azure HDInsight), dan menerbitkan data yang diubah menjadi gudang data cloud seperti Azure Synapse Analytics untuk dengan mudah membuat laporan di atasnya. Mereka ingin mengotomatisasi alur kerja ini, dan memantau dan mengelolanya di jadwal harian. Mereka juga ingin mengeksekusinya ketika file mendarat di kontainer penyimpanan blob.

Azure Data Factory adalah platform yang memecahkan skenario data tersebut. Azure Data Factory adalah ETL berbasis cloud dan layanan integrasi data yang memungkinkan Anda membuat alur kerja berbasis data untuk mengatur pergerakan data dan mengubah data dalam skala besar. . Dengan Azure Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data (disebut alur) yang dapat menyerap data dari penyimpanan data yang berbeda. Anda dapat membangun proses ETL kompleks yang mengubah data secara visual dengan alur data atau dengan menggunakan layanan komputasi seperti Azure HDInsight Hadoop, Azure Databricks, dan Azure SQL Database.

Selain itu, Anda dapat memublikasikan data yang ditransformasikan ke penyimpanan data seperti aplikasi Azure Synapse Analytics for inteligensi bisnis (BI) untuk dipakai. Pada akhirnya, melalui Azure Data Factory, data mentah dapat diatur ke dalam penyimpanan data dan data lake yang bermakna untuk keputusan bisnis yang lebih baik.

Tampilan tingkat atas Azure Data Factory

Bagaimana cara kerjanya?

Azure Data Factory (ADF) berisi serangkaian sistem yang saling terhubung, yang menyediakan platform end-to-end lengkap untuk para teknisi data.

Panduan visual ini memberikan gambaran umum tingkat tinggi tentang arsitektur Data Factory:

Panduan visual terperinci untuk arsitektur sistem lengkap untuk Azure Data Factory, disajikan dalam satu gambar resolusi tinggi.

Untuk melihat detail selengkapnya, klik gambar sebelumnya untuk memperbesar, atau telusuri ke gambar resolusi tinggi.

Menyambungkan dan mengumpulkan

Perusahaan memiliki berbagai jenis data yang terletak di sumber yang berbeda di lokal, di cloud, terstruktur, tidak terstruktur, dan semi-terstruktur, semuanya tiba pada interval dan kecepatan yang berbeda.

Langkah pertama dalam membangun sistem produksi informasi adalah terhubung ke semua sumber data dan pemrosesan yang diperlukan, seperti layanan perangkat lunak sebagai layanan (SaaS), database, berbagi file, dan layanan web FTP. Kemudian pindahkan data sesuai kebutuhan ke lokasi terpusat untuk pemrosesan berikutnya.

Tanpa Azure Data Factory, perusahaan harus membangun komponen pemindahan data kustom atau menulis layanan kustom untuk mengintegrasikan sumber data dan pemrosesan ini. Mahal dan sulit untuk mengintegrasikan dan memelihara sistem tersebut. Sistem ini juga sering tidak memiliki pemantauan, pemberitahuan, dan kontrol tingkat perusahaan yang dapat ditawarkan oleh layanan yang dikelola penuh.

Dengan Azure Data Factory, Anda dapat menggunakan Salin Aktivitas dalam alur data untuk memindahkan data dari penyimpanan data sumber lokal dan cloud ke penyimpanan data sentralisasi di cloud untuk analisis lebih lanjut. Misalnya, Anda dapat mengumpulkan data di Azure Data Lake Store dan mengubah data nanti dengan menggunakan layanan komputasi Azure Data Lake Analytics. Anda juga dapat mengumpulkan data dalam penyimpanan Azure Blob dan mengubahnya nanti dengan menggunakan kluster Azure HDInsight Hadoop.

Mengubah dan memperkaya

Setelah data ada di penyimpanan data terpusat di cloud, proses atau transformasi data yang dikumpulkan dengan menggunakan alur data pemetaan ADF. Alur data memungkinkan teknisi data untuk membangun dan memelihara grafik transformasi data yang dijalankan pada Spark tanpa perlu memahami kluster Spark atau pemrograman Spark.

Jika Anda lebih suka melakukan transformasi kode dengan tangan, ADF mendukung aktivitas eksternal untuk mengeksekusi transformasi Anda pada layanan komputasi seperti HDInsight Hadoop, Spark, Data Lake Analytics, dan Azure Machine Learning.

CI/CD dan terbitkan

Data Factory menawarkan dukungan penuh untuk CI/CD alur data Anda menggunakan Azure DevOps dan GitHub. Ini memungkinkan Anda untuk secara bertahap mengembangkan dan memberikan proses ETL Anda sebelum menerbitkan produk jadi. Setelah data mentah disempurnakan ke dalam bentuk siap pakai, muat data ke Azure Data Warehouse, Azure SQL Database, Azure CosmosDB, atau mesin analitik apa pun yang dapat diarahkan pengguna bisnis Anda dari alat kecerdasan bisnis mereka.

Monitor

Setelah Anda berhasil membangun dan menerapkan alur integrasi data Anda, memberikan nilai bisnis dari data yang disempurnakan, pantau aktivitas dan alur terjadwal untuk tingkat keberhasilan dan kegagalan. Azure Data Factory memiliki dukungan bawaan untuk pemantauan alur melalui Azure Monitor, API, PowerShell, log Azure Monitor, dan panel kesehatan di portal Microsoft Azure.

Konsep tingkat atas

Langganan Azure dapat memiliki satu atau beberapa instans Azure Data Factory (atau pabrik data). Azure Data Factory terdiri dari empat komponen utama.

  • Pipelines
  • Aktivitas
  • Himpunan data
  • Layanan Tertaut
  • Aliran Data
  • Integration Runtime

Komponen-komponen ini bekerja sama untuk menyediakan platform tempat Anda dapat menyusun alur kerja berbasis data dengan langkah-langkah untuk memindahkan dan mengubah data.

Alur

Pabrik data dapat memiliki satu atau beberapa alur. Pipeline adalah pengelompokan logis dari aktivitas yang melakukan satu unit kerja. Bersama-sama, aktivitas dalam alur mengerjakan tugas. Misalnya, alur dapat berisi sekelompok aktivitas yang menyerap data dari Azure blob, lalu menjalankan kueri Apache Hive pada kluster HDInsight untuk mempartisi data.

Keuntungannya adalah bahwa alur memungkinkan Anda untuk mengelola aktivitas sebagai satu set alih-alih masing-masing secara individual. Kegiatan dalam pipa dapat dirangkai bersama untuk beroperasi secara berurutan, atau mereka dapat beroperasi secara independen secara paralel.

Pemetaan Aliran Data

Buat dan kelola grafik logika transformasi data yang bisa Anda gunakan untuk mentransformasi data berukuran apa pun. Anda dapat membangun library yang dapat digunakan kembali dari rutinitas transformasi data dan menjalankan proses tersebut dengan cara yang ditingkatkan dari pipeline ADF Anda. Azure Data Factory akan mengeksekusi logika Anda pada kluster Spark yang berputar ke atas dan bawah saat Anda membutuhkannya. Anda tidak perlu mengelola atau memelihara kluster.

Aktivitas

Aktivitas mewakili langkah pemrosesan dalam alur. Misalnya, Anda dapat menggunakan aktivitas salin untuk menyalin data dari satu penyimpanan data ke penyimpanan data lain. Aktivitas Apache Hive menjalankan kueri Apache Hive pada kluster Azure HDInsight untuk mengubah atau menganalisis data Anda. Azure Data Factory memiliki tiga pengelompokan aktivitas: aktivitas pemindahan data, aktivitas transformasi data, dan aktivitas kontrol.

Himpunan data

Kumpulan data mewakili struktur data dalam penyimpanan data, yang hanya menunjuk atau mereferensikan data yang ingin Anda gunakan dalam aktivitas Anda sebagai input atau output.

Layanan Tertaut

Layanan tertaut mirip seperti string koneksi, yang menentukan informasi koneksi yang diperlukan agar Data Factory tersambung ke sumber daya eksternal. Anggap seperti ini: layanan tertaut menentukan koneksi ke sumber data dan himpunan data mewakili struktur data. Misalnya, layanan yang ditautkan dengan Azure Storage menentukan string koneksi yang akan disambungkan ke akun Azure Storage. Himpunan data Azure blob menentukan kontainer blob dan folder yang berisi data.

Layanan tertaut digunakan karena dua alasan di Data Factory:

  • Untuk mewakili penyimpanan data yang mencakup, tetapi tidak terbatas pada, database SQL Server, database Oracle, berbagi file, atau akun penyimpanan Azure blob. Untuk daftar penyimpanan data yang didukung, lihat artikel aktivitas salin.

  • Untuk mewakili sumber daya komputasi yang dapat menghosting eksekusi aktivitas. Misalnya, aktivitas HDInsightHive yang berjalan pada kluster HDInsight Hadoop. Untuk daftar aktivitas transformasi dan lingkungan komputasi yang didukung, lihat artikel data transformasi.

Integration Runtime

Di Data Factory, aktivitas menentukan tindakan yang akan dilakukan. Layanan tertaut menentukan penyimpanan data target atau layanan komputasi. Runtime integrasi merupakan jembatan antara aktivitas dan Layanan tertaut. Ini dirujuk oleh layanan atau aktivitas tertaut, dan menyediakan lingkungan komputasi tempat aktivitas dijalankan atau dikirim. Dengan begitu, aktivitas dapat dilakukan di wilayah yang paling dekat dengan penyimpanan data target atau layanan komputasi melalui cara paling berperforma sekaligus memenuhi kebutuhan keamanan dan kepatuhan.

Pemicu

Pemicu mewakili unit pemrosesan yang menentukan kapan mulainya eksekusi alur. Ada berbagai jenis pemicu untuk berbagai jenis peristiwa.

Proses alur

Proses alur adalah contoh eksekusi alur. Eksekusi alur biasanya dibuat dengan meneruskan argumen ke parameter yang ditentukan dalam alur. Argumen dapat dilewatkan secara manual atau dalam definisi pemicu.

Parameter

Parameter adalah pasangan nilai kunci dari konfigurasi baca-saja.Parameter didefinisikan dalam alur. Argumen untuk parameter yang ditentukan diteruskan selama eksekusi dari konteks proses yang dibuat oleh pemicu atau alur yang dijalankan secara manual. Aktivitas dalam alur mengonsumsi nilai parameter.

Himpunan data adalah parameter yang sangat diketik dan entitas yang dapat digunakan kembali/dapat direferensikan. Aktivitas dapat mereferensikan himpunan data dan dapat menggunakan properti yang ditentukan dalam definisi himpunan data.

Layanan tertaut juga merupakan parameter yang sangat diketik yang berisi informasi koneksi ke penyimpanan data atau lingkungan komputasi. Ini juga merupakan entitas yang dapat digunakan kembali/dapat direferensikan.

Alur kontrol

Aliran kontrol adalah orkestrasi aktivitas pipa yang mencakup aktivitas rantai dalam urutan, percabangan, menentukan parameter pada tingkat pipa, dan menyampaikan argumen sambil menjalankan alur sesuai permintaan atau dari pemicu. Ini juga mencakup kontainer passing dan looping status kustom, yaitu untuk setiap iterator.

Variabel

Variabel dapat digunakan di dalam alur untuk menyimpan nilai sementara dan juga dapat digunakan bersama dengan parameter untuk memungkinkan nilai kelulusan antara alur, aliran data, dan aktivitas lainnya.

Langkah berikutnya

Berikut adalah dokumen langkah penting berikutnya untuk dijelajahi: