Analitik data besar dengan keamanan tingkat perusahaan menggunakan Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Ide solusi

Artikel ini adalah ide solusi. Jika Anda ingin kami memperluas konten dengan informasi lebih lanjut, seperti potensi kasus penggunaan, layanan alternatif, pertimbangan implementasi, atau panduan harga, beri tahu kami dengan memberikan umpan balik GitHub.

Solusi yang dijelaskan dalam artikel ini menunjukkan cara menggunakan Azure Synapse Analytics untuk membangun platform data modern untuk menyerap, memproses, menyimpan, menyajikan, dan memvisualisasikan data dari berbagai sumber.

Arsitektur

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Unduh file Visio arsitektur ini.

Aliran data

Data mengalir melalui solusi sebagai berikut:

  1. Aktivitas penyalinan pipeline Synapse menyerap data terstruktur mentah dari gudang data relasional eksternal, data semi terstruktur seperti log, file datar, dan xml, dan sistem sumber lainnya. Data yang diserap ini kemudian disimpan di lokasi Azure Data Lake Storage Gen2. Dengan menggunakan runtime integrasi yang dihosting sendiri, Anda juga dapat mengelola dan menjalankan aktivitas salin antara penyimpanan data di lingkungan lokal dan cloud.

  2. Azure Data Lake Storage Gen2 menyediakan penyimpanan yang aman.

    • Menggunakan firewall untuk membatasi akses akun Storage ke layanan Azure tepercaya disarankan untuk membatasi kerentanan serangan eksternal.

    • Anda dapat menggunakan titik akhir privat untuk akun Microsoft Azure Storage Anda untuk memungkinkan klien di jaringan virtual (VNet) mengakses data dengan aman melalui Link Privat. Titik akhir privat menggunakan alamat IP dari ruang alamat VNet untuk layanan akun penyimpanan Anda. Lalu lintas jaringan antara klien di VNet dan akun penyimpanan melintasi VNet dan tautan privat di jaringan backbone Microsoft, menghilangkan paparan dari internet publik.

  3. Data dienkripsi saat diam setelah diserap ke dalam data lake. Menggunakan kunci yang dikelola pelanggan Anda sendiri dapat lebih melindungi kunci enkripsi Anda dan menambahkan lebih banyak fleksibilitas saat mengelola kontrol akses.

  4. Data tertelan menggunakan pipeline Synapse dan diproses secara bertahap menggunakan kumpulan Synapse Spark dan kemampuan Data Lake-nya. Data disimpan di akun Azure Storage menggunakan direktori Azure Data Lake Storage Gen 2 khusus tahap. Tahapan tersebut adalah:

    1. Aktivitas penyalinan pipeline Synapse awalnya menyerap data dari sistem sumber. Data yang tertelan ini disimpan dalam format mentahnya menggunakan direktori Bronze danau data.

    2. Kumpulan Synapse Spark kemudian menjalankan aturan kualitas data untuk membersihkan data mentah. Data yang diperkaya ini kemudian disimpan di direktori Silver data lake.

    3. Setelah proses pembersihan, kumpulan Spark menerapkan normalisasi, transformasi data, dan aturan bisnis yang diperlukan pada data di direktori Silver. Data yang diubah ini kemudian disimpan di direktori Gold data lake.

  5. Konektor Synapse Apache Spark ke Synapse SQL mendorong data yang dinormalisasi ke kumpulan SQL Synapse untuk dikonsumsi oleh aplikasi hilir dan layanan pelaporan seperti Power BI. Konektor ini dirancang untuk mentransfer data secara optimal antara kumpulan Apache Spark tanpa server dan kumpulan SQL di ruang kerja Azure Synapse Analytics.

  6. Layanan Power BI menggunakan mode DirectQuery untuk mengambil data dengan aman dari kumpulan SQL Synapse. Gateway data yang dipasang di mesin virtual di VNet pribadi bertindak sebagai platform penghubung antara layanan Power BI dan kumpulan SQL Synapse, menggunakan Titik Akhir Privat di VNet yang sama untuk terhubung dengan aman.

  7. Aplikasi eksternal dapat mengakses data dari kumpulan tanpa server Synapse atau kumpulan SQL khusus dengan mengakses titik akhir privat yang sesuai yang terhubung ke VNet.

Solusi contoh ini menggunakan beberapa layanan dan fitur Azure:

  • Azure Synapse Analytics adalah layanan inti yang digunakan dalam solusi contoh ini untuk menyediakan konsumsi, pemrosesan, dan analitik data.

  • Azure Data Lake Storage (Gen2) dibangun di atas layanan Azure Storage dan menyediakan kemampuan data lake yang digunakan layanan lain dalam contoh solusi ini saat menyimpan dan memproses data.

  • Pipeline synapse menyalin data dari sumber asli ke lokasi penyimpanan danau data.

  • Apache Spark di Azure Synapse Analytics membersihkan, menormalkan, dan melakukan tugas pemrosesan lainnya pada data yang tertelan dari lokasi sumber.

  • Kumpulan SQL khusus (sebelumnya SQL DW) menyediakan kemampuan pergudangan data untuk data setelah diproses dan dinormalisasi dan siap digunakan oleh pengguna akhir dan aplikasi Anda.

  • Kumpulan SQL tanpa server memungkinkan pengguna untuk dengan cepat mengkueri dan menganalisis data yang diproses dan dinormalisasi.

  • Azure Synapse Managed Virtual Network menciptakan lingkungan jaringan virtual terkelola yang terisolasi untuk ruang kerja Azure Synapse, membongkar kebutuhan Anda untuk mengelola konfigurasi jaringan untuk sumber daya ruang kerja.

  • Azure Synapse Dikelola titik akhir pribadi mebuat tautan pribadi ke sumber daya Azure dan rutekan lalu lintas antara ruang kerja Azure Synapse Anda dan sumber daya Azure lainnya hanya menggunakan jaringan tulang punggung Microsoft.

  • Azure Virtual Network (VNet) menyediakan kemampuan jaringan privat untuk sumber daya Azure yang bukan bagian dari ruang kerja Azure Synapse. Hal ini memungkinkan Anda untuk mengelola akses, keamanan, dan perutean antar sumber daya.

  • Titik akhir Privat Azure menyediakan alamat IP pribadi dari solusi VNet ke layanan terkelola Azure, yang secara efektif menghubungkan layanan ke VNet. Ini memungkinkan jaringan yang aman antara ruang kerja Azure Synapse dan layanan Azure lainnya seperti Microsoft Azure Storage, Azure Cosmos DB, Database Azure SQL, atau layanan Azure Private Link Anda sendiri.

  • Power BI memungkinkan pengguna untuk melakukan analisis lanjutan dan berbagi wawasan menggunakan data yang diproses dari solusi tersebut.

Komponen

Detail skenario

Azure Synapse Analytics menyatukan integrasi data, pergudangan data perusahaan, dan analitik data besar untuk membantu Anda membangun platform data modern yang mampu menangani tantangan data paling umum yang dihadapi organisasi besar. Azure Virtual Network memungkinkan Anda membuat jaringan masuk pribadi Anda sendiri di cloud publik Azure dan jaringan terkelola, dan titik akhir privat Azure memungkinkan Anda mengintegrasikan layanan cloud terkelola dengan aman ke dalam jaringan pribadi ini.

Kemungkinan kasus penggunaan

Solusi yang dijelaskan dalam artikel ini menunjukkan cara menggabungkan teknologi ini untuk membangun platform data modern yang dapat menyerap, memproses, menyimpan, menyajikan, dan memvisualisasikan data dari sumber yang berbeda, baik terstruktur maupun semistruktur, sambil memenuhi standar keamanan tinggi yang diharapkan organisasi Anda. Hal ini termasuk mendukung persyaratan umum, seperti:

  • Mengamankan sumber data. Sumber data di dalam jaringan perusahaan lokal atau di jaringan virtual diamankan di balik firewall. Sumber daya ini dapat diakses scara aman dengan menginstal runtime integrasi yang dihosting sendiri pada sumber daya yang dihosting di tempat atau di jaringan virtual.

  • Autentikasi dan otorisasi menggunakan identitas terkelola. Komunikasi antara layanan Azure dapat diamankan menggunakan identitas terkelola, yang menyediakan identitas untuk digunakan aplikasi saat menyambungkan ke sumber daya yang mendukung autentikasi Microsoft Entra. Dalam contoh ini, Azure Synapse menggunakan identitas terkelola untuk mengintegrasikan alurnya.

  • Titik akhir privat membuat tautan pribadi ke sumber daya Azure. Azure Synapse menyediakan fungsionalitas titik akhir privat yang dikelola sepenuhnya untuk layanan dalam ruang kerja Synapse (seperti Azure Storage atau Azure Cosmos DB). Sumber daya Azure lainnya seperti aplikasi Azure, Microsoft Power BI, dan layanan Azure Synapse diamankan menggunakan titik akhir privat yang terintegrasi ke dalam jaringan virtual solusi contoh. Lalu lintas jaringan antara jaringan privat Anda dan kumpulan Synapse menggunakan Private Link untuk memindahkan lalu lintas melalui jaringan backbone Microsoft, menghilangkan paparan internet publik.

  • Mengenkripsi data dalam perjalanan. Data dienkripsi saat transit karena semua transfer data melalui saluran aman HTTPS dan TLS melalui TCP untuk mencegah serangan man-in-the-middle selama komunikasi dengan layanan Azure, memastikan pergerakan data pribadi yang aman dari ujung ke ujung.

  • Mengenkripsi data saat tidak aktif. Enkripsi data transparan di Azure Synapse Analytics membantu melindungi dari aktivitas jahat dengan melakukan enkripsi dan dekripsi waktu nyata dari data Anda yang disimpan dalam ruang kerja Synapse. Azure Storage mengenkripsi semua data di akun penyimpanan ketika tidak aktif. Secara default, data dienkripsi dengan kunci yang dikelola Microsoft, tetapi Anda dapat mengelola kunci Anda sendiri jika Anda memerlukan kontrol tambahan atas enkripsi.

Menyebarkan skenario ini

Anda harus memiliki akun Azure yang sudah ada. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Template Azure Resource Manager, yang Anda perlukan untuk menerapkan komponen yang dijelaskan dalam arsitektur ini, tersedia di repositori GitHub. Templat ini akan menerapkan semua layanan yang ditampilkan dalam diagram arsitektur kecuali untuk: Power BI Data Gateway, waktu proses integrasi yang dihosting sendiri, dan Azure Key Vault untuk kunci yang dikelola pelanggan.

Terserah pengguna untuk membuat struktur folder data lake dan alur integrasi Azure Synapse Analytics yang diperlukan untuk terhubung ke sumber data.

Terapkan template ARM secara langsung dengan mengklik tombol ini:

Deploy to Azure

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Langkah berikutnya

Untuk mempelajari cara mengembangkan lebih lanjut pendekatan ini, pelajari dasar-dasar Azure Synapse Analytics dengan menyelesaikan tutorial berikut:

Merujuk pada artikel ini saat merencanakan dan menyebarkan solusi menggunakan Azure Synapse Analytics: