Arsitektur solusi BI di Pusat Keunggulan

Artikel
03/23/2023

Artikel ini menargetkan profesional TI dan manajer TI. Anda akan mempelajari arsitektur solusi BI di COE dan berbagai teknologi yang digunakan. Teknologi mencakup Azure, Power BI, dan Excel. Bersama-sama, teknologi ini dapat dimanfaatkan untuk memberikan platform BI cloud yang dapat diskalakan dan berbasis data.

Merancang platform BI yang kuat seperti membangun jembatan; jembatan yang menghubungkan data sumber yang diperkaya dan diubah ke konsumen data. Rancangan struktur yang kompleks tersebut membutuhkan pola pikir rekayasa, meskipun ini dapat menjadi salah satu arsitektur IT yang paling kreatif dan bermanfaat yang dapat Anda rancang. Dalam organisasi besar, arsitektur solusi BI dapat terdiri dari:

Sumber data
Penyerapan data
Persiapan big data / data
Gudang data
Model semantik BI
Laporan

Diagram yang menunjukkan diagram arsitektur platform BI, dari sumber data hingga penyerapan data, big data, penyimpanan, gudang data, pemodelan semantik BI, pelaporan, dan pembelajaran mesin.

Platform harus mendukung permintaan spesifik. Secara spesifik, platform harus menskalakan dan berkinerja untuk memenuhi harapan layanan bisnis dan konsumen data. Di saat yang sama, platform harus aman secara menyeluruh. Dan, platform harus cukup tangguh untuk beradaptasi dengan perubahan—karena dapat dipastikan bahwa suatu saat data dan area subjek baru akan muncul secara online.

Kerangka kerja

Di Microsoft, sejak awal kami mengadopsi pendekatan seperti sistem dengan berinvestasi dalam pengembangan kerangka kerja. Kerangka kerja proses teknis dan bisnis meningkatkan penggunaan kembali rancangan dan logika serta memberikan hasil yang konsisten. Kerangka kerja juga menawarkan fleksibilitas pada arsitektur yang memanfaatkan banyak teknologi, dan kerangka kerja menyederhanakan dan mengurangi overhead rekayasa melalui proses berulang.

Kami mempelajari bahwa kerangka kerja yang dirancang dengan baik meningkatkan visibilitas ke dalam silsilah data, analisis dampak, pemeliharaan logika bisnis, pengelolaan taksonomi, dan penyederhanaan pengaturan. Selain itu, pengembangan menjadi lebih cepat dan kolaborasi di seluruh tim besar menjadi lebih responsif dan efektif.

Kami akan menjelaskan beberapa kerangka kerja kami dalam artikel ini.

Model data

Model data menyediakan kontrol pada bagaimana data disusun dan diakses. Untuk layanan bisnis dan konsumen data, model data adalah antarmuka mereka dengan platform BI.

Platform BI dapat memberikan tiga jenis model yang berbeda:

Model perusahaan
Model semantik BI
Model Pembelajaran Mesin (ML)

Model perusahaan

Model perusahaan dibangun dan dikelola oleh arsitek TI. Model ini terkadang disebut sebagai model dimensi atau mart data. Biasanya, data disimpan dalam format relasional sebagai tabel dimensi dan fakta. Tabel ini menyimpan data yang dibersihkan dan diperkaya yang dikonsolidasikan dari banyak sistem dan tabel ini mewakili sumber otoritatif untuk pelaporan dan analitik.

Model perusahaan memberikan sumber data tunggal dan konsisten untuk pelaporan dan BI. Model ini dibangun sekali dan dibagikan sebagai standar perusahaan. Kebijakan tata kelola memastikan data aman, sehingga akses ke himpunan data sensitif—seperti informasi pelanggan atau keuangan—dibatasi berdasarkan kebutuhan. Model mengadopsi konvensi penamaan yang memastikan konsistensi, sehingga membangun kredibilitas data dan kualitas lebih lanjut.

Di platform BI cloud, model perusahaan dapat disebarkan ke kumpulan Synapse SQL di Azure Synapse. Kumpulan Synapse SQL kemudian menjadi versi tunggal kebenaran yang dapat diandalkan organisasi untuk wawasan yang cepat dan kuat.

Model semantik BI

Model semantik BI mewakili lapisan semantik pada model perusahaan. Model ini dibangun dan dikelola oleh pengembang BI dan pengguna bisnis. Pengembang BI membuat model semantik BI inti yang menjadi sumber data dari model perusahaan. Pengguna bisnis dapat membuat model dengan skala lebih kecil dan independen—atau, mereka dapat memperluas model semantik BI inti dengan sumber departemen atau eksternal. Model semantik BI umumnya berfokus pada satu area subjek, dan sering kali dibagikan secara luas.

Kemampuan bisnis diaktifkan tidak dengan data saja, tetapi dengan model semantik BI yang menjelaskan konsep, hubungan, aturan, dan standar. Dengan cara ini, model mewakili struktur intuitif dan kemudahan untuk dipahami yang menentukan hubungan data dan merangkum aturan bisnis sebagai perhitungan. Model juga dapat memberlakukan izin data mendetail, memastikan orang yang tepat memiliki akses ke data yang tepat. Terlebih lagi, model mempercepat performa kueri, menyediakan analitik interaktif yang sangat responsif—bahkan pada terabyte data. Seperti model perusahaan, model semantik BI mengadopsi konvensi penamaan yang memastikan konsistensi.

Dalam platform BI cloud, pengembang BI dapat menyebarkan model semantik BI ke Azure Analysis Services, kapasitas Power BI Premium dari kapasitas Microsoft Fabric.

Penting

Terkadang artikel ini mengacu pada Power BI Premium atau langganan kapasitasnya (SKU P). Ketahuilah bahwa Microsoft saat ini mengonsolidasikan opsi pembelian dan menghentikan SKU Power BI Premium per kapasitas. Pelanggan baru dan yang sudah ada harus mempertimbangkan untuk membeli langganan kapasitas Fabric (F SKU) sebagai gantinya.

Untuk informasi selengkapnya, lihat Pembaruan penting yang masuk ke lisensi Power BI Premium dan Tanya Jawab Umum Power BI Premium.

Sebaiknya sebarkan ke Power BI saat digunakan sebagai lapisan pelaporan dan analitik. Produk ini mendukung berbagai mode penyimpanan, yang memungkinkan tabel model data untuk menyimpan datanya atau untuk menggunakan DirectQuery, yang merupakan teknologi yang meneruskan kueri hingga ke sumber data yang mendasarinya. DirectQuery adalah mode penyimpanan yang ideal jika tabel model mewakili volume data besar atau terdapat kebutuhan untuk memberikan hasil yang hampir real time. Dua mode penyimpanan dapat digabungkan: Model komposit menggabungkan tabel yang menggunakan mode penyimpanan yang berbeda dalam satu model.

Untuk model yang sangat dikueri, Azure Load Balancer dapat digunakan untuk mendistribusikan secara merata beban kueri di seluruh replika model. Hal ini juga memungkinkan Anda untuk menskalakan aplikasi dan membuat model semantik BI yang sangat tersedia.

Model Pembelajaran Mesin

Model Pembelajaran Mesin (ML) dibangun dan dikelola oleh ilmuwan data. Model sebagian besar dikembangkan dari sumber mentah di data lake.

Model ML terlatih dapat mengungkapkan pola dalam data Anda. Dalam banyak keadaan, pola tersebut dapat digunakan untuk membuat prediksi yang dapat digunakan untuk memperkaya data. Misalnya, perilaku pembelian dapat digunakan untuk memprediksi perubahan perilaku pelanggan atau pelanggan segmen. Hasil prediksi dapat ditambahkan ke model perusahaan untuk memungkinkan analisis dengan segmen pelanggan.

Dalam platform BI cloud, Anda dapat menggunakan Azure Machine Learning untuk melatih, menyebarkan, mengotomatiskan, mengelola, dan melacak model ML.

Gudang data

Berada di pusat platform BI adalah gudang data, yang menghosting model perusahaan Anda. Ini adalah sumber data berizin—sebagai sistem catatan dan sebagai hub—melayani model perusahaan untuk pelaporan, BI, dan ilmu data.

Banyak layanan bisnis, termasuk aplikasi lini bisnis (LOB), dapat mengandalkan gudang data sebagai sumber pengetahuan perusahaan yang otoritatif dan teratur.

Di Microsoft, gudang data kami dihosting di Azure Data Lake Storage Gen2 (ADLS Gen2) dan Azure Synapse Analytics.

Gambar memperlihatkan Azure Synapse Analytics yang tersambung ke Azure Data Lake Storage Gen2.

ADLS Gen2 menjadikan Azure Storage sebagai fondasi untuk membangun data lake perusahaan di Azure. Layanan ini dirancang untuk mengelola beberapa petabyte informasi sekaligus mempertahankan ratusan gigabit throughput. Selain itu, layanan ini menawarkan kapasitas dan transaksi penyimpanan berbiaya rendah. Terlebih, layanan ini mendukung akses yang kompatibel dengan Hadoop, yang memungkinkan Anda mengelola dan mengakses data seperti yang Anda lakukan dengan Sistem File Terdistribusi Hadoop (HDFS). Bahkan, Azure HDInsight, Azure Databricks, dan Azure Synapse Analytics semuanya dapat mengakses data yang disimpan di ADLS Gen2. Jadi, dalam platform BI, menyimpan data sumber mentah, data bertahap atau semi-terproses, dan data siap produksi adalah pilihan yang bagus. Kami menggunakannya untuk menyimpan semua data bisnis.
Azure Synapse Analytics adalah layanan analitik yang menyatukan pergudangan data perusahaan dan analitik Big Data. Ini memberi Anda kebebasan untuk mengkueri data tentang persyaratan Anda, menggunakan sumber daya tanpa server sesuai permintaan atau khusus — pada skala. Synapse SQL, komponen Azure Synapse Analytics, mendukung analitik berbasis T-SQL lengkap, sehingga ideal untuk menghosting model perusahaan yang terdiri dari tabel dimensi dan fakta. Tabel dapat dimuat secara efisien dari ADLS Gen2 menggunakan kueri Polybase T-SQL sederhana. Anda kemudian memiliki kemampuan MPP untuk menjalankan analitik berkinerja tinggi.

Kerangka kerja Mesin Aturan Bisnis

Kami mengembangkan kerangka kerja Mesin Aturan Bisnis (BRE) untuk membuat katalog logika bisnis apa pun yang dapat diimplementasikan di lapisan gudang data. BRE dapat berarti banyak hal, tetapi dalam konteks gudang data BRE berguna untuk membuat kolom terhitung dalam tabel relasional. Kolom terhitung ini biasanya direpresentasikan sebagai perhitungan atau ekspresi matematika menggunakan pernyataan bersyarat.

Tujuannya adalah untuk memisahkan logika bisnis dari kode BI inti. Secara tradisional, aturan bisnis dikodekan secara permanen ke dalam prosedur yang disimpan SQL, sehingga sering kali menghasilkan banyak upaya untuk mempertahankannya ketika kebutuhan bisnis berubah. Dalam BRE, aturan bisnis ditentukan satu kali dan digunakan beberapa kali ketika diterapkan ke entitas gudang data yang berbeda. Jika logika perhitungan harus diubah, logika hanya perlu diperbarui di satu tempat dan tidak dalam banyak prosedur tersimpan. Terdapat manfaat sampingan juga: kerangka kerja BRE mendorong transparansi dan visibilitas ke dalam logika bisnis yang diimplementasikan, yang dapat diekspos melalui rangkaian laporan yang membuat dokumentasi pembaruan mandiri.

Sumber data

Gudang data dapat mengonsolidasikan data dari hampir semua sumber data. Sebagian besar gudang data dibangun di atas sumber data LOB, yang biasanya merupakan database relasional yang menyimpan data khusus subjek untuk penjualan, pemasaran, keuangan, dll. Database ini dapat dihosting cloud atau dapat secara lokal. Sumber data lain dapat berbasis file, terutama log web atau data IOT yang bersumber dari perangkat. Terlebih lagi, data dapat bersumber dari vendor Software-as-a-Service (SaaS).

Di Microsoft, beberapa sistem internal kami menghasilkan data operasional langsung ke ADLS Gen2 menggunakan format file mentah. Selain data lake kami, sistem sumber lain terdiri dari aplikasi LOB relasional, buku kerja Excel, sumber berbasis file lain, serta Manajemen Data Master (MDM) dan repositori data kustom. Repositori MDM memungkinkan kami mengelola data master untuk memastikan versi data yang otoritatif, terstandarisasi, dan tervalidasi.

Penyerapan data

Secara berkala, dan sesuai dengan ritme bisnis, data diserap dari sistem sumber dan dimuat ke dalam gudang data. Bisa satu kali sehari atau pada interval yang lebih sering. Penyerapan data berkaitan dengan ekstraksi, perubahan, dan pemuatan data. Atau, mungkin sebaliknya: ekstraksi, pemuatan, kemudian perubahan data. Perbedaannya terdapat di tempat perubahan terjadi. Transformasi diterapkan untuk membersihkan, menyesuaikan, mengintegrasikan, dan menstandarkan data. Untuk informasi selengkapnya, lihat Mengekstrak, mengubah, dan memuat (ETL).

Pada akhirnya, tujuannya adalah memuat data yang tepat ke dalam model perusahaan Anda secepat dan seefisien mungkin.

Di Microsoft, kami menggunakan Azure Data Factory (ADF). Layanan ini digunakan untuk menjadwalkan dan mengatur validasi data, transformasi, dan beban massal dari sistem sumber eksternal ke dalam data lake kami. Layanan ini dikelola dengan kerangka kerja kustom untuk memproses data secara paralel dan berskala. Selain itu, pengelogan komprehensif dilakukan untuk mendukung pemecahan masalah, pemantauan performa, dan untuk memicu pemberitahuan peringatan ketika kondisi tertentu terpenuhi.

Sementara itu, Azure Databricks—platform analitik berbasis Apache Spark yang dioptimalkan untuk platform layanan cloud Azure—melakukan transformasi khusus untuk ilmu data. Layanan ini juga membangun dan menjalankan model ML menggunakan notebook Python. Skor dari model ML ini dimuat ke dalam gudang data untuk mengintegrasikan prediksi dengan aplikasi dan laporan perusahaan. Karena Azure Databricks mengakses file data lake secara langsung, Azure Databricks menghilangkan atau meminimalkan kebutuhan untuk menyalin atau memperoleh data.

Gambar memperlihatkan Azure Data Factory sumber data dan mengatur alur data dengan Azure Databricks melalui Azure Data Lake Storage Gen2.

Kerangka kerja penyerapan

Kami mengembangkan kerangka kerja penyerapan sebagai serangkaian tabel dan prosedur konfigurasi. Kerangka kerja ini mendukung pendekatan berbasis data untuk memperoleh data bervolume besar pada kecepatan tinggi dan dengan kode minimal. Singkatnya, kerangka kerja ini menyederhanakan proses akuisisi data untuk memuat gudang data.

Kerangka kerja bergantung pada tabel konfigurasi yang menyimpan sumber data dan informasi terkait tujuan data seperti jenis sumber, server, database, skema, dan detail terkait tabel. Pendekatan desain ini berarti kita tidak perlu mengembangkan alur ADF tertentu atau paket SQL Server Integration Services (SSIS). Sebaliknya, prosedur ditulis dalam bahasa pilihan kita untuk membuat alur ADF yang dihasilkan dan dijalankan secara dinamis pada waktu eksekusi. Jadi, akuisisi data menjadi latihan konfigurasi yang mudah dioperasionalkan. Secara tradisional, diperlukan sumber daya pengembangan yang luas untuk membuat paket ADF atau SSIS yang dikodekan secara permanen.

Kerangka kerja penyerapan juga dirancang untuk menyederhanakan proses penanganan perubahan skema sumber upstram. Kerangka kerja mudah digunakan untuk memperbarui data konfigurasi—secara manual atau otomatis, ketika perubahan skema terdeteksi untuk memperoleh atribut yang baru saja ditambahkan dalam sistem sumber.

Kerangka kerja orkestrasi

Kami mengembangkan kerangka kerja orkestrasi untuk mengoperasionalkan dan mengatur alur data kami. Kerangka kerja ini menggunakan desain berbasis data yang bergantung pada rangkaian tabel konfigurasi. Tabel ini menyimpan metadata yang menjelaskan ketergantungan alur dan cara memetakan data sumber ke struktur data target. Investasi dalam mengembangkan kerangka kerja adaptif ini telah terbayarkan dengan sendirinya; tidak ada lagi persyaratan untuk mengodekan secara permanen setiap pergerakan data.

Penyimpanan data

Data lake dapat menyimpan data mentah bervolume besar untuk digunakan nanti bersama dengan transformasi data penahapan.

Di Microsoft, kami menggunakan ADLS Gen2 sebagai sumber kepercayaan tunggal kami. ADLS Gen2 menyimpan data mentah bersama dengan data bertahap dan data siap produksi. ADLS Gen2 menyediakan data lake yang sangat dapat diskalakan dan hemat biaya untuk analitik data besar. Menggabungkan kekuatan sistem file berkinerja tinggi dengan skala besar, sistem ini dioptimalkan untuk beban kerja analitik data, yang mempercepat waktu untuk wawasan.

ADLS Gen2 menyediakan dua sistem terbaik di dunia: yaitu penyimpanan BLOB dan namespace sistem file berkinerja tinggi, yang kami konfigurasi dengan izin akses terperinci.

Data yang disempurnakan kemudian disimpan dalam database relasional untuk memberikan penyimpanan data berkinerja tinggi dan sangat dapat diskalakan untuk model perusahaan, dengan keamanan, tata kelola, dan kemampuan pengelolaan. Mart data khusus subjek disimpan di Azure Synapse Analytics, yang dimuat dengan kueri Azure Databricks atau Polybase T-SQL.

Penggunaan data

Pada lapisan pelaporan, layanan bisnis menggunakan data perusahaan yang bersumber dari gudang data. Layanan bisnis juga mengakses data langsung di data lake untuk analisis ad hoc atau tugas ilmu data.

Izin terperinci diberlakukan di semua lapisan: di data lake, model perusahaan, dan model semantik BI. Izin memastikan konsumen data hanya dapat melihat data yang mereka miliki hak untuk mengaksesnya.

Di Microsoft, kami menggunakan laporan dan dasbor Power BI, dan laporan paginasi Power BI. Beberapa pelaporan dan analisis ad hoc dilakukan di Excel—terutama untuk pelaporan keuangan.

Kami menerbitkan kamus data, yang menyediakan informasi referensi tentang model data kami. Kamus data disediakan untuk pengguna kami sehingga pengguna dapat menemukan informasi tentang platform BI kami. Kamus mendokumentasikan rancangan model, yang menyediakan deskripsi tentang entitas, format, struktur, silsilah data, hubungan, dan perhitungan. Kami menggunakan Azure Data Catalog untuk memudahkan sumber data kami ditemukan dan dimengerti.

Biasanya, pola konsumsi data berbeda berdasarkan peran:

Analis data terhubung langsung ke model semantik BI. Jika model semantik BI inti berisi semua data dan logika yang dibutuhkan model, analisis data menggunakan koneksi langsung untuk membuat laporan dan dasbor Power BI. Jika mode perlu memperluas model dengan data departemen, analisis data membuat model komposit Power BI. Jika terdapat kebutuhan akan laporan gaya spreadsheet, analisis data menggunakan Excel untuk menghasilkan laporan berdasarkan model semantik BI inti atau model semantik BI departemen.
Pengembang BI dan penulis laporan operasional terhubung langsung ke model perusahaan. Pengembang dan penulis menggunakan Power BI Desktop untuk membuat laporan analitik koneksi langsung. Mereka juga dapat menulis laporan BI jenis operasional sebagai laporan paginasi Power BI, yang menulis kueri SQL asli untuk mengakses data dari model perusahaan Azure Synapse Analytics dengan menggunakan T-SQL, atau model semantik Power BI dengan menggunakan DAX atau MDX.
Ilmuwan data terhubung langsung ke data di data lake. Ilmuwan data menggunakan Azure Databricks dan notebook Python untuk mengembangkan model ML, yang sering kali bersifat eksperimental dan memerlukan keterampilan khusus untuk penggunaan produksi.

Gambar memperlihatkan konsumsi Azure Synapse Analytics dengan Power BI, Excel, dan Azure Pembelajaran Mesin.

Untuk informasi selengkapnya tentang artikel ini, lihat sumber daya berikut ini:

Layanan profesional

Mitra Power BI bersertifikat tersedia untuk membantu organisasi Anda berhasil saat menyiapkan COE. Mereka dapat memberi Anda pelatihan hemat biaya atau audit data Anda. Untuk melibatkan mitra Power BI, kunjungi portal mitra Power BI.

Anda juga dapat berinteraksi dengan mitra konsultasi berpengalaman. Mereka dapat membantu Anda menilai, mengevaluasi, atau menerapkan Power BI.

Arsitektur solusi BI di Pusat Keunggulan

Kerangka kerja