Gudang data perusahaan

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

Ide solusi

Artikel ini adalah ide solusi. Jika Anda ingin kami memperluas konten dengan informasi lebih lanjut, seperti potensi kasus penggunaan, layanan alternatif, pertimbangan implementasi, atau panduan harga, beri tahu kami dengan memberikan umpan balik GitHub.

Artikel ini menyajikan solusi untuk gudang data perusahaan di Azure yang:

  • Menggabungkan semua data Anda, apa pun skala atau formatnya.
  • Menyediakan cara bagi semua pengguna Anda untuk mendapatkan wawasan dari data Anda melalui dasbor analitik, laporan operasional, dan analitik tingkat lanjut.

ApacheĀ® dan Apache Spark adalah merek dagang terdaftar atau merek dagang dari Apache Software Foundation di Amerika Serikat dan/atau negara lain. Tidak ada dukungan oleh The Apache Software Foundation yang tersirat oleh penggunaan tanda ini.

Arsitektur

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Unduh file Visio arsitektur ini.

Aliran data

  1. Alur Azure Synapse Analytics menyatukan data terstruktur, tidak terstruktur, dan semi terstruktur, seperti log, file, dan media. Alur menyimpan data di Azure Data Lake Storage.
  2. Kumpulan Apache Spark di Azure Synapse Analytics membersihkan dan mengubah data Data Lake Storage.
  3. Azure Synapse Analytics menggabungkan data yang diproses dengan data terstruktur yang ada, membuat satu hub data terpadu.
  4. Kumpulan SQL khusus membuat data tersedia untuk laporan operasional dan dasbor analitik yang mendapatkan wawasan. Azure Analysis Services melayani laporan dan dasbor kepada ribuan pengguna akhir.

Komponen

  • Azure Synapse Analytics adalah layanan analitik untuk gudang data dan sistem big data. Alat ini menggunakan arsitektur pemrosesan paralel secara besar-besaran dan memiliki integrasi mendalam dengan layanan Azure.
  • Alur Azure Synapse Analytics menyediakan cara bagi Anda untuk membuat, menjadwalkan, dan mengatur alur kerja, seperti mengekstrak, memuat, mengubah (ELT) dan mengekstrak, mengubah, memuat (ETL) alur kerja.
  • Azure Blob Storage menyediakan penyimpanan objek yang dapat diskalakan dan hemat biaya secara besar-besaran untuk semua jenis data yang tidak terstrukturā€”gambar, video, audio, dokumen, dan banyak lagi.
  • Data Lake Storage adalah gudang penyimpanan yang menyimpan data dalam jumlah besar dalam format asli dan mentahnya. Data Lake Storage dibangun di atas Blob Storage. Akibatnya, Data Lake Storage menawarkan skalabilitas, penyimpanan berjenjang, ketersediaan tinggi, dan kemampuan pemulihan bencana Blob Storage.
  • Kumpulan Azure Synapse Analytics Spark menyediakan kerangka kerja pemrosesan paralel yang mendukung pemrosesan dalam memori untuk meningkatkan performa aplikasi analitik big data.
  • Analysis Services adalah mesin analitik tingkat perusahaan yang menyediakan cara mudah bagi pengguna untuk melakukan analisis data ad hoc. Anda dapat menggunakan Analysis Services untuk mengatur, menguji, dan memberikan solusi bisnis dalam skala besar.
  • Power BI adalah rangkaian alat analisis bisnis yang memberikan wawasan ke seluruh organisasi Anda. Anda bisa menggunakan Power BI untuk menyambungkan ke ratusan sumber data, menyederhanakan persiapan data, dan mendorong analisis ad hoc. Anda juga dapat menghasilkan laporan yang indah dan menerbitkannya untuk digunakan organisasi Anda di web dan di seluruh perangkat seluler.

Detail skenario

Gudang data perusahaan menggabungkan semua data Anda, apa pun sumber, format, atau skalanya. Gudang data juga menyediakan cara bagi Anda untuk menjalankan analitik berperforma tinggi pada data Anda, sehingga Anda dapat memperoleh wawasan melalui dasbor analitik, laporan operasional, dan analitik tingkat lanjut.

Solusi ini membangun gudang data yang:

  • Adalah satu sumber kebenaran untuk data Anda.
  • Mengintegrasikan sumber data relasional dengan himpunan data lain yang tidak terstruktur.
  • Menggunakan pemodelan semantik dan alat visualisasi yang kuat untuk analisis data yang lebih sederhana.

Untuk mengintegrasikan data ke dalam platform terpadu, solusi ini menggunakan alur Azure Synapse Analytics. Alur ini menawarkan kemampuan ELT dan ETL. Secara khusus, Anda dapat menggunakan alur untuk memindahkan data dalam alur kerja berbasis data. Alur bekerja dengan berbagai format dan struktur data.

Alur menyimpan data di Data Lake Storage, yang dibangun di Blob Storage. Layanan penyimpanan ini dapat menangani data yang tidak terstruktur dalam volume besar.

Kumpulan Azure Synapse Analytics Spark membentuk bagian penting dari solusi. Kumpulan ini membersihkan dan mengubah data yang disimpan di Azure. Kerangka kerja pemrosesan paralel mereka mendukung pemrosesan dalam memori untuk kecepatan dan efisiensi. Kumpulan juga mendukung penskalakan otomatis, sehingga mereka dapat menambahkan atau menghapus simpul sesuai kebutuhan.

Kumpulan SQL khusus membuat data yang diproses tersedia untuk analitik berkinerja tinggi. Kumpulan ini menyimpan data dalam tabel relasional dengan penyimpanan kolom, format yang secara signifikan mengurangi biaya penyimpanan data. Ini juga meningkatkan performa kueri, sehingga Anda dapat menjalankan analitik dalam skala besar.

Kemungkinan kasus penggunaan

Anda dapat menggunakan solusi ini dalam skenario seperti berikut yang melibatkan data dalam volume besar:

  • Integrasi perangkat IoT
  • Platform data pelanggan
  • Pemrosesan bahasa alami
  • Algoritma pembelajaran mesin

Harga

Untuk melihat perkiraan biaya solusi ini, lihat sampel harga dalam kalkulator harga.

Langkah berikutnya