Bagikan melalui


Metodologi keberhasilan implementasi Synapse: Menilai lingkungan

Catatan

Artikel ini merupakan bagian dari rangkaian artikel Keberhasilan implementasi Azure Synapse berdasarkan desain. Untuk melihat ringkasan rangkaian ini, lihat Keberhasilan implementasi Azure Synapse berdasarkan desain.

Langkah pertama saat menerapkan Azure Synapse Analytics adalah melakukan penilaian terhadap lingkungan Anda. Melakukan penilaian memberi Anda kesempatan untuk mengumpulkan semua informasi yang tersedia tentang lingkungan, persyaratan lingkungan, persyaratan proyek, batasan, garis waktu, dan titik permasalahan yang ada. Informasi ini nantinya akan membentuk dasar evaluasi dan aktivitas titik pemeriksaan. Ini akan terbukti sangat berharga ketika Anda memvalidasi dan membandingkan dengan solusi proyek seperti yang direncanakan, dirancang, dan dikembangkan. Sebaiknya Anda mendedikasikan waktu yang cukup banyak untuk mengumpulkan semua informasi dan memastikan untuk memiliki diskusi yang diperlukan dengan grup yang relevan. Grup yang relevan mencakup pemangku kepentingan proyek, pengguna bisnis, perancang solusi, dan pakar subjek dari solusi dan lingkungan yang ada.

Penilaian akan menjadi panduan untuk membantu mengevaluasi desain solusi dan membuat rekomendasi teknologi berdasarkan informasi untuk mengimplementasikan Azure Synapse.

Penilaian beban kerja

Penilaian beban kerja berkaitan dengan lingkungan, peran beban kerja analitik, ETL/ELT, jaringan dan keamanan, lingkungan Azure, dan konsumsi data.

Lingkungan

Untuk lingkungan, lakukan evaluasi terkait poin-poin berikut.

  • Jelaskan beban kerja analitik yang ada:
    • Seperti apa beban kerjanya (seperti gudang data atau big data)?
    • Bagaimana beban kerja tersebut membantu bisnis? Apa saja skenario kasus penggunaan?
    • Apa pendorong bisnis untuk platform analitik ini dan untuk potensi migrasi?
    • Kumpulkan detail tentang arsitektur, desain, dan pilihan implementasi yang ada.
    • Kumpulkan detail tentang semua komponen dan konsumen dependen hulu dan hilir yang ada.
  • Apakah Anda memigrasikan gudang data yang ada (seperti Microsoft SQL Server, Microsoft Analytics Platform System (APS), Netezza, Snowflake, atau Teradata)?
  • Apakah Anda memigrasikan platform big data (seperti Cloudera atau Hortonworks)?
  • Kumpulkan arsitektur dan diagram aliran data untuk lingkungan analitik saat ini.
  • Di mana letak sumber data untuk beban kerja analitik terencana Anda (Azure, penyedia cloud lainnya, atau lokal)?
  • Berapa ukuran total himpunan data yang ada (historis dan bertahap)? Berapa tingkat pertumbuhan himpunan data Anda saat ini? Berapa laju proyeksi pertumbuhan himpunan data Anda selama 2-5 tahun ke depan?
  • Apakah Anda sudah memiliki data lake? Kumpulkan detail sebanyak mungkin tentang jenis file (seperti Parquet atau CSV), ukuran file, dan konfigurasi keamanan.
  • Apakah Anda memiliki data semi terstruktur atau tidak terstruktur untuk diproses dan dianalisis?
  • Menjelaskan sifat pemrosesan data (pemrosesan batch atau real-time).
  • Apakah Anda memerlukan eksplorasi data interaktif dari data relasional, data lake, atau sumber lainnya?
  • Apakah Anda memerlukan analisis dan eksplorasi data real-time dari sumber data operasional?
  • Apa saja titik permasalahan dan batasan di lingkungan yang sekarang?
  • Kontrol sumber dan alat DevOps apa saja yang Anda gunakan saat ini?
  • Apakah Anda memiliki kasus penggunaan untuk membuat solusi analitik hibrida (cloud dan lokal), khusus cloud, atau multi-cloud?
  • Kumpulkan informasi tentang lingkungan cloud yang ada. Apakah lingkungannya merupakan penyedia cloud tunggal atau penyedia multi-cloud?
  • Kumpulkan rencana tentang lingkungan cloud di masa mendatang. Apakah lingkungannya akan berupa penyedia cloud tunggal atau penyedia multi-cloud?
  • Apa saja persyaratan RPO/RTO/HA/SLA di lingkungan yang ada?
  • Apa saja persyaratan RPO/RTO/HA/SLA di lingkungan yang direncanakan?

Peran beban kerja analitis

Untuk peran beban kerja analitis, lakukan evaluasi terkait poin-poin berikut.

  • Jelaskan berbagai peran (ilmuwan data, teknisi data, analis data, dan lainnya).
  • Jelaskan persyaratan kontrol akses platform analitik untuk peran ini.
  • Lakukan identifikasi pemilik platform yang bertanggung jawab untuk menyediakan sumber daya komputasi dan memberikan akses.
  • Jelaskan bagaimana peran data yang berbeda saat ini berkolaborasi.
  • Apakah ada beberapa tim yang berkolaborasi pada platform analitik yang sama? Jika demikian, apa kontrol akses dan persyaratan isolasi untuk setiap tim?
  • Apa saja alat klien yang digunakan pengguna akhir untuk berinteraksi dengan platform analitik?

ETL/ELT, transformasi, dan orkestrasi

Untuk ETL/ELT, transformasi, dan orkestrasi, lakukan evaluasi terkait poin-poin berikut.

  • Alat apa yang Anda gunakan hari ini untuk penyerapan data (ETL atau ELT)?
  • Di mana alat-alat ini berada di lingkungan yang ada (lokal atau cloud)?
  • Apa persyaratan pemuatan dan pembaruan data Anda saat ini (real time, batch mikro, per jam, harian, mingguan, atau bulanan)?
  • Jelaskan persyaratan transformasi untuk setiap lapisan (big data, data lake, gudang data).
  • Apa pendekatan pemrograman saat ini untuk mentransformasi data (tanpa kode, kode rendah, pemrograman seperti SQL, Python, Scala, C#, atau lainnya)?
  • Apa pendekatan pemrograman terencana pilihan untuk mentransformasi data (tanpa kode, kode rendah, pemrograman seperti SQL, Python, Scala, C#, atau lainnya)?
  • Alat apa saja yang saat ini dipakai untuk orkestrasi data untuk mengotomatisasi proses berbasis data?
  • Di mana lokasi sumber data untuk ETL Anda yang sudah ada (Azure, penyedia cloud lainnya, atau lokal)?
  • Apa saja alat konsumsi data yang ada (pelaporan, alat BI, alat sumber terbuka) yang memerlukan integrasi dengan platform analitik?
  • Apa saja alat konsumsi data yang direncanakan (pelaporan, alat BI, alat sumber terbuka) yang akan memerlukan integrasi dengan platform analitik?

Jaringan dan keamanan

Untuk jaringan dan keamanan, lakukan evaluasi terkait poin-poin berikut.

  • Apa persyaratan peraturan yang Anda miliki untuk data Anda?
  • Jika data Anda berisi konten pelanggan, industri kartu pembayaran (PCI), atau data Health Insurance Portability and Accountability Act of 1996 (HIPAA), apakah kelompok keamanan Anda bersertifikat Azure untuk data ini? Jika demikian, untuk layanan Azure yang mana?
  • Jelaskan persyaratan otorisasi dan autentikasi pengguna Anda.
  • Apakah ada masalah keamanan yang dapat membatasi akses data selama implementasi?
  • Apakah ada data pengujian yang tersedia untuk digunakan selama pengembangan dan pengujian?
  • Jelaskan persyaratan keamanan jaringan organisasi pada komputasi dan penyimpanan analitik (jaringan privat, jaringan publik, atau pembatasan firewall).
  • Jelaskan persyaratan keamanan jaringan untuk alat klien untuk mengakses komputasi dan penyimpanan analitik (jaringan yang di-peering, titik akhir privat, atau lainnya).
  • Jelaskan pengaturan jaringan saat ini antara lokal dan Azure (Azure ExpressRoute, situs-ke-situs, atau lainnya).

Gunakan daftar periksa berikut dari kemungkinan persyaratan untuk memandu penilaian Anda.

  • Perlindungan data:
    • Enkripsi saat transit
    • Enkripsi saat tidak aktif (kunci default atau kunci yang dikelola pelanggan)
    • Penemuan dan klasifikasi data
  • Kontrol akses:
    • Keamanan tingkat objek
    • Keamanan tingkat baris
    • Keamanan tingkat-kolom
    • Penyelubungan data dinamis
  • Autentikasi:
    • Masuk SQL
    • Microsoft Entra ID
    • Autentikasi multifaktor (MFA)
  • Keamanan jaringan:
    • Jaringan virtual
    • Firewall
    • Azure ExpressRoute
  • Perlindungan ancaman:
    • Deteksi ancaman
    • Audit
    • Penilaian kerentanan

Untuk informasi selengkapnya, lihat laporan resmi keamanan Azure Synapse Analytics.

Lingkungan Azure

Untuk lingkungan Azure, lakukan evaluasi terkait poin-poin berikut.

  • Apakah saat ini Anda menggunakan Azure? Apakah Azure digunakan untuk beban kerja produksi?
  • Jika Anda menggunakan Azure, layanan mana yang Anda gunakan? Wilayah mana yang Anda gunakan?
  • Apakah Anda menggunakan Azure ExpressRoute? Berapa bandwidth-nya?
  • Apakah Anda memiliki persetujuan anggaran untuk menyediakan layanan Azure yang diperlukan?
  • Bagaimana cara Anda saat ini menyediakan dan mengelola sumber daya (Azure Resource Manager (ARM) atau Terraform)?
  • Apakah tim kunci Anda terbiasa dengan Synapse Analytics? Apakah ada pelatihan yang diperlukan?

Penggunaan data

Untuk penggunaan data, lakukan evaluasi terkait poin-poin berikut.

  • Jelaskan cara dan alat apa saja yang saat ini Anda gunakan untuk melakukan aktivitas seperti penyerapan, penjelajahan, penyiapan, dan visualisasi data.
  • Lakukan identifikasi alat apa yang Anda rencanakan untuk digunakan untuk melakukan aktivitas seperti penyerapan, penjelajahan, penyiapan, dan visualisasi data.
  • Aplikasi apa yang direncanakan untuk berinteraksi dengan platform analitik (Microsoft Power BI, Microsoft Excel, Microsoft SQL Server Reporting Services, Tableau, atau lainnya)?
  • Lakukan identifikasi semua konsumen data.
  • Lakukan identifikasi persyaratan ekspor data dan berbagi data.

Penilaian layanan Azure Synapse

Penilaian layanan Azure Synapse berkaitan dengan layanan dalam Azure Synapse. Azure Synapse memiliki komponen berikut untuk komputasi dan pergerakan data:

  • Synapse SQL: Sistem kueri terdistribusi untuk Transact-SQL (T-SQL) yang memungkinkan pergudangan data dan skenario virtualisasi data. Ini juga memperluas T-SQL untuk mengatasi skenario streaming dan pembelajaran mesin (ML). Synapse SQL menawarkan model sumber daya tanpa server dan khusus.
  • Kumpulan SQL tanpa server: adalah sistem pemrosesan data terdistribusi, yang dibuat untuk data berskala besar dan fungsi komputasi. Tidak ada infrastruktur untuk disiapkan atau kluster untuk dipertahankan. Layanan ini cocok untuk beban kerja yang meningkat atau tidak direncanakan. Skenario yang direkomendasikan termasuk eksplorasi data cepat pada file langsung di data lake, gudang data logis, dan transformasi data mentah.
  • Kumpulan SQL khusus mewakili kumpulan sumber daya analitik yang disediakan saat menggunakan Synapse SQL. Ukuran kumpulan SQL khusus (sebelumnya SQL DW) ditentukan oleh Unit Pergudangan Data (DWU). Layanan ini cocok untuk gudang data dengan beban kerja berkelanjutan berkinerja tinggi yang dapat diprediksi melalui data yang disimpan dalam tabel SQL. 
  • Kumpulan Apache Spark: mengintegrasikan Apache Spark secara mendalam dan lancar, yang merupakan mesin big data dengan sumber terbuka paling populer yang digunakan untuk persiapan data, rekayasa data, ETL, dan ML.
  • Alur integrasi data: Azure Synapse memiliki mesin dan pengalaman integrasi data yang sama dengan Azure Data Factory (ADF). Ini memungkinkan Anda membuat alur ETL berskala besar tanpa meninggalkan Azure Synapse.

Untuk membantu menentukan tipe kumpulan SQL terbaik (khusus atau tanpa server), lakukan evaluasi terkait poin-poin berikut.

  • Apakah Anda ingin membangun gudang data relasional tradisional dengan mempertahankan daya pemrosesan untuk data yang disimpan dalam tabel SQL?
  • Apakah kasus penggunaan Anda menuntut performa yang dapat diprediksi?
  • Apakah Anda ingin membangun gudang data logis di atas data lake?
  • Apakah Anda ingin mengkueri data langsung dari data lake?
  • Apakah Anda ingin menjelajahi data dari data lake?

Tabel berikut membandingkan dua jenis kumpulan Synapse SQL.

Perbandingan Kumpulan SQL khusus Kumpulan SQL tanpa server
Proposisi nilai Kemampuan gudang data yang dikelola sepenuhnya. Performa yang tinggi dan dapat diprediksi untuk beban kerja berkelanjutan. Dioptimalkan untuk data terkelola (yang dimuat). Mudah untuk memulai dan menjelajahi data di data lake. Total biaya kepemilikan yang lebih baik untuk beban kerja ad hoc dan terputus-putus. Dioptimalkan untuk mengkueri data di data lake.
Beban kerja Ideal untuk beban kerja berkelanjutan. Pemuatan meningkatkan performa, dengan kompleksitas yang lebih tinggi. Pengisian per DWU (jika berukuran baik) akan menguntungkan biaya. Ideal untuk beban kerja ad hoc atau terputus-putus. Tidak perlu memuat data, jadi lebih mudah untuk memulai dan menjalankan. Pengisian per penggunaan akan menguntungkan biaya.
Performa Kueri Memberikan konkurensi tinggi dan latensi rendah. Mendukung opsi penembolokan yang besar, termasuk tampilan materialisasi. Ada kemampuan untuk memilih konsekuensi dengan manajemen beban kerja (WLM). Tidak cocok untuk kueri dasbor. Waktu respons milidetik tidak diperkirakan. Hanya bekerja pada data eksternal.

Penilaian kumpulan SQL khusus

Untuk penilaian kumpulan SQL khusus, lakukan evaluasi terkait poin-poin platform berikut.

  • Apa platform gudang data saat ini (Microsoft SQL Server, Netezza, Teradata, Greenplum, atau lainnya)?
  • Untuk beban kerja migrasi, tentukan pembuatan dan model appliance Anda untuk setiap lingkungan. Sertakan detail CPU, GPU, dan memori.
  • Untuk migrasi appliance, kapan perangkat keras dibeli? Apakah appliance telah sepenuhnya didepresiasikan? Jika tidak, kapan depresiasi akan selesai? Selain itu, berapa banyak belanja modal yang tersisa?
  • Apakah ada diagram arsitektur perangkat keras dan jaringan?
  • Di mana lokasi sumber data untuk gudang data terencana Anda (Azure, penyedia cloud lainnya, atau lokal)?
  • Apa platform hosting data sumber data untuk gudang data Anda (Microsoft SQL Server, Azure SQL Database, DB2, Oracle, Azure Blob Storage, AWS, Hadoop, atau lainnya)?
  • Apakah ada gudang data di antara sumber data tersebut? Jika demikian, yang mana?
  • Lakukan identifikasi semua skenario ETL, ELT, dan pemuatan data (jendela batch, streaming, mendekati real-time). Lakukan identifikasi perjanjian tingkat layanan (SLA) yang ada untuk setiap skenario dan dokumentasikan SLA yang diharapkan di lingkungan baru.
  • Berapa ukuran gudang data saat ini?
  • Tingkat pertumbuhan himpunan data apa yang ditargetkan untuk kumpulan SQL khusus?
  • Jelaskan lingkungan yang Anda gunakan saat ini (pengembangan, pengujian, atau produksi).
  • Alat mana yang saat ini tersedia untuk pergerakan data (ADF, Microsoft SQL Server Integration Services (SSIS), robocopy, Informatica, SFTP, atau lainnya)?
  • Apakah Anda berencana untuk memuat data real time atau mendekati real-time?

Lakukan evaluasi terkait poin-poin database berikut.

  • Berapa jumlah objek di setiap gudang data (skema, tabel, tampilan, prosedur tersimpan, fungsi)?
  • Apakah itu skema bintang, skema snowflake, atau desain lainnya?
  • Apa saja tabel terbesar dalam hal ukuran dan jumlah rekaman?
  • Apa saja tabel terluas dalam hal jumlah kolom?
  • Apakah sudah ada model data yang dirancang untuk gudang data Anda? Apakah itu desain skema Kimball, Inmon, atau bintang?
  • Apakah Slowly Changing Dimensions (SCD) sedang digunakan? Jika demikian, jenis yang mana?
  • Apakah lapisan semantik akan diimplementasikan dengan menggunakan pasar data relasional atau Analysis Services (tabular atau multidimensi), atau produk lain?
  • Apa saja persyaratan pengarsipan data HA/RPO/RTO/?
  • Apa saja persyaratan replikasi data?

Lakukan evaluasi terkait karakteristik beban kerja berikut.

  • Berapa perkiraan jumlah pengguna atau pekerjaan bersamaan yang mengakses gudang data selama jam sibuk?
  • Berapa perkiraan jumlah pengguna atau pekerjaan bersamaan yang mengakses gudang data selama jam sibuk?
  • Apakah ada periode waktu ketika tidak akan ada pengguna atau pekerjaan?
  • Apa harapan performa eksekusi kueri Anda untuk kueri interaktif?
  • Apa harapan performa beban data Anda untuk pemuatan atau pembaruan data harian/mingguan/bulanan?
  • Apa harapan eksekusi kueri Anda untuk kueri pelaporan dan analitis?
  • Seberapa kompleks kueri yang paling umum dijalankan?
  • Berapa persentase dari ukuran total himpunan data Anda yang merupakan himpunan data aktif Anda?
  • Kira-kira persentase beban kerja apa yang diantisipasi untuk memuat atau memperbarui, pemrosesan atau pelaporan batch, kueri interaktif, dan pemrosesan analitis?
  • Identifikasi pola dan platform yang mengonsumsi data:
    • Metode dan alat pelaporan saat ini dan yang direncanakan.
    • Aplikasi atau alat analitik mana yang akan mengakses gudang data?
    • Jumlah kueri bersamaan?
    • Jumlah rata-rata kueri aktif kapan saja?
    • Apa sifat akses data (interaktif, ad hoc, ekspor, atau lainnya)?
    • Peran data dan deskripsi lengkap tentang persyaratan data mereka.
    • Jumlah koneksi bersamaan.
  • Pola SLA performa kueri dengan:
    • Pengguna dasbor.
    • Pelaporan batch.
    • Pengguna ML.
    • Proses ETL.
  • Apa saja persyaratan keamanan untuk lingkungan yang ada dan untuk lingkungan baru (keamanan tingkat baris, keamanan tingkat kolom, kontrol akses, enkripsi, dan lainnya)?
  • Apakah Anda memiliki persyaratan untuk mengintegrasikan penilaian model ML dengan T-SQL?

Penilaian kumpulan SQL tanpa server

Kumpulan SQL Tanpa Server Synapse mendukung tiga kasus penggunaan utama.

  • Eksplorasi dan penemuan dasar: Alasan cepat tentang data dalam format yang beragam (Parquet, CSV, JSON) di dalam data lake Anda, jadi Anda dapat merencanakan bagaimana mengesktrak wawasan dari format tersebut.
  • Penyimpanan data logikal: Menyediakan abstraksi relasional di atas data mentah atau tidak terpisah tanpa merelokasi dan mentransformasi data, yang mengizinkan tinjauan terbaru dari data Anda.
  • Transformasi Data: Sederhana, berskala, dan cara performant untuk mentransformasi data di lake menggunakan T-SQL agar dapat diberikan untuk BI dan alat lain, atau memuat ke penyimpanan sebuah data rasional (database Synapse SQL, Azure SQL Database, dll.).

Peran profesional yang berbeda akan mendapat keuntungan kumpulan SQL tanpa server:

  • Teknisi data dapat menjelajahi data lake, mentransformasi dan menyiapkan data menggunakan layanan ini, dan menyederhanakan alur transformasi data.
  • Ilmuwan data dapat memberikan alasan secara cepat tentang konten-konten dan struktur data di lake, berkat fitur seperti OPENROWSET dan inferensi skema otomatis.
  • Analis data dapat menjelajahi data dan tabel eksternal Spark yang dibuat oleh ilmuwan data atau teknisi data dengan menggunakan pernyataan T-SQL yang familier atau alat kueri favorit mereka.
  • Professional BI dapat dengan cepat membuat laporan Power BI di atas data di data lake dan tabel Spark.

Catatan

Bahasa T-SQL digunakan dalam kumpulan SQL khusus dan kumpulan SQL tanpa server, tetapi ada beberapa perbedaan dalam serangkaian fitur yang didukung. Untuk informasi selengkapnya tentang fitur T-SQL yang didukung di Synapse SQL (khusus dan tanpa server), lihat Fitur Transact-SQL yang didukung di Azure Synapse SQL.

Untuk penilaian kumpulan SQL tanpa server, lakukan evaluasi terkait poin-poin berikut.

  • Apakah Anda memiliki kasus penggunaan untuk menemukan dan menjelajahi data dari data lake dengan menggunakan kueri relasional (T-SQL)?
  • Apakah Anda memiliki kasus penggunaan untuk membangun gudang data logis di atas data lake?
  • Lakukan identifikasi apakah ada kasus penggunaan untuk mengubah data di data lake tanpa terlebih dahulu memindahkan data dari data lake.
  • Apakah data Anda sudah ada di Azure Data Lake Storage (ADLS) atau Azure Blob Storage?
  • Jika data Anda sudah ada di ADLS, apakah Anda memiliki strategi partisi yang baik di data lake?
  • Apakah Anda memiliki data operasional di Azure Cosmos DB? Apakah Anda memiliki kasus penggunaan untuk analitik real-time di Azure Cosmos DB tanpa memengaruhi transaksi?
  • Lakukan identifikasi jenis file di data lake.
  • Lakukan identifikasi SLA performa kueri. Apakah kasus penggunaan Anda menuntut performa dan biaya yang dapat diprediksi?
  • Apakah Anda memiliki beban kerja analitik SQL yang meningkat atau tidak direncanakan?
  • Identifikasi pola dan platform yang mengonsumsi data:
    • Metode dan alat pelaporan saat ini dan yang direncanakan.
    • Aplikasi atau alat analitik mana yang akan mengakses kumpulan SQL tanpa server?
    • Jumlah rata-rata kueri aktif kapan saja.
    • Apa sifat akses data (interaktif, ad hoc, ekspor, atau lainnya)?
    • Peran data dan deskripsi lengkap tentang persyaratan data mereka.
    • Jumlah koneksi bersamaan.
    • Kompleksitas kueri?
  • Apa saja persyaratan keamanan (kontrol akses, enkripsi, dan lainnya)?
  • Apa fungsionalitas T-SQL yang diperlukan (prosedur atau fungsi tersimpan)?
  • Lakukan identifikasi jumlah kueri yang akan dikirim ke kumpulan SQL tanpa server dan ukuran tataan hasil setiap kueri.

Tip

Jika Anda baru menggunakan kumpulan SQL tanpa server, sebaiknya Anda bekerja melalui jalur pembelajaran Membangun solusi analitik data menggunakan kumpulan SQL tanpa server Azure Synapse.

Penilaian kumpulan Spark

Kumpulan Spark di Azure Synapse Analytics mengaktifkan skenario utama berikut.

  • Rekayasa data/Persiapan data: Apache Spark mencakup banyak fitur bahasa untuk mendukung persiapan dan pemrosesan data dalam volume besar. Persiapan dan pemrosesan dapat membuat data lebih berharga dan memungkinkannya dikonsumsi oleh layanan Azure Synapse lainnya. Layanan ini diaktifkan melalui beberapa bahasa (C#, Scala, PySpark, Spark SQL) dan pustaka yang disediakan untuk pemrosesan dan konektivitas.
  • Pembelajaran mesin: Apache Spark dilengkapi dengan MLlib, pustaka ML yang dibangun dengan basis Spark yang dapat Anda gunakan dari kumpulan Spark. Kumpulan Spark juga mencakup Anaconda, yang merupakan distribusi Python yang terdiri dari berbagai paket untuk ilmu data termasuk ML. Selain itu, Apache Spark di Synapse menyediakan pustaka yang telah diinstal sebelumnya untuk Microsoft Machine Learning, yang merupakan kerangka kerja ML yang toleran terhadap kesalahan, elastis, dan RESTful. Ketika digabungkan dengan dukungan bawaan untuk notebook, Anda memiliki lingkungan yang kaya untuk membuat aplikasi ML.

Catatan

Untuk informasi selengkapnya, lihat Apache Spark di Azure Synapse Analytics.

Selain itu, Azure Synapse Analytics kompatibel dengan Linux Foundation Delta Lake. Delta Lake adalah lapisan penyimpanan sumber terbuka yang menghadirkan transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) ke Apache Spark dan beban kerja big data. Untuk informasi selengkapnya, lihat Apa itu Delta Lake.

Untuk penilaian kumpulan Spark, lakukan evaluasi terkait poin-poin berikut.

  • Lakukan identifikasi beban kerja yang memerlukan rekayasa data atau persiapan data.
  • Tentukan dengan jelas jenis transformasinya.
  • Lakukan identifikasi apakah Anda memiliki data yang tidak terstruktur untuk diproses.
  • Saat Anda bermigrasi dari beban kerja Spark/Hadoop yang ada:
    • Apa platform big data yang ada (Cloudera, Hortonworks, layanan cloud, atau lainnya)?
    • Jika ini adalah migrasi dari lokal, apakah perangkat keras terdepresiasi atau lisensi kedaluwarsa? Jika tidak, kapan depresiasi atau kedaluwarsa akan terjadi?
    • Apa jenis kluster yang ada?
    • Apa saja pustaka yang diperlukan dan versi Spark?
    • Apakah itu merupakan migrasi Hadoop ke Spark?
    • Apa bahasa pemrograman saat ini atau pilihan?
    • Apa jenis beban kerjanya (big data, ML, atau lainnya)?
    • Apa saja alat klien dan platform pelaporan yang ada dan direncanakan?
    • Apa saja persyaratan keamanannya?
    • Apakah ada titik permasalahan dan batasan saat ini?
  • Apakah Anda berencana untuk menggunakan, atau saat ini menggunakan Delta Lake?
  • Bagaimana Anda mengelola paket hari ini?
  • Lakukan identifikasi jenis kluster komputasi yang diperlukan.
  • Lakukan identifikasi apakah penyesuaian kluster diperlukan.

Tip

Jika Anda baru menggunakan kumpulan Spark, sebaiknya Anda bekerja melalui jalur pembelajaran Melakukan rekayasa data dengan Kumpulan Azure Synapse Apache Spark.

Langkah berikutnya

Di artikel berikutnya dalam rangkaian Keberhasilan Azure Synapse berdasarkan desain, pelajari cara mengevaluasi desain ruang kerja Synapse dan memvalidasi bahwa desainnya sudah memenuhi pedoman dan persyaratan.