Terminologi Azure Synapse Analytics

Artikel
03/25/2023

Dokumen ini memandu Anda melalui konsep dasar Azure Synapse Analytics.

Ruang kerja Synapse

Ruang kerja Synapse adalah batas kolaborasi yang aman untuk melakukan analitik perusahaan berbasis cloud di Azure. Ruang kerja digunakan di wilayah tertentu dan memiliki akun ADLS Gen2 terkait dan sistem file (untuk menyimpan data sementara). Ruang kerja berada di bawah grup sumber daya.

Ruang kerja memungkinkan Anda melakukan analitik dengan SQL dan Apache spark. Sumber daya yang tersedia untuk analitik SQL dan Spark diatur ke dalam kumpulan SQL dan Spark.

Layanan tertaut

Ruang kerja dapat berisi sejumlah layanan Tertaut, pada dasarnya string koneksi yang menentukan informasi koneksi yang diperlukan agar ruang kerja tersambung ke sumber daya eksternal.

Synapse SQL

Synapse SQL adalah kemampuan untuk melakukan analitik berbasis T-SQL di ruang kerja Synapse. Synapse SQL memiliki dua model konsumsi: khusus dan tanpa server. Untuk model khusus, gunakan kumpulan SQL khusus. Ruang kerja dapat memiliki sejumlah kolam ini. Untuk menggunakan model tanpa server, gunakan kumpulan SQL tanpa server. Setiap ruang kerja memiliki salah satu kumpulan ini.

Di dalam Synapse Studio, Anda dapat bekerja dengan kumpulan SQL dengan menjalankan skrip SQL.

Catatan

Kumpulan SQL khusus di Azure Synapse berbeda dari kumpulan SQL khusus (sebelumnya SQL DW). Tidak semua fitur kumpulan SQL khusus di ruang kerja Azure Synapse berlaku untuk kumpulan SQL khusus (sebelumnya SQL DW), dan sebaliknya. Untuk mengaktifkan fitur ruang kerja untuk kumpulan SQL khusus yang ada (sebelumnya SQL DW), lihat Cara mengaktifkan ruang kerja untuk kumpulan SQL khusus Anda (sebelumnya SQL DW).

Apache Spark untuk Synapse

Untuk menggunakan analitik Spark, buat dan gunakan kumpulan Apache Spark tanpa server di ruang kerja Synapse Anda. Saat Anda mulai menggunakan kumpulan Spark, ruang kerja membuat sesi spark untuk menangani sumber daya yang terkait dengan sesi tersebut.

Ada dua cara dalam Synapse untuk menggunakan Spark:

Spark Notebooks untuk melakukan Data Science and Engineering menggunakan Scala, PySpark, C#, dan SparkSQL
Parameter pekerjaan Spark untuk menjalankan pekerjaan Spark menggunakan jar file.

SynapseML

SynapseML (sebelumnya dikenal sebagai MMLSpark) adalah pustaka sumber terbuka yang menyederhanakan pembuatan alur pembelajaran mesin (ML) yang dapat diskalakan secara besar-besaran. Ini adalah ekosistem alat yang digunakan untuk memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada dan algoritma Microsoft baru menjadi satu API yang dapat diskalakan yang dapat digunakan di Python, R, Scala, .NET, dan Java. Untuk mempelajari lebih lanjut, lihat fitur utama SynapseML.

Pipelines

Pipeline adalah cara Azure Synapse menyediakan Integrasi Data - memungkinkan Anda memindahkan data antara layanan dan mengatur aktivitas.

Pipeline adalah pengelompokan logis aktivitas yang melakukan tugas bersama-sama.
Aktivitas menentukan tindakan dalam Pipeline untuk dilakukan pada data seperti menyalin data, menjalankan Notebook atau skrip SQL.
Alur data adalah jenis aktivitas tertentu yang memberikan pengalaman tanpa kode untuk melakukan transformasi data yang menggunakan Synapse Spark di bawah sampul.
Pemicu - Menjalankan alur. Pipeline dapat dijalankan secara manual atau otomatis (jadwal, jendela tumbling atau jendela berbasis kejadian)
Himpunan data integrasi - Tampilan data bernama yang hanya menunjuk atau mereferensikan data yang akan digunakan dalam aktivitas sebagai input dan output. Tampilan ini merujuk kepada Layanan Tertaut.

Data Explorer (Pratinjau)

Azure Synapse Data Explorer memberi pelanggan pengalaman kueri interaktif untuk membuka wawasan dari data log dan telemetri.

Kumpulan Data Explorer adalah kluster khusus yang mencakup dua atau lebih node komputasi dengan penyimpanan SSD lokal (hot cache) untuk performa kueri yang dioptimalkan dan beberapa penyimpanan blob (cold cache) untuk persistensi.
Database Data Explorer dihosting di kumpulan Data Explorer dan merupakan entitas logis yang terdiri dari kumpulan tabel dan objek database lainnya. Anda dapat memiliki lebih dari satu database per kumpulan.
Tabel adalah objek database yang berisi data yang diatur menggunakan model data relasional tradisional. Data disimpan dalam catatan yang mematuhi skema tabel yang ditentukan dengan baik oleh Data Explorer yang menentukan daftar kolom yang diurutkan, setiap kolom memiliki nama dan jenis data skalar. Jenis data skalar dapat terstruktur (int, real, tanggalwaktu, atau rentang waktu), semi-terstruktur (dinamis), atau teks bebas (string). Jenis dinamis mirip dengan JSON karena dapat menampung nilai skalar tunggal, array, atau kamus nilai tersebut.
Tabel Eksternal adalah tabel yang mereferensikan penyimpanan atau sumber data SQL di luar database Data Explorer. Mirip dengan tabel, tabel eksternal memiliki skema yang ditentukan dengan baik (daftar berurutan dari nama kolom dan pasangan jenis data). Tidak seperti tabel Data Explorer yang datanya diserap ke dalam kumpulan Data Explorer, tabel eksternal beroperasi pada data yang disimpan dan dikelola di luar kumpulan. Tabel eksternal tidak menyimpan data apa pun dan digunakan untuk membuat kueri atau mengekspor data ke penyimpanan data eksternal.