Memperkenalkan virtualisasi data dengan PolyBase
BERLAKU UNTUK:![]()
SQL Server Azure SQL Database
Azure Synapse Analytics
Platform System (PDW)
PolyBase adalah fitur virtualisasi data untuk SQL Server.
Apa itu PolyBase?
PolyBase memungkinkan instans SQL Server Anda untuk mengkueri data dengan T-SQL langsung dari SQL Server, Oracle, Teradata, MongoDB, kluster Hadoop, Cosmos DB, dan penyimpanan objek yang kompatibel dengan S3 tanpa menginstal perangkat lunak koneksi klien secara terpisah. Anda juga dapat menggunakan konektor ODBC generik untuk terhubung ke penyedia tambahan menggunakan driver ODBC pihak ketiga. PolyBase memungkinkan kueri T-SQL menggabungkan data dari sumber eksternal ke tabel relasional dalam instans SQL Server.
Kasus penggunaan utama untuk virtualisasi data dengan fitur PolyBase adalah memungkinkan data tetap berada di lokasi dan format aslinya. Anda dapat memvirtualisasikan data eksternal melalui instans SQL Server, sehingga dapat dikueri di tempat seperti tabel lain di SQL Server. Proses ini meminimalkan kebutuhan proses ETL untuk pergerakan data. Skenario virtualisasi data ini dimungkinkan dengan penggunaan konektor PolyBase.
Produk dan layanan SQL yang didukung
PolyBase menyediakan fungsionalitas yang sama ini untuk produk SQL berikut dari Microsoft:
- SQL Server 2016 (13.x) dan versi yang lebih baru (Windows)
- SQL Server 2019 (15.x) dan versi yang lebih baru (Windows dan Linux)
- SQL Server Analytics Platform System (PDW) (PDW), yang dihosting di Analytics Platform System (APS)
- Azure Synapse Analytics
Catatan
Virtualisasi data menggunakan fitur PolyBase tersedia dalam pratinjau untuk Azure SQL Managed Instance, tercakup untuk mengkueri data eksternal yang disimpan dalam file di Azure Data Lake Storage (ADLS) Gen2 dan Azure Blob Storage. Kunjungi Virtualisasi data dengan Azure SQL Managed Instance untuk mempelajari lebih lanjut.
SQL Server penyempurnaan PolyBase 2022
| Baru menggunakan Pratinjau SQL Server 2022 (16.x) | Detail |
|---|---|
| Penyimpanan objek yang kompatibel dengan S3 | SQL Server Pratinjau 2022 (16.x) menambahkan konektor baru, penyimpanan objek yang kompatibel dengan S3, menggunakan S3 REST API. Anda dapat menggunakan dan OPENROWSETEXTERNAL TABLES untuk mengkueri file data di penyimpanan objek yang kompatibel dengan S3. |
| Beberapa konektor terpisah dari layanan PolyBase | Konektor penyimpanan objek yang kompatibel dengan S3, serta ADSL Gen2, dan Azure Blob Storage, tidak lagi bergantung pada layanan PolyBase. Layanan PolyBase harus tetap berjalan untuk mendukung konektivitas dengan Oracle, Teradata, MongoDB, dan Generic ODBC. Fitur PolyBase masih harus diinstal pada instans SQL Server Anda. |
| Format file Parquet | PolyBase sekarang mampu mengkueri data dari file Parquet yang disimpan di penyimpanan objek yang kompatibel dengan S3. Untuk informasi selengkapnya, lihat Memvirtualisasikan file parkek di penyimpanan objek yang kompatibel dengan S3 dengan PolyBase. |
Untuk fitur baru lainnya dari Pratinjau SQL Server 2022 (16.x), lihat Apa yang baru di SQL Server 2022?
Konektor PolyBase
Fitur PolyBase menyediakan konektivitas ke sumber data eksternal berikut:
| Sumber data eksternal | SQL Server 2016-2019 dengan PolyBase | pratinjau SQL Server 2022 (16.x) dengan PolyBase | APS PDW | Azure Synapse Analytics |
|---|---|---|---|---|
| Oracle, MongoDB, Teradata | Baca | Baca | Tidak | Tidak |
| ODBC Generik | Baca (Hanya Windows) | Baca (Hanya Windows) | Tidak | Tidak |
| Azure Storage | Baca/Tulis | Baca/Tulis | Baca/Tulis | Baca/Tulis |
| Hadoop | Baca/Tulis | Tidak * | Baca/Tulis | Tidak |
| SQL Server | Baca | Baca | Tidak | Tidak |
| Penyimpanan objek yang kompatibel dengan S3 | Tidak | Baca/Tulis | Tidak | Tidak |
* SQL Server Pratinjau 2022 (16.x) tidak mendukung penyimpanan Hadoop dalam versi pratinjau saat ini.
- SQL Server 2016 (13.x) memperkenalkan PolyBase dengan dukungan untuk koneksi ke penyimpanan blob Hadoop dan Azure.
- SQL Server 2019 (15.x) memperkenalkan konektor tambahan, termasuk SQL Server, Oracle, Teradata, dan MongoDB.
- Pratinjau SQL Server 2022 (16.x) memperkenalkan konektor S3-Compliant Storage.
Contoh konektor eksternal meliputi:
* PolyBase mendukung dua penyedia Hadoop, Hortonworks Data Platform (HDP) dan Cloudera Distributed Hadoop (CDH), melalui SQL Server 2019. SQL Server dukungan untuk sumber data eksternal HDFS Cloudera (CDP) dan Hortonworks (HDP) akan dihentikan dan tidak akan disertakan dalam SQL Server 2022. Untuk informasi selengkapnya, lihat Opsi big data di platform Microsoft SQL Server.
Untuk menggunakan PolyBase dalam instans SQL Server:
- Instal PolyBase di Windows atau Instal PolyBase di Linux.
- Dimulai dengan SQL Server 2019 (15.x), aktifkan PolyBase di sp_configure, jika perlu.
- Membuat sumber data eksternal.
- Membuat tabel eksternal.
Integrasi Azure
Dengan bantuan polyBase yang mendasarinya, kueri T-SQL juga dapat mengimpor dan mengekspor data dari penyimpanan blob Azure. Selanjutnya, PolyBase memungkinkan Azure Synapse Analytics mengimpor dan mengekspor data dari Azure Data Lake Store, dan dari penyimpanan blob Azure.
Mengapa menggunakan PolyBase?
PolyBase memungkinkan Anda menggabungkan data dari instans SQL Server dengan data eksternal. Sebelum PolyBase untuk menggabungkan data ke sumber data eksternal, Anda dapat:
- Transfer setengah data Anda sehingga semua data berada dalam satu lokasi.
- Kueri kedua sumber data, lalu tulis logika kueri kustom untuk menggabungkan dan mengintegrasikan data di tingkat klien.
PolyBase memungkinkan Anda untuk hanya menggunakan Transact-SQL untuk menggabungkan data.
PolyBase tidak mengharuskan Anda menginstal perangkat lunak tambahan ke lingkungan Hadoop Anda. Anda mengkueri data eksternal dengan menggunakan sintaks T-SQL yang sama yang digunakan untuk mengkueri tabel database. Tindakan dukungan yang diterapkan oleh PolyBase semuanya terjadi secara transparan. Penulis kueri tidak memerlukan pengetahuan apa pun tentang sumber eksternal.
Penggunaan PolyBase
PolyBase memungkinkan skenario berikut dalam SQL Server:
Data kueri yang disimpan di Hadoop dari instans SQL Server atau PDW. Pengguna menyimpan data dalam sistem terdistribusi dan dapat diskalakan hemat biaya, seperti Hadoop. PolyBase memudahkan kueri data dengan menggunakan T-SQL.
Data kueri disimpan di penyimpanan blob Azure. Penyimpanan blob Azure adalah tempat yang nyaman untuk menyimpan data untuk digunakan oleh layanan Azure. PolyBase memudahkan untuk mengakses data dengan menggunakan T-SQL.
Impor data dari Hadoop, penyimpanan blob Azure, atau Azure Data Lake Store. Manfaatkan kecepatan kemampuan teknologi dan analisis penyimpan kolom Microsoft SQL dengan mengimpor data dari Hadoop, penyimpanan blob Azure, atau Azure Data Lake Store ke dalam tabel relasional. Tidak perlu alat ETL atau impor terpisah.
Ekspor data ke Hadoop, penyimpanan blob Azure, atau Azure Data Lake Store. Arsipkan data ke Hadoop, penyimpanan blob Azure, atau Azure Data Lake Store untuk mencapai penyimpanan hemat biaya dan membuatnya tetap online untuk akses yang mudah.
Integrasikan dengan alat BI. Gunakan PolyBase dengan tumpukan analisis dan kecerdasan bisnis Microsoft, atau gunakan alat pihak ketiga apa pun yang kompatibel dengan SQL Server.
Performa
Dorong komputasi ke Hadoop. PolyBase mendorong beberapa komputasi ke sumber eksternal untuk mengoptimalkan kueri secara keseluruhan. Pengoptimal kueri membuat keputusan berbasis biaya untuk mendorong komputasi ke Hadoop, jika itu akan meningkatkan performa kueri. Pengoptimal kueri menggunakan statistik pada tabel eksternal untuk membuat keputusan berbasis biaya. Mendorong komputasi membuat pekerjaan MapReduce dan memanfaatkan sumber daya komputasi terdistribusi Hadoop. Untuk informasi selengkapnya, lihat Komputasi pushdown di PolyBase.
Menskalakan sumber daya komputasi. (Berlaku untuk SQL Server 2016 (13.x), SQL Server 2017 (14.x), dan SQL Server 2019 (15.x) saja.) Untuk meningkatkan performa kueri, Anda bisa menggunakan SQL Server grup peluasan skala PolyBase. Ini memungkinkan transfer data paralel antara instans SQL Server dan simpul Hadoop, dan menambahkan sumber daya komputasi untuk beroperasi pada data eksternal.
Penting
Grup Microsoft SQL Server PolyBase scale-out akan dihentikan. Fungsionalitas grup peluasan skala akan dihapus dari produk pada SQL Server 2022. Virtualisasi data PolyBase akan terus didukung penuh sebagai fitur peningkatan skala di SQL Server. Untuk informasi selengkapnya, lihat Opsi big data di platform Microsoft SQL Server.
Langkah berikutnya
Sebelum menggunakan PolyBase, Anda harus menginstal PolyBase di Windows atau menginstal PolyBase di Linux, dan mengaktifkan PolyBase di sp_configure jika perlu. Kemudian lihat panduan konfigurasi berikut tergantung pada sumber data Anda: