Pengantar Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 adalah set kemampuan yang didedikasikan untuk analitik big data, terpasang dalam Azure Blob Storage.

Data Lake Storage Gen2 mempertemukan kemampuan Azure Data Lake Storage Gen1 dengan Azure Blob Storage. Misalnya, Data Lake Storage Gen2 menyediakan semantik sistem file, keamanan tingkat file, dan skala. Karena kemampuan ini dibangun di atas penyimpanan Blob, Anda juga mendapatkan penyimpanan berbisa rendah dan berjenjang, dengan kemampuan ketersediaan tinggi/pemulihan bencana.

Data Lake Storage Gen2 menjadikan Azure Storage sebagai fondasi untuk membangun data lake perusahaan di Azure. Dirancang sejak awal untuk melayani beberapa petabyte info selagi mempertahankan ratusan gigabit throughput, Data Lake Storage Gen2 memungkinkan Anda dengan mudah mengelola sejumlah besar data.

Apa itu Data Lake?

Data lake adalah repositori terpusat tunggal tempat Anda dapat menyimpan semua data Anda, baik terstruktur maupun tidak terstruktur. Data lake memungkinkan organisasi Anda untuk menyimpan, mengakses, dan menganalisis berbagai data dengan cepat dan lebih mudah dalam satu lokasi. Dengan data lake, Anda tidak perlu menyesuaikan data dengan struktur yang ada. Sebagai gantinya, Anda dapat menyimpan data dalam format mentah atau aslinya, biasanya sebagai file atau sebagai objek besar biner (blob).

Azure Data Lake Storage adalah solusi data lake perusahaan berbasis cloud. Ini dirancang untuk menyimpan sejumlah besar data dalam format apa pun, dan untuk memfasilitasi beban kerja analitik big data. Anda menggunakannya untuk mengambil data dari jenis dan kecepatan menyerap apa pun di satu lokasi untuk akses dan analisis yang mudah dengan menggunakan berbagai kerangka kerja.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 mengacu pada implementasi solusi Data Lake Storage Azure saat ini. Implementasi sebelumnya, Azure Data Lake Storage Gen1 akan dihentikan pada 29 Februari 2024.

Tidak seperti Data Lake Storage Gen1, Data Lake Storage Gen2 bukan jenis layanan atau akun khusus. Sebaliknya, ini diimplementasikan sebagai serangkaian kemampuan yang Anda gunakan dengan layanan Blob Storage akun Azure Storage Anda. Anda dapat membuka kunci kemampuan ini dengan mengaktifkan pengaturan namespace hierarkis.

Data Lake Storage Gen2 mencakup kemampuan berikut.

✓ Akses yang kompatibel dengan Hadoop

✓ Struktur direktori hierarkis

✓ Biaya dan performa yang dioptimalkan

✓ Model keamanan biji-bijian yang lebih halus

✓ Skalabilitas besar

Akses yang kompatibel dengan Hadoop

Azure Data Lake Storage Gen2 terutama dirancang untuk bekerja dengan Hadoop dan semua kerangka kerja yang menggunakan Apache Hadoop Distributed File System (HDFS) sebagai lapisan akses data mereka. Distribusi Hadoop mencakup driver Azure Blob File System (ABFS), yang memungkinkan banyak aplikasi dan kerangka kerja mengakses data Azure Blob Storage secara langsung. Driver ABFS dioptimalkan khusus untuk analitik big data. API REST yang sesuai dimunculkan melalui titik akhir dfs.core.windows.net.

Kerangka kerja analisis data yang menggunakan HDFS sebagai lapisan akses datanya dapat langsung mengakses data Azure Data Lake Storage Gen2 melalui ABFS. Mesin analitik Apache Spark dan mesin kueri Presto SQL adalah contoh kerangka kerja tersebut.

Untuk informasi selengkapnya tentang layanan dan platform yang didukung, lihat Layanan Azure yang mendukung Azure Data Lake Storage Gen2 dan Platform sumber terbuka yang mendukung Azure Data Lake Storage Gen2.

Struktur direktori hierarkis

Namespace hierarkis adalah fitur utama yang memungkinkan Azure Data Lake Storage Gen2 menyediakan akses data berkinerja tinggi pada skala dan harga penyimpanan objek. Anda dapat menggunakan fitur ini untuk mengatur semua objek dan file dalam akun penyimpanan Anda ke dalam hierarki direktori dan subdirektori berlapis. Dengan kata lain, data Azure Data Lake Storage Gen2 Anda diatur dengan cara yang sama seperti file diatur di komputer Anda.

Operasi seperti mengganti nama atau menghapus direktori, menjadi operasi metadata atomik tunggal pada direktori. Tidak perlu menghitung dan memproses semua objek yang awalan nama direktori sama.

Biaya dan performa yang dioptimalkan

Azure Data Lake Storage Gen2 dihargai pada tingkat Azure Blob Storage. Ini dibangun berdasarkan kemampuan Azure Blob Storage seperti manajemen kebijakan siklus hidup otomatis dan tingkat tingkat objek untuk mengelola biaya penyimpanan big data.

Performa dioptimalkan karena Anda tidak perlu menyalin atau mengubah data sebagai prasyarat untuk analisis. Kemampuan namespace hierarkis Azure Data Lake Storage memungkinkan akses dan navigasi yang efisien. Arsitektur ini berarti bahwa pemrosesan data membutuhkan lebih sedikit sumber daya komputasi, mengurangi kecepatan dan biaya mengakses data.

Model keamanan biji-bijian yang lebih halus

Model kontrol akses Azure Data Lake Storage Gen2 mendukung daftar kontrol akses (ACL) kontrol akses berbasis peran Azure (Azure RBAC) dan Portable Operating System Interface for UNIX (POSIX). Ada juga beberapa pengaturan keamanan tambahan yang khusus untuk Azure Data Lake Storage Gen2. Anda dapat mengatur izin baik di tingkat direktori atau di tingkat file. Semua data yang disimpan dienkripsi saat tidak digunakan dengan menggunakan kunci enkripsi yang dikelola Microsoft atau dikelola pelanggan.

Skalabilitas besar-besaran

Azure Data Lake Storage Gen2 menawarkan penyimpanan besar-besaran dan menerima banyak jenis data untuk analitik. Ini tidak memberlakukan batasan pada ukuran akun, ukuran file, atau jumlah data yang dapat disimpan di data lake. File individual dapat memiliki ukuran yang berkisar dari beberapa kilobyte (KB) hingga beberapa petabyte (PB). Pemrosesan dijalankan pada latensi per permintaan hampir terus-menerus yang diukur pada tingkat layanan, akun, dan file.

Desain ini berarti bahwa Azure Data Lake Storage Gen2 dapat dengan mudah dan cepat ditingkatkan untuk memenuhi beban kerja yang paling menuntut. Juga dapat dengan mudah menurunkan skala ketika permintaan turun.

Dibangun di atas Azure Blob Storage

Data yang Anda serap bertahan sebagai blob di akun penyimpanan. Layanan yang mengelola blob adalah layanan Azure Blob Storage. Data Lake Storage Gen2 menjelaskan kemampuan atau "peningkatan" untuk layanan ini yang memenuhi tuntutan beban kerja analitik big data.

Karena kemampuan ini dibangun di Blob Storage, fitur seperti pembuatan log diagnostik, tingkat akses, dan kebijakan manajemen siklus hidup tersedia untuk akun Anda. Sebagian besar fitur Blob Storage didukung penuh, tetapi beberapa fitur mungkin hanya didukung pada tingkat pratinjau dan ada beberapa fitur yang belum didukung. Untuk daftar lengkap pernyataan dukungan, lihat Dukungan fitur Blob Storage di akun Azure Storage. Status setiap fitur yang tercantum akan berubah dari waktu ke waktu karena dukungan terus berkembang.

Dokumentasi dan terminologi

Daftar isi Azure Blob Storage menampilkan dua bagian konten. Bagian konten Data Lake Storage Gen2 memberikan praktik dan panduan terbaik untuk menggunakan kemampuan Data Lake Storage Gen2. Bagian konten Blob Storage menyediakan panduan untuk fitur akun yang tidak spesifik untuk Data Lake Storage Gen2.

Saat Berpindah antar bagian, Anda mungkin melihat sedikit perbedaan terminologi. Misalnya, konten yang ditampilkan dalam dokumentasi Blob Storage, akan menggunakan istilah blob alih-alih file. Secara teknis, file yang Anda serap ke akun penyimpanan Anda menjadi blob di akun Anda. Oleh karena itu, istilah ini benar. Namun, istilah blob dapat menyebabkan kebingungan jika Anda terbiasa dengan istilah file. Anda juga akan melihat istilah kontainer yang digunakan untuk merujuk ke sistem file. Anggap istilah-istilah ini sebagai sinonim.

Lihat juga