Pengantar Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 adalah set kemampuan yang didedikasikan untuk analitik big data, terpasang dalam Azure Blob Storage.

Data Lake Storage Gen2 mempertemukan kemampuan Azure Data Lake Storage Gen1 dengan Azure Blob Storage. Misalnya, Data Lake Storage Gen2 menyediakan semantik sistem file, keamanan tingkat file, dan skala. Karena kemampuan ini dibangun di atas penyimpanan Blob, Anda juga akan mendapatkan penyimpanan berbiaya rendah, penyimpanan berjenjang. dengan ketersediaan tinggi/ kemampuan pemulihan bencana.

Dirancang untuk analitik big data perusahaan

Data Lake Storage Gen2 menjadikan Azure Storage sebagai fondasi untuk membangun data lake perusahaan di Azure. Dirancang sejak awal untuk melayani beberapa petabyte info selagi mempertahankan ratusan gigabit throughput, Data Lake Storage Gen2 memungkinkan Anda dengan mudah mengelola sejumlah besar data.

Bagian mendasar dari Data Lake Storage Gen2 adalah penambahan hierarki kumpulan nama XML ke penyimpanan Blob. Hierarki Kumpulan nama XML mengatur objek/file ke dalam hierarki direktori untuk akses data yang efisien. Konvensi penamaan penyimpanan objek umum menggunakan garis miring dalam nama untuk meniru struktur direktori hierarki. Struktur ini menjadi nyata dengan Data Lake Storage Gen2. Operasi seperti mengganti nama atau menghapus direktori, menjadi operasi metadata atomik tunggal pada direktori. Tidak perlu menghitung dan memproses semua objek yang awalan nama direktori sama.

Data Lake Storage Gen2 terpasang pada penyimpanan Blob dan meningkatkan performa, manajemen, dan keamanan dengan cara berikut:

  • Performa dioptimalkan karena Anda tidak perlu menyalin atau mengubah data sebagai prasyarat untuk analisis. Dibandingkan dengan kumpulan nama XML datar pada penyimpanan Blob, hierarki kumpulan nama XML sangat meningkatkan performa operasi manajemen direktori, yang meningkatkan performa pekerjaan keseluruhan.

  • Manajemen lebih mudah karena Anda bisa mengatur dan memanipulasi file melalui direktori dan sub direktori.

  • Keamanan bisa diberlakukan karena Anda dapat menentukan izin POSIX pada direktori atau file individual.

Data Lake Storage Gen2 juga sangat hemat biaya karena dibangun di atas Azure Blob Storage berbiaya rendah. Fitur tambahan ini semakin menurunkan total biaya kepemilikan untuk menjalankan analitik big data di Azure.

Fitur kunci Data Lake Storage Gen2

  • Akses yang kompatibel dengan Hadoop: Data Lake Storage Gen2 memungkinkan Anda mengelola dan mengakses data seperti yang Anda lakukan dengan Sistem File Terdistribusi Hadoop (HDFS). Driver ABFSbaru (digunakan untuk mengakses data) tersedia di semua lingkungan Apache Hadoop. Lingkungan ini termasuk Azure HDInsight,Azure Databricks, dan Azure Synapse Analytics.

  • Superset izin POSIX: Model keamanan untuk Data Lake Gen2 mendukung izin ACL dan POSIX bersama beberapa granuralitas tambahan khusus untuk Data Lake Storage Gen2. Pengaturan bisa dikonfigurasi melalui Penjelajah Penyimpanan atau kerangka kerja seperti Apache Hive dan Spark.

  • Hemat biaya: Data Lake Storage Gen2 menawarkan kapasitas penyimpanan dan transaksi berbiaya rendah. Fitur seperti siklus hidup Azure Blob Storage mengoptimalkan biaya sebagai transisi data melalui siklus hidupnya.

  • Driver yang dioptimalkan: Driver ABFS dioptimalkan khususnya untuk analitik big data. API REST yang sesuai dimunculkan melalui titik akhir dfs.core.windows.net.

Skalabilitas

Azure Storage bisa diskalakan berdasarkan desain baik Anda mengakses melalui Data Lake Storage Gen2 atau antarmuka penyimpanan Blob. Hal ini mampu menyimpan dan melayani banyak exabyte data. Jumlah penyimpanan ini tersedia dengan throughput yang diukur dalam gigabit per detik (Gbps) pada tingkat operasi input/output yang tinggi per detik (IOPS). Pemrosesan dijalankan pada latensi per permintaan hampir terus-menerus yang diukur pada tingkat layanan, akun, dan file.

Efektivitas biaya

Karena Data Lake Storage Gen2 dibangun di atas Azure Blob Storage, kapasitas penyimpanan dan biaya transaksi menjadi lebih rendah. Tidak seperti layanan penyimpanan cloud lainnya, Anda tidak perlu memindahkan atau mengubah data Anda sebelum Anda dapat menganalisisnya. Untuk informasi selengkapnya tentang harga, lihat Harga Azure Storage.

Selain itu, fitur seperti hierarki kumpulan nama XML secara signifikan meningkatkan performa secara keseluruhan dari banyak perkerjaan analitik. Peningkatan performa ini berarti Anda perlu daya komputasi yang lebih sedikit untuk memproses jumlah data yang sama, sehingga total biaya kepemilikan (TCO) lebih rendah untuk pekerjaan analitik end-to-end.

Satu layanan, beberapa konsep

Karena Data Lake Storage Gen2 dibangun di atas Azure Blob Storage, beberapa konsep dapat menggambarkan hal-hal berbagi yang sama.

Berikut ini adalah entitas yang setara, seperti yang dijelaskan oleh konsep yang berbeda. Kecuali ditentukan sebaliknya entitas ini secara langsung sinonim:

Konsep Organisasi Tingkat Atas Organisasi Tingkat Bawah Kontainer Data
Blob - Penyimpanan objek tujuan umum Kontainer Direktori virtual (hanya SDK - tidak menyediakan manipulasi atomik) Blob
Azure Data Lake Storage Gen2 - Penyimpanan Analitik Kontainer Direktori File

Fitur Blob Storage yang didukung

Fitur Blob Storage seperti pembuatan log diagnostik, tingkat akses, dan kebijakan manajemen siklus hidup Blob Storage tersedia untuk akun Anda. Sebagian besar fitur Blob Storage didukung sepenuhnya, tetapi beberapa fitur hanya didukung pada tingkat pratinjau atau belum didukung.

Untuk melihat bagaimana setiap fitur Blob Storage didukung dengan Data Lake Storage Gen2, lihat dukungan fitur Blob Storage di akun Azure Storage.

Integrasi layanan Azure yang didukung

Data Lake Storage gen2 mendukung beberapa layanan Azure. Anda bisa menggunakannya untuk menyerap data, melakukan analitik, dan membuat representasi visual. Untuk daftar layanan Azure yang didukung, lihat Layanan yang mendukung Azure Data Lake Storage Gen2.

Platform sumber terbuka yang didukung

Beberapa platform sumber terbuka mendukung Data Lake Storage Gen2. Untuk daftar lengkapnya, lihat Platform sumber terbuka yang mendukung Azure Data Lake Storage Gen2.

Lihat juga