Gambaran umum Azure Data Lake Storage Gen2 di HDInsight

Azure Data Lake Storage Gen2 mengambil fitur inti dari Azure Data Lake Storage Gen1 dan mengintegrasikannya ke dalam Azure Blob Storage. Fitur-fitur ini termasuk sistem file yang kompatibel dengan Hadoop, ID Microsoft Entra, dan daftar kontrol akses (ACL) berbasis POSIX. Kombinasi ini memungkinkan Anda memanfaatkan performa Azure Data Lake Storage Gen1. Sementara juga menggunakan tiering dan manajemen siklus hidup dari penyimpanan Blob.

Untuk informasi selengkapnya tentang Azure Data Lake Storage Gen2, lihat Pengantar Azure Data Lake Storage Gen2.

Fungsionalitas inti Azure Data Lake Storage Gen2

  • Akses yang kompatibel dengan Hadoop:Data Lake Storage Gen2 memungkinkan Anda mengelola dan mengakses data seperti yang Anda lakukan dengan Sistem File Terdistribusi Hadoop (Hadoop Distributed File System; HDFS). Driver Sistem file Blob Azure (Azure Blob File System; ABFS) tersedia di semua lingkungan Apache Hadoop, termasuk Azure HDInsight dan Azure Databricks. Gunakan ABFS untuk mengakses data yang disimpan di Data Lake Storage Gen2.

  • Superset izin POSIX: Model keamanan untuk Data Lake Gen2 mendukung izin ACL dan POSIX bersama beberapa granuralitas tambahan khusus untuk Data Lake Storage Gen2. Pengaturan dapat dikonfigurasi melalui alat admin atau kerangka kerja seperti Apache Hive dan Apache Spark.

  • Hemat biaya: Data Lake Storage Gen2 menawarkan kapasitas penyimpanan dan transaksi berbiaya rendah. Siklus hidup penyimpanan Blob Azure membantu menurunkan biaya dengan menyesuaikan tingkat penagihan saat data bergerak melalui siklus hidupnya.

  • Kompatibilitas dengan alat penyimpanan Blob, kerangka kerja, dan aplikasi: Data Lake Storage Gen2 terus bekerja dengan berbagai alat, kerangka kerja, dan aplikasi yang ada saat ini untuk penyimpanan Blob.

  • Driver yang dioptimalkan: Driver ABFS dioptimalkan khususnya untuk analitik data besar. API REST yang sesuai muncul melalui titik akhir sistem file terdistribusi (Distributed File System; DFS), dfs.core.windows.net.

Apa yang baru untuk Azure Data Lake Storage Gen 2

Identitas terkelola untuk akses file aman

Azure HDInsight menggunakan identitas terkelola untuk mengamankan akses kluster ke file di Azure Data Lake Storage Gen2. Identitas terkelola adalah fitur ID Microsoft Entra yang menyediakan layanan Azure dengan serangkaian kredensial yang dikelola secara otomatis. Info masuk ini dapat digunakan untuk mengautentikasi ke layanan apa pun yang mendukung autentikasi Active Directory. Menggunakan identitas terkelola tidak mengharuskan Anda menyimpan info masuk dalam kode atau file konfigurasi.

Untuk informasi selengkapnya, lihat identitas terkelola untuk sumber daya Azure.

Driver Sistem file Blob Azure

Aplikasi Apache Hadoop secara asli mengharapkan untuk membaca dan menulis data dari penyimpanan disk lokal. Driver sistem file Hadoop seperti ABFS mengaktifkan aplikasi Hadoop berfungsi dengan penyimpanan cloud. Bekerja dengan meniru operasi sistem file Hadoop reguler. Driver mengonversi perintah yang diterima dari aplikasi ke dalam operasi yang dipahami platform penyimpanan cloud yang sebenarnya.

Sebelumnya, driver sistem file Hadoop mengonversi semua operasi sistem file ke panggilan API Rest Azure Storage di sisi klien. Dan kemudian memanggil REST API. Konversi sisi klien ini, pada akhirnya, menghasilkan beberapa panggilan REST API untuk satu operasi sistem file seperti penggantian nama file. ABFS telah memindahkan logika sistem file Hadoop dari sisi klien ke sisi server. Azure Data Lake Storage Gen2 API sekarang berjalan secara paralel dengan API Blob. Migrasi ini meningkatkan performa karena sekarang operasi sistem file Hadoop umum dapat dieksekusi dengan satu panggilan API REST.

Untuk informasi lebih lanjut, pelajari tentang Driver Sistem File Blob Azure (Azure Blob Filesystem; ABFS), driver khusus Azure Storage untuk Hadoop.

Skema URI untuk Azure Data Lake Storage Gen 2

Azure Data Lake Storage Gen2 menggunakan skema URI baru untuk mengakses file di Azure Storage dari HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

Skema URI menyediakan akses terenkripsi SSL.

<FILE_SYSTEM_NAME> mengidentifikasi jalur sistem file Data Lake Storage Gen2.

<ACCOUNT_NAME> mengidentifikasi nama akun Azure Storage. Nama domain yang sepenuhnya memenuhi syarat (FQDN).

<PATH> adalah nama jalur HDFS file atau direktori.

Jika nilai untuk <FILE_SYSTEM_NAME> dan <ACCOUNT_NAME> tidak ditentukan, sistem file default akan digunakan. Untuk file pada sistem file default, gunakan jalur relatif atau jalur absolut. Misalnya, file hadoop-mapreduce-examples.jar yang dilengkapi dengan kluster HDInsight dapat dirujuk dengan menggunakan salah satu jalur berikut:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Catatan

Nama file ada di hadoop-examples.jar di kluster HDInsight versi 2.1 dan 1.6. Ketika Anda bekerja dengan file di luar HDInsight, Anda akan menemukan bahwa sebagian besar utilitas tidak mengenali format ABFS tetapi mengharapkan format jalur dasar, seperti example/jars/hadoop-mapreduce-examples.jar.

Untuk informasi selengkapnya, lihat Gunakan Azure Data Lake Storage Gen2.

Langkah berikutnya