Ikhtisar Azure Data Lake Storage Gen1 di HDInsight

Azure Data Lake Storage Gen1 adalah repositori hyperscale di seluruh perusahaan untuk beban kerja analitik big data. Dengan Azure Data Lake, Anda dapat mengambil data dengan berbagai ukuran, jenis, dan kecepatan penyerapan. Dan di satu tempat untuk analitik operasional dan eksploratif.

Akses Data Lake Storage Gen1 dari Hadoop (tersedia dengan kluster HDInsight) dengan menggunakan API REST yang kompatibel dengan WebHDFS. Data Lake Storage Gen1 dirancang untuk memungkinkan analitik pada data yang disimpan dan disetel untuk kinerja dalam skenario analitik data. Gen1 mencakup kemampuan yang penting untuk kasus penggunaan perusahaan di dunia nyata. Kemampuan ini meliputi keamanan, pengelolaan, kemampuan beradaptasi, keandalan, dan ketersediaan.

Untuk informasi selengkapnya tentang Azure Data Lake Storage Gen1, lihat Ringkasan terperinci tentang Azure Data Lake Storage Gen1.

Kemampuan utama Data Lake Storage Gen1 mencakup hal berikut.

Kompatibilitas dengan Hadoop

Data Lake Storage Gen1 adalah sistem file Apache Hadoop yang kompatibel dengan lingkungan HDFS dan Hadoop. Aplikasi atau layanan HDInsight yang menggunakan API WebHDFS dapat dengan mudah diintegrasikan dengan Data Lake Storage Gen1. Data Lake Storage Gen1 juga memaparkan antarmuka REST yang kompatibel dengan WebHDFS untuk aplikasi.

Data yang disimpan dalam Data Lake Storage Gen1 dapat dengan mudah dianalisis menggunakan kerangka analitik Hadoop. Kerangka kerja seperti MapReduce atau Apache Hive. Kluster Azure HDInsight dapat disediakan dan dikonfigurasi untuk langsung mengakses data yang disimpan dalam Data Lake Storage Gen1.

Penyimpanan tak terbatas, file petabyte

Data Lake Storage Gen1 menyediakan penyimpanan tanpa batas dan cocok untuk menyimpan berbagai jenis data untuk analitik. Tidak ada batasan ukuran akun, atau ukuran file. Atau jumlah data yang dapat disimpan di data lake. File individual yang berkisar dalam ukuran mulai kilobyte hingga petabyte, menjadikan Data Lake Storage Gen1 pilihan yang tepat untuk menyimpan semua jenis data. Data disimpan tahan lama dengan membuat beberapa salinan. Dan tidak ada batasan berapa lama data dapat disimpan di data lake.

Penyetelan kinerja untuk analitik big data

Data Lake Storage Gen1 dirancang untuk sistem analitik. Sistem yang memerlukan throughput besar-besaran untuk mengajukan permintaan dan menganalisis data dalam jumlah besar. Data lake menyebarkan bagian file melalui beberapa server penyimpanan individual. Saat Anda menganalisis data, pengaturan ini meningkatkan throughput baca saat file dibaca secara paralel.

Kesiapan untuk perusahaan: Sangat tersedia dan aman

Data Lake Storage Gen1 menyediakan ketersediaan dan keandalan standar industri. Aset data disimpan tahan lama: salinan berlebihan melindungi dari kegagalan yang tidak terduga. Perusahaan dapat menggunakan Data Lake Storage Gen1 dalam solusi mereka sebagai bagian penting dari platform data yang ada.

Data Lake Storage Gen1 juga menyediakan keamanan tingkat perusahaan untuk data yang disimpan. Untuk informasi selengkapnya, lihat Mengamankan data di Azure Data Lake Storage Gen1.

Struktur data yang fleksibel

Data Lake Storage Gen1 dapat menyimpan data apa pun dalam format aslinya, sebagaimana adanya, tanpa memerlukan transformasi sebelumnya. Data Lake Storage Gen1 tidak memerlukan penetapan skema sebelum data dimuat. Kerangka kerja analitik individual menginterpretasikan data dan menentukan skema pada saat analisis. Data Lake Storage Gen1 dapat menangani data terstruktur. Dan semiterstruktur, serta data yang tidak terstruktur.

Kontainer Data Lake Storage Gen1 untuk data pada dasarnya adalah folder dan file. Anda beroperasi pada data yang disimpan dengan menggunakan SDK, portal Microsoft Azure, dan Azure PowerShell. Data yang dimasukkan ke dalam penyimpanan dengan antarmuka dan kontainer ini, dapat menyimpan tipe data apa pun. Data Lake Storage Gen1 tidak melakukan penanganan data khusus berdasarkan tipe data.

Keamanan data di Data Lake Storage Gen1

Data Lake Storage Gen1 menggunakan ID Microsoft Entra untuk autentikasi dan menggunakan daftar kontrol akses (ACL) untuk mengelola akses ke data Anda.

Fitur Keterangan
Autentikasi Data Lake Storage Gen1 terintegrasi dengan ID Microsoft Entra untuk manajemen identitas dan akses untuk semua data yang disimpan di Data Lake Storage Gen1. Karena integrasi tersebut, Data Lake Storage Gen1 mendapat manfaat dari semua fitur Microsoft Entra. Fitur ini meliputi: autentikasi multifaktor, Akses Bersyarat, dan kontrol akses berbasis peran Azure. Selain itu, fitur pemantauan penggunaan aplikasi, pemantauan dan peringatan keamanan, dan sebagainya. Data Lake Storage Gen1 mendukung protokol OAuth 2.0 untuk autentikasi dalam antarmuka REST. Lihat Autentikasi dalam Azure Data Lake Storage Gen1 menggunakan MICROSOFT Entra ID
Kontrol akses Data Lake Storage Gen1 menyediakan kontrol akses dengan mendukung izin gaya POSIX yang diekspos oleh protokol WebHDFS. ACL dapat diaktifkan pada folder root, pada subfolder, dan pada file individual. Untuk informasi selengkapnya tentang cara kerja ACL dalam konteks Data Lake Storage Gen1, lihat Kontrol akses di Data Lake Storage Gen1.
Enkripsi Data Lake Storage Gen1 juga menyediakan enkripsi untuk data yang disimpan di akun. Anda menentukan pengaturan enkripsi saat membuat akun Data Lake Storage Gen1. Anda dapat memilih untuk mengenkripsi data Anda atau memilih untuk tidak ada enkripsi. Untuk informasi selengkapnya, lihat Enkripsi di Data Lake Storage Gen1. Untuk instruksi tentang cara menyediakan konfigurasi terkait enkripsi, lihat Mulai menggunakan Azure Data Lake Storage Gen1 dengan portal Microsoft Azure.

Untuk mempelajari selengkapnya tentang mengamankan data di Data Lake Storage Gen1, lihat Mengamankan data yang disimpan di Azure Data Lake Storage Gen1.

Aplikasi yang kompatibel dengan Data Lake Storage Gen1

Data Lake Storage Gen1 kompatibel dengan sebagian besar komponen sumber terbuka di lingkungan Hadoop. Data Lake Storage Gen1 juga terintegrasi dengan baik dengan layanan Azure lainnya. Ikuti tautan di bawah ini untuk mempelajari selengkapnya tentang cara Data Lake Storage Gen1 dapat digunakan baik dengan komponen sumber terbuka maupun layanan Azure lainnya.

Sistem file Data Lake Storage Gen1 (adl://)

Di lingkungan Hadoop, Anda dapat mengakses Data Lake Storage Gen1 melalui sistem file baru, AzureDataLakeFilesystem (adl://). Kinerja aplikasi dan layanan yang digunakan adl://dapat dioptimalkan dengan cara yang saat ini tidak tersedia di WebHDFS. Sebagai hasilnya, Anda mendapatkan fleksibilitas untuk memanfaatkan kinerja terbaik dengan menggunakan metode yang direkomendasikan adl://. Atau mempertahankan kode yang ada dengan terus menggunakan WebHDFS API secara langsung. Azure HDInsight memanfaatkan AzureDataLakeFilesystem sepenuhnya untuk memberikan kinerja terbaik pada Data Lake Storage Gen1.

Akses data Anda di Data Lake Storage Gen1 dengan menggunakan URI berikut:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Untuk informasi selengkapnya tentang cara mengakses data di Data Lake Storage Gen1, lihat Tindakan yang tersedia pada data yang disimpan.

Langkah berikutnya