Apa itu Azure Data Lake Storage Gen1?

Catatan

Azure Data Lake Storage Gen1 sekarang dihentikan. Lihat pengumuman penghentian di sini. Data Lake Storage Gen1 sumber daya tidak lagi dapat diakses. Jika Anda memerlukan bantuan khusus, silakan hubungi kami.

Azure Data Lake Storage Gen1 adalah repositori hyperscale di seluruh perusahaan untuk beban kerja analitik big data. Azure Data Lake memungkinkan Anda mengambil data dengan ukuran, jenis, dan kecepatan menelan apa pun di satu tempat untuk analitik operasional dan eksploratif.

Akses Data Lake Storage Gen1 dari Hadoop (tersedia dengan kluster HDInsight) dengan menggunakan API REST yang kompatibel dengan WebHDFS. Data Lake Storage Gen1 dirancang untuk memungkinkan analitik pada data yang disimpan dan disetel untuk kinerja dalam skenario analitik data. Data Lake Storage Gen1 mencakup semua kemampuan tingkat perusahaan: keamanan, pengelolaan, skalabilitas, keandalan, dan ketersediaan.

Azure Data Lake

Kemampuan utama

Kemampuan utama Data Lake Storage Gen1 mencakup hal berikut.

Dibuat untuk Hadoop

Data Lake Storage Gen1 adalah sistem file Apache Hadoop yang kompatibel dengan Hadoop Distributed File System (HDFS), dan bekerja dengan ekosistem Hadoop. Aplikasi atau layanan HDInsight yang menggunakan API WebHDFS dapat dengan mudah diintegrasikan dengan Data Lake Storage Gen1. Data Lake Storage Gen1 juga memaparkan antarmuka REST yang kompatibel dengan WebHDFS untuk aplikasi.

Anda dapat dengan mudah menganalisis data yang disimpan di Data Lake Storage Gen1 menggunakan kerangka analitik Hadoop seperti MapReduce atau Hive. Kluster Azure HDInsight dapat disediakan dan dikonfigurasi untuk langsung mengakses data yang disimpan dalam Data Lake Storage Gen1.

Penyimpanan tak terbatas, file petabyte

Data Lake Storage Gen1 menyediakan penyimpanan tanpa batas dan dapat menyimpan berbagai data untuk analitik. Ini tidak memberlakukan batasan apa pun pada ukuran akun, ukuran file, atau jumlah data yang dapat disimpan di data lake. Ukuran file individual dapat berkisar dari kilobyte hingga petabyte. Data disimpan tahan lama dengan membuat beberapa salinan. Tidak ada batasan durasi waktu penyimpanan data di data lake.

Penyetelan kinerja untuk analitik big data

Data Lake Storage Gen1 dibuat untuk menjalankan sistem analitik skala besar yang memerlukan throughput besar-besaran untuk mengkueri dan menganalisis data dalam jumlah besar. Data lake menyebarkan bagian file melalui beberapa server penyimpanan individual. Ini meningkatkan throughput baca saat membaca file secara paralel untuk melakukan analitik data.

Perusahaan siap: Sangat tersedia dan aman

Data Lake Storage Gen1 menyediakan ketersediaan dan keandalan standar industri. Aset data Anda disimpan tahan lama dengan membuat salinan berlebihan untuk melindungi dari kegagalan yang tidak terduga.

Data Lake Storage Gen1 juga menyediakan keamanan tingkat perusahaan untuk data yang disimpan. Untuk informasi selengkapnya, lihat Mengamankan data di Azure Data Lake Storage Gen1.

Semua data

Data Lake Storage Gen1 dapat menyimpan data apa pun dalam format aslinya, sebagaimana adanya, tanpa memerlukan transformasi sebelumnya. Data Lake Storage Gen1 tidak memerlukan skema untuk didefinisikan sebelum data dimuat, menyerahkannya ke kerangka analitik individual untuk menginterpretasikan data dan menentukan skema pada saat analisis. Kemampuan untuk menyimpan file dengan ukuran dan format sebarang memungkinkan Data Lake Storage Gen1 menangani data terstruktur, semi terstruktur, dan tidak terstruktur.

Kontainer Data Lake Storage Gen1 untuk data pada dasarnya adalah folder dan file. Anda beroperasi pada data yang disimpan menggunakan SDK, portal Azure, dan Azure PowerShell. Jika Anda memasukkan data ke toko menggunakan antarmuka ini dan menggunakan kontainer yang sesuai, Anda dapat menyimpan semua jenis data. Data Lake Storage Gen1 tidak melakukan penanganan data khusus berdasarkan tipe data.

Mengamankan data

Data Lake Storage Gen1 menggunakan Microsoft Entra ID untuk autentikasi, dan daftar kontrol akses (ACL) untuk mengelola akses ke data Anda.

Fitur Deskripsi
Autentikasi Data Lake Storage Gen1 terintegrasi dengan Microsoft Entra ID untuk manajemen identitas dan akses untuk semua data yang disimpan dalam Data Lake Storage Gen1. Karena integrasi tersebut, Data Lake Storage Gen1 mendapat manfaat dari semua fitur Microsoft Entra seperti autentikasi multifaktor, Akses Bersyar, kontrol akses berbasis peran Azure, pemantauan penggunaan aplikasi, pemantauan dan peringatan keamanan, dan sebagainya. Data Lake Storage Gen1 mendukung protokol OAuth 2.0 untuk autentikasi dalam antarmuka REST. Lihat Autentikasi Data Lake Storage Gen1.
Kontrol akses Data Lake Storage Gen1 menyediakan kontrol akses dengan mendukung izin gaya POSIX yang diekspos oleh protokol WebHDFS. ACL dapat diaktifkan pada folder root, pada subfolder, dan pada file individual. Untuk informasi selengkapnya tentang cara kerja ACL dalam konteks Data Lake Storage Gen1, lihat Kontrol akses di Data Lake Storage Gen1.
Enkripsi Data Lake Storage Gen1 juga menyediakan enkripsi untuk data yang disimpan di akun. Anda menentukan pengaturan enkripsi saat membuat akun Data Lake Storage Gen1. Anda dapat memilih untuk mengenkripsi data Anda atau memilih untuk tidak ada enkripsi. Untuk informasi selengkapnya, lihat Enkripsi di Data Lake Storage Gen1. Untuk instruksi tentang cara menyediakan konfigurasi terkait enkripsi, lihat Mulai menggunakan Azure Data Lake Storage Gen1 dengan portal Microsoft Azure.

Untuk petunjuk tentang cara mengamankan data di Data Lake Storage Gen1, lihat Mengamankan data di Azure Data Lake Storage Gen1.

Kompatibilitas aplikasi

Data Lake Storage Gen1 kompatibel dengan sebagian besar komponen sumber terbuka di lingkungan Hadoop. Data Lake Storage Gen1 juga terintegrasi dengan baik dengan layanan Azure lainnya. Untuk mempelajari selengkapnya tentang cara menggunakan Data Lake Storage Gen1 dengan komponen open-source dan layanan Azure lainnya, gunakan tautan berikut:

Sistem file Data Lake Storage Gen1

Data Lake Storage Gen1 dapat diakses melalui filesystem AzureDataLakeFilesystem (adl://) di lingkungan Hadoop (tersedia dengan klaster HDInsight). Aplikasi dan layanan yang menggunakan adl:// dapat memanfaatkan pengoptimalan kinerja lebih lanjut yang saat ini tidak tersedia di WebHDFS. Akibatnya, Data Lake Storage Gen1 memberi Anda fleksibilitas untuk memanfaatkan kinerja terbaik dengan opsi yang direkomendasikan untuk menggunakan adl:// atau mempertahankan kode yang ada dengan terus menggunakan WebHDFS API secara langsung. Azure HDInsight memanfaatkan AzureDataLakeFilesystem sepenuhnya untuk memberikan kinerja terbaik pada Data Lake Storage Gen1.

Anda dapat mengakses data Anda di Data Lake Storage Gen1 menggunakan adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Untuk informasi selengkapnya tentang cara mengakses data di Data Lake Storage Gen1, lihat Lihat properti data yang disimpan.

Langkah berikutnya