Azure Data Lake Storage Gen2 簡介

Azure Data Lake Storage Gen2 是一組巨量資料分析的專屬功能,內建於 Azure Blob 儲存體

Data Lake Storage Gen2 包含 Azure Data Lake Storage Gen1 的功能和 Azure Blob 儲存體。 例如,Data Lake Storage Gen2 會提供檔案系統語法、檔案層級安全性和規模調整。 因為這些功能是基於 Blob 儲存體所建置,所以您也可以取得低成本的分層式儲存體,並具備高可用性/災害復原功能。

Data Lake Storage Gen2 讓 Azure 儲存體成為在 Azure 上打造企業 Data Lake 的基礎。 Data Lake Storage Gen2 從一開始就設計為服務數 PB 的資訊,同時可以維持數百 GB 的輸送量,可讓您輕鬆地管理大量資料。

Data Lake 是什麼?

「資料湖」是單一的集中式存放庫,您可以在其中儲存所有資料 (結構化和非結構化)。 資料湖可讓您的組織快速且更輕鬆地在單一位置中儲存、存取及分析各種不同的資料。 使用資料湖時,您不需要使您的資料符合現有的結構。 相反地,您可以將資料以原始或原生格式儲存,通當儲存為檔案或二進位大型物件 (Blob)。

Azure Data Lake Storage 是雲端式企業資料湖解決方案。 其設計旨在以任何格式儲存大量的資料,並協助進行巨量資料分析工作負載。 您可以使用其在單一位置擷取任何類型及擷取速度的資料,以使用各種架構進行輕鬆的存取及分析。

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 是指 Azure Data Lake Storage 解決方案的目前實作。 之前的實作 Azure Data Lake Storage Gen1 將於 2024 年 2 月 29 日淘汰。

Data Lake Storage Gen2 跟 Data Lake Storage Gen1 不一樣的地方,在於它不是專用的服務或帳戶類型。 相反地,它是一組功能實作,可搭配 Azure 儲存體帳戶與 Blob 儲存體服務一起使用。 您可以啟用階層命名空間設定來解除鎖定這些功能。

Data Lake Storage Gen2 包含下列功能。

✓ Hadoop 相容存取

✓ 階層式目錄結構

✓ 最佳化成本和效能

✓ 更精細的精細度安全性模型

✓ 大規模可擴縮性

Hadoop 相容存取

Azure Data Lake Storage Gen2 主要的設計訴求是要利用 Hadoop 以及所有使用 Apache Hadoop 分散式檔案系統 (HDFS) 作為其資料存取層的架構。 Hadoop 散發包含 Azure Blob File System (ABFS) 驅動程式,可讓許多應用程式和架構直接存取 Azure Blob 儲存體資料。 ABFS 驅動程式已針對巨量資料分析完成特別最佳化。 相應的 REST API 透過端點 dfs.core.windows.net 呈現。

使用 HDFS 作為其資料存取層的資料分析架構可以直接透過 ABFS 存取 Azure Data Lake Storage Gen2 資料。 Apache Spark 分析引擎和 Presto SQL 查詢引擎都是這類架構的範例。

如需支援服務和平台的詳細資訊,請參閱支援 Azure Data Lake Storage Gen2 的 Azure 服務 (部分機器翻譯),以及支援 Azure Data Lake Storage Gen2 的開放原始碼平台 (部分機器翻譯)。

階層式目錄結構

階層命名空間是一項主要功能,可讓 Azure Data Lake Storage Gen2 以物件儲存體規模和價格提供高效能的資料存取。 您可使用此功能將儲存體帳戶內的所有物件和檔案組織成目錄和巢狀子目錄的階層。 換句話說,Azure Data Lake Storage Gen2 資料的組織方式與您電腦上檔案的組織方式大致相同。

重新命名或刪除目錄等操作會成為目錄中單一不可部分完成的中繼資料作業。 不需要列舉及處理共用目錄名稱前置詞的所有物件。

最佳化成本和效能

Azure Data Lake Storage Gen2 的價格為 Azure Blob 儲存體層級。 它是基於 Azure Blob 儲存體功能 (如自動化生命週期原則管理和物件層級階層處理) 所建置,可管理巨量資料儲存體成本。

效能經過最佳化,因為您不需要複製或轉換資料作為分析的必要條件。 Azure Data Lake Storage 的階層命名空間功能,可讓您有效率地存取和瀏覽。 此結構表示資料處理需要較少的計算資源,這會降低存取資料的速度和成本。

更精細的精細度安全性模型

Azure Data Lake Storage Gen2 存取控制模型支援 Azure 角色型存取控制 (Azure RBAC) 以及適用於 UNIX 的可移植作業系統介面 (POSIX) 存取控制清單 (ACL)。 另外還有一些 Azure Data Lake Storage Gen2 專屬的額外安全性設定。 您可以在目錄層級或檔案層級設定權限。 所有儲存的資料都會使用 Microsoft 管理或客戶管理的加密金鑰進行待用加密。

大規模延展性

Azure Data Lake Storage Gen2 提供大規模儲存體,並接受許多資料類型以供分析。 對於帳戶大小、檔案大小,或資料湖中可儲存的資料量,不會強加任何限制。 個別檔案的大小範圍可以從幾 KB 到幾 PB。 處理作業是在近常數的每個要求延遲時執行的,這些延遲是在服務、帳戶及檔案層級上所測得。

此設計表示 Azure Data Lake Storage Gen2 可輕易且快速地擴大,以符合最苛刻的工作負載。 其也可以在需求下降時,輕易地縮減。

基於 Azure Blob 儲存體所建置

您內嵌的資料會以 Blob 保留在儲存體帳戶中。 管理 Blob 的服務是 Azure Blob 儲存體服務。 Data Lake Storage Gen2 展現此服務的功能或「增強」服務的功能,以滿足巨量資料分析工作負載的需求。

由於這些服務是基於 Blob 儲存體所建置,其各種功能 (例如診斷記錄、存取層和生命週期管理原則) 都可供您的帳戶使用。 大部分的 Blob 儲存體功能都受到完整支援,但某些功能僅受預覽層級的支援,並有些功能都尚未取得支援。 如需支援陳述式的完整清單,請參閱 Azure 儲存體帳戶中的 Blob 儲存體功能支援。 隨著支援的不斷擴展,每個列出功能的狀態也會隨著時間變更。

文件和詞彙

Azure Blob 儲存體目錄包含兩章節內容。 Data Lake Storage Gen2 內容章節提供使用 Data Lake Storage Gen2 功能的最佳做法和指導。 Blob 記憶體內容章節提供並非 Data Lake Storage Gen2 專屬的帳戶功能指導。

當您在章節之間移動時,您可能會發現有些詞彙略有不同。 例如,Blob 儲存體文件中介紹的內容是使用 blob 一詞,而非檔案。 從技術上來說,擷取至儲存體帳戶的檔案會變成帳戶中的 blob。 因此,這是正確的用詞。 但是,如果您習慣使用檔案一詞,則 blob 一詞可能會造成混淆。 您也會看到文件中使用容器一詞來參照檔案系統。 請將這些字詞視為同義詞。

另請參閱