Share via


HDInsight 中的 Azure Data Lake Storage Gen1 概觀

Azure Data Lake Storage Gen1 是容納巨量資料分析工作負載的企業級超大規模存放庫。 Azure Data Lake 可讓您擷取任何大小、類型和擷取速度的資料, 並集中進行作業和探勘分析。

使用與 WebHDFS 相容的 REST API,從 Hadoop (HDInsight 叢集所提供) 存取 Data Lake Storage Gen1。 Data Lake Storage Gen1 專為預存資料分析而設計,並針對資料分析案例效能而調整。 Gen1 包含對真實企業使用案例而言不可或缺的功能, 包括安全性、管理性、適應性、可靠性和可用性。

如需有關 Azure Data Lake Storage Gen1 的詳細資訊,請參閱詳細的 Azure Data Lake Storage Gen1 概觀

Data Lake Storage Gen1 的重要功能包括下列項目。

與 Hadoop 相容

Data Lake Storage Gen1 是與 HDFS 和 Hadoop 環境相容的 Apache Hadoop 檔案系統。 採用 WebHDFS API 的 HDInsight 應用程式或服務可輕易與 Data Lake Storage Gen 1 整合。 Data Lake Storage Gen1 也會公開適用於應用程式的 WebHDFS 相容 REST 介面。

使用 MapReduce 或 Hive 等 Hadoop 分析架構可以輕鬆分析 Data Lake Storage Gen1 中儲存的資料 。 您可以佈建並設定 Azure HDInsight 叢集,以直接存取 Data Lake Storage Gen1 中儲存的資料。

無限制的儲存空間、PB 檔案

Data Lake Storage Gen1 提供無限制的儲存空間,適合用來儲存不同種類的資料以供分析, 不僅不限制帳戶大小或檔案大小, 也不限制資料湖中可儲存的資料量。 個別檔案的大小可從數 KB 到數 PB,因此 Data Lake Storage Gen1 很適合用來儲存任何類型的資料。 資料會藉由建立多個複本的方式來永久儲存。 此外,資料儲存在資料湖中的時間也沒有限制。

針對巨量資料分析調整效能

Data Lake Storage Gen1 是針對分析系統而設計, 這類系統需要透過龐大輸送量來查詢和分析大量資料。 資料湖會將檔案的各個部分散於數個個別的儲存體伺服器。 當您分析資料時,此設定可改善平行讀取檔案時的讀取輸送量。

針對企業的整備程度:可用性高且極為安全

Data Lake Storage Gen1 提供符合業界標準的可用性與可靠性。 資料資產可長期儲存:備援複本可防範任何非預期的失敗。 企業可以在其解決方案中使用 Data Lake Storage Gen1,以成為其現有資料平台的重要部分。

Data Lake Storage Gen1 也可對預存資料提供企業級安全性。 如需詳細資訊,請參閱在 Azure Data Lake Storage Gen1 中保護資料

彈性資料結構

Data Lake Storage Gen1 能以其原生格式 (原樣) 儲存任何資料,而不需要先前轉換。 載入資料之前,Data Lake Storage Gen1 不需要定義結構描述。 個別的分析架構可解譯資料,並且在分析階段定義結構描述。 Data Lake Storage Gen1 可以處理結構化、 半結構化和非結構化資料。

Data Lake Storage Gen1 的資料容器基本上是資料夾與檔案。 您可以使用 SDK、Azure 入口網站和 Azure PowerShell 來操作儲存的資料。 資料透過這些介面和容器放入存放區,且可以儲存任何資料類型。 Data Lake Storage Gen1 不會根據資料類型對資料執行任何特殊處理。

Data Lake Storage Gen1 中的資料安全性

Data Lake Storage Gen1 會使用 Microsoft Entra 進行驗證,並使用存取控制清單 (ACL) 來管理對資料的存取。

功能 說明
驗證 Data Lake Storage Gen1 會與 Microsoft Entra ID 整合,可對 Data Lake Storage Gen1 中儲存的所有資料進行身分識別與存取管理。 由於整合的結果,Data Lake Storage Gen1 受惠於所有的 Microsoft Entra 功能。 這些功能包括多重要素驗證、條件式存取、Azure 角色型存取控制、 應用程式使用方式監視、安全性監視、警示等。 Data Lake Storage Gen1 支援 OAuth 2.0 通訊協定以便在 REST 介面中進行驗證。 請參閱使用 Microsoft Entra ID 在 Azure Data Lake Storage Gen1 內進行驗證
存取控制 Data Lake Storage Gen1 透過支援 WebHDFS 通訊協定所公開的 POSIX 樣式權限,以提供存取控制。 ACL 可在根資料夾、子資料夾和個別檔案上啟用。 如需 ACL 如何在 Data Lake Storage Gen1 的環境中運作的詳細資訊,請參閱 Data Lake Storage Gen1 中的存取控制
加密 Data Lake Storage Gen1 也會為帳戶中儲存的資料提供加密功能。 您會在建立 Data Lake Storage Gen1 帳戶時指定加密設定。 您可以選擇將資料加密,或選擇不使用加密。 如需詳細資訊,請參閱 Data Lake Storage Gen1 的加密。 如需如何提供加密相關設定的指示,請參閱使用 Azure 入口網站開始使用 Azure Data Lake Storage Gen1

若要深入了解如何在 Data Lake Storage Gen1 中保護資料,請參閱保護儲存在 Azure Data Lake Storage Gen1 中的資料

與 Data Lake Storage Gen1 相容的應用程式

Data Lake Storage Gen1 與 Hadoop 環境中的大多數開放原始碼元件都相容, 此外,還與其他 Azure 服務完美整合。 請遵循以下連結,深入了解 Data Lake Storage Gen1 如何搭配開放原始碼元件與其他 Azure 服務使用。

Data Lake Storage Gen1 檔案系統 (adl://)

在 Hadoop 環境中,您可以透過新的檔案系統 (AzureDataLakeFilesystem (adl://)) 存取 Data Lake Storage Gen1。 利用 WebHDFS 中目前無法提供的方式,能將使用 adl:// 的應用程式和服務效能最佳化, 讓您藉此獲得運用彈性,無論是利用建議的 adl:// 獲得最佳效能, 還是繼續直接使用 WebHDFS API 維護現有的程式碼都沒問題。 Azure HDInsight 充分利用 AzureDataLakeFilesystem 來提供 Data Lake Storage Gen1 最佳效能。

您可以使用下列 URI 在 Data Lake Storage Gen1 中存取自己的資料:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

如需有關如何在 Data Lake Storage Gen1 中存取資料的詳細資訊,請參閱預存資料可用的動作

下一步