Přehled Azure Data Lake Storage Gen1 ve službě HDInsight

Azure Data Lake Storage Gen1 je podnikové úložiště hyperškálování pro analytické úlohy pro velké objemy dat. Pomocí Azure Data Lake můžete zaznamenávat data libovolné velikosti, typu a rychlosti příjmu dat. A na jednom místě pro provozní a průzkumnou analýzu.

Přístup ke službě Data Lake Storage Gen1 z Hadoopu (k dispozici v clusteru HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Data Lake Storage Gen1 je navržená tak, aby umožňovala analýzu uložených dat a je vyladěná pro výkon ve scénářích analýzy dat. Gen1 obsahuje funkce, které jsou nezbytné pro případy použití v reálném světě. Mezi tyto funkce patří zabezpečení, spravovatelnost, přizpůsobitelnost, spolehlivost a dostupnost.

Další informace o Azure Data Lake Storage Gen1 najdete v podrobném přehledu Azure Data Lake Storage Gen1.

Mezi klíčové funkce Data Lake Storage Gen1 patří následující.

Kompatibilita s Hadoopem

Data Lake Storage Gen1 je systém souborů Apache Hadoop kompatibilní s prostředím HDFS a Hadoop. Aplikace nebo služby HDInsight, které používají rozhraní WEBHDFS API, se můžou snadno integrovat s Data Lake Storage Gen1. Data Lake Storage Gen1 také zveřejňuje rozhraní REST kompatibilní s WebHDFS pro aplikace.

Data uložená ve službě Data Lake Storage Gen1 je možné snadno analyzovat pomocí analytických architektur Hadoop. Architektury, jako je MapReduce nebo Hive. Clustery Azure HDInsight je možné zřídit a nakonfigurovat pro přímý přístup k datům uloženým v Data Lake Storage Gen1.

Neomezené úložiště, petabajtové soubory

Data Lake Storage Gen1 poskytuje neomezené úložiště a je vhodný pro ukládání různých druhů dat pro analýzu. Neukládá omezení velikostí účtů ani velikostí souborů. Nebo množství dat, která je možné uložit v datovém jezeře. Jednotlivé soubory jsou v rozsahu od kilobajtů až po petabajty, takže Data Lake Storage Gen1 je skvělou volbou pro ukládání libovolného typu dat. Data jsou trvale uložena tak, že vytváří více kopií. A neexistují žádná omezení, jak dlouho se můžou data ukládat v datovém jezeře.

Ladění výkonu pro analýzy velkých objemů dat

Data Lake Storage Gen1 je určená pro analytické systémy. Systémy, které k dotazování a analýze velkých objemů dat vyžadují obrovskou propustnost. Data Lake rozloží části souboru na několik jednotlivých serverů úložiště. Při analýze dat toto nastavení zlepšuje propustnost čtení při paralelním čtení souboru.

Připravenost pro podniky: Vysoce dostupná a zabezpečená

Data Lake Storage Gen1 poskytuje standardní dostupnost a spolehlivost. Datové prostředky se ukládají trvale: redundantní kopie chrání před neočekávanými selháními. Podniky mohou ve svých řešeních používat Data Lake Storage Gen1 jako důležitou součást své stávající datové platformy.

Data Lake Storage Gen1 také poskytuje zabezpečení uložených dat na podnikové úrovni. Další informace najdete v tématu Zabezpečení dat ve službě Azure Data Lake Storage Gen1.

Flexibilní datové struktury

Data Lake Storage Gen1 může ukládat všechna data v nativním formátu, jak je tomu, aniž by vyžadovala předchozí transformace. Data Lake Storage Gen1 nevyžaduje definování schématu před načtením dat. Jednotlivá analytická architektura interpretuje data a definuje schéma v době analýzy. Data Lake Storage Gen1 dokáže zpracovávat strukturovaná data. A částečně strukturovaná a nestrukturovaná data.

Kontejnery Data Lake Storage Gen1 pro data jsou v podstatě složky a soubory. S uloženými daty pracujete pomocí sad SDK, webu Azure Portal a Azure PowerShellu. Data vložená do úložiště s těmito rozhraními a kontejnery můžou ukládat libovolný datový typ. Data Lake Storage Gen1 neprovádí žádné zvláštní zpracování dat na základě typu dat.

Zabezpečení dat ve službě Data Lake Storage Gen1

Data Lake Storage Gen1 používá k ověřování ID Microsoft Entra a ke správě přístupu k vašim datům používá seznamy řízení přístupu (ACL).

Funkce Popis
Ověřování Data Lake Storage Gen1 se integruje s ID Microsoft Entra pro správu identit a přístupu pro všechna data uložená v Data Lake Storage Gen1. Díky integraci přináší Data Lake Storage Gen1 výhody ze všech funkcí Microsoft Entra. Mezi tyto funkce patří vícefaktorové ověřování, podmíněný přístup a řízení přístupu na základě role v Azure. Také monitorování využití aplikací, monitorování zabezpečení a upozorňování atd. Data Lake Storage Gen1 podporuje protokol OAuth 2.0 pro ověřování v rozhraní REST. Viz ověřování v rámci Azure Data Lake Storage Gen1 s využitím ID Microsoft Entra
Řízení přístupu Data Lake Storage Gen1 poskytuje řízení přístupu tím, že podporuje oprávnění stylu POSIX, která jsou vystavena protokolem WebHDFS. Seznamy ACL je možné povolit pro kořenovou složku, podsložky a jednotlivé soubory. Další informace o tom, jak seznamy ACL fungují v kontextu Data Lake Storage Gen1, najdete v tématu Řízení přístupu v Data Lake Storage Gen1.
Šifrování Data Lake Storage Gen1 také poskytuje šifrování dat uložených v účtu. Při vytváření účtu Data Lake Storage Gen1 zadáte nastavení šifrování. Můžete se rozhodnout, že vaše data budou zašifrovaná nebo se rozhodnete bez šifrování. Další informace najdete v tématu Šifrování ve službě Data Lake Storage Gen1. Pokyny k poskytnutí konfigurace související s šifrováním najdete v tématu Začínáme s Azure Data Lake Storage Gen1 pomocí webu Azure Portal.

Další informace o zabezpečení dat v Data Lake Storage Gen1 najdete v tématu Zabezpečení dat uložených v Azure Data Lake Storage Gen1.

Aplikace kompatibilní se službou Data Lake Storage Gen1

Data Lake Storage Gen1 je kompatibilní s většinou opensourcových komponent v prostředí Hadoop. Výborně se taky integruje s jinými službami Azure. Další informace o použití Data Lake Storage Gen1 s opensourcovými komponentami a dalšími službami Azure najdete na následujících odkazech.

Systém souborů Data Lake Storage Gen1 (adl://)

V prostředích Hadoop máte přístup ke službě Data Lake Storage Gen1 prostřednictvím nového systému souborů AzureDataLakeFilesystem (adl://). Výkon aplikací a služeb, které používají adl:// , je možné optimalizovat způsoby, které nejsou aktuálně dostupné v systému WebHDFS. Díky tomu získáte flexibilitu pro zajištění nejlepšího výkonu pomocí doporučeného adl://. Nebo udržujte stávající kód tím, že budete dál používat rozhraní WEBHDFS API přímo. Azure HDInsight plně využívá výhod systému AzureDataLakeFilesystem k zajištění nejlepšího výkonu ve službě Data Lake Storage Gen1.

Přístup k datům ve službě Data Lake Storage Gen1 pomocí následujícího identifikátoru URI:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Další informace o přístupu k datům v Data Lake Storage Gen1 najdete v tématu Akce dostupné u uložených dat.

Další kroky