Co je Azure Data Lake Storage Gen1?

Poznámka

29. února 2024 Azure Data Lake Storage Gen1 bude vyřazen. Další informace najdete v oficiálním oznámení. pokud používáte Azure Data Lake Storage Gen1, nezapomeňte migrovat na Azure Data Lake Storage Gen2 před tímto datem. další informace najdete v tématu migrace Azure Data Lake Storage z Gen1 na Gen2 .

pokud už nemáte účet Azure Data Lake Storage Gen1, nemůžete vytvářet nové.

Azure Data Lake Storage Gen1 je podnikové hyperškádové úložiště pro úlohy analýzy velkých objemů dat. Azure Data Lake umožňuje zaznamenávat data libovolné velikosti, typu a rychlosti příjmu do jediného místa pro účely provozní a zjišťovací analýzy.

Data Lake Storage Gen1 je přístupné z Hadoopu (k dispozici pro cluster HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Je navržená tak, aby umožnila analýzu uložených dat a vyladěná pro scénáře analýzy dat. Data Lake Storage Gen1 zahrnuje všechny možnosti na podnikové úrovni: zabezpečení, spravovatelnost, škálovatelnost, spolehlivost a dostupnost.

Azure Data Lake

Klíčové funkce

Mezi klíčové funkce služby Data Lake Storage Gen1 patří následující.

Sestaveno pro Hadoop

Data Lake Storage Gen1 je Apache Hadoop systém souborů, který je kompatibilní se systémem Hadoop systém souborů DFS (Distributed File System) (HDFS) a spolupracuje s ekosystémem Hadoop. Vaše stávající aplikace nebo služby HDInsight, které používají rozhraní API WebHDFS, se snadno integrují s Data Lake Storage Gen1. Data Lake Storage Gen1 také zpřístupňuje rozhraní REST kompatibilní s WebHDFS pro aplikace.

Data uložená v Data Lake Storage Gen1 můžete snadno analyzovat pomocí analytických architektur Hadoop, jako jsou MapReduce nebo Hive. Můžete zřídit Azure HDInsight clustery a nakonfigurovat je pro přímý přístup k datům uloženým v Data Lake Storage Gen1.

Neomezené úložiště, petabajtové soubory

Data Lake Storage Gen1 poskytuje neomezené úložiště a může ukládat různá data pro analýzy. Neukládá žádná omezení na velikosti účtů, velikosti souborů ani množství dat, která je možné uložit v datovém jezeře. Jednotlivé soubory mohou mít velikost v rozsahu od kilobajtů až po petabajty. Data se ukládají trvale vytvořením více kopií. Neexistuje žádné omezení doby, po kterou mohou být data uložena v datovém jezeře.

Optimalizace výkonu pro analýzu velkých objemů dat

Data Lake Storage Gen1 je vytvořená pro spouštění rozsáhlých analytických systémů, které k dotazování a analýze velkých objemů dat vyžadují obrovskou propustnost. Úložiště Data Lake rozděluje části souborů do několika jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.

Enterprise připravené: Vysoce dostupná a zabezpečená

Data Lake Storage Gen1 poskytuje standardní dostupnost a spolehlivost. Vaše datové prostředky se ukládají odolným způsobem díky vytváření redundantních kopií, které chrání před neočekávaným selháním.

Data Lake Storage Gen1 také poskytuje zabezpečení uložených dat na podnikové úrovni. Další informace najdete v tématu Zabezpečení dat v Azure Data Lake Storage Gen1.

Všechna data

Data Lake Storage Gen1 může ukládat libovolná data v nativním formátu bez nutnosti předchozí transformace. Data Lake Storage Gen1 nevyžaduje, aby bylo před načtením dat definováno schéma. Při interpretaci dat a definování schématu v době analýzy je přenecháte jednotlivým analytickým rozhraním. Možnost ukládat soubory libovolných velikostí a formátů umožňuje data Lake Storage Gen1 zpracovávat strukturovaná, částečně strukturovaná a nestrukturovaná data.

Kontejnery Data Lake Storage Gen1 pro data jsou v podstatě složky a soubory. S uloženými daty pracujete pomocí sdk, Azure Portal a Azure PowerShellu. Pokud data uložíte do úložiště pomocí těchto rozhraní a příslušných kontejnerů, můžete ukládat libovolný typ dat. Data Lake Storage Gen1 neprovádí žádné zvláštní zpracování dat na základě typu dat, která ukládá.

Zabezpečení dat

Data Lake Storage Gen1 používá Azure Active Directory (Azure AD) pro ověřování a seznamy řízení přístupu (ACL) ke správě přístupu k vašim datům.

Funkce Popis
Authentication Data Lake Storage Gen1 se integruje s Azure AD pro správu identit a přístupu pro všechna data uložená v Data Lake Storage Gen1. Díky integraci služba Data Lake Storage Gen1 těží ze všech funkcí Azure AD, jako je vícefaktorové ověřování, podmíněný přístup, řízení přístupu na základě role v Azure, monitorování využití aplikací, monitorování a upozornění zabezpečení atd. Data Lake Storage Gen1 podporuje protokol OAuth 2.0 pro ověřování v rámci rozhraní REST. Viz Ověřování Data Lake Storage Gen1.
Řízení přístupu Data Lake Storage Gen1 poskytuje řízení přístupu díky podpoře oprávnění ve stylu POSIX zveřejněných protokolem WebHDFS. Seznamy ACL můžete povolit pro kořenovou složku, podsložky a jednotlivé soubory. Další informace o tom, jak fungují seznamy ACL v kontextu Data Lake Storage Gen1, najdete v tématu Řízení přístupu v Data Lake Storage Gen1.
Šifrování Data Lake Storage Gen1 také zajišťuje šifrování dat uložených v účtu. Nastavení šifrování zadáte při vytváření účtu Data Lake Storage Gen1. Můžete se rozhodnout, že budou vaše data šifrovaná nebo se rozhodnout pro šifrování bez. Další informace najdete v tématu Šifrování v Data Lake Storage Gen1. Pokyny k zajištění konfigurace související s šifrováním najdete v tématu Začínáme s Data Lake Storage Gen1 pomocí Azure Portal.

Pokyny k zabezpečení dat ve službě Data Lake Storage Gen1 najdete v tématu Zabezpečení dat ve službě Azure Data Lake Storage Gen1.

Kompatibilita aplikací

Data Lake Storage Gen1 je kompatibilní s většinou open source komponent v ekosystému Hadoop. Dobře se také integruje s dalšími službami Azure. Další informace o tom, jak používat Data Lake Storage Gen1 s open source komponentami a dalšími službami Azure, najdete na následujících odkazech:

  • Seznam open source aplikací kompatibilních s Data Lake Storage Storage Gen1 najdete v tématu Aplikace a služby kompatibilní s Azure Data Lake Storage Gen1.
  • Informace o tom, jak používat Data Lake Storage Gen1 s jinými službami Azure, abyste umožnili širší škálu scénářů, najdete v tématu Integrace s jinými službami Azure.
  • V tématu Scénáře použití Data Lake Storage Gen1 se dozvíte, jak používat Data Lake Storage Gen1 ve scénářích, jako je ingestování dat, zpracování dat, stahování dat a vizualizace dat.

Systém souborů Data Lake Storage Gen1

Data Lake Storage Gen1 je přístupné přes systém souborů AzureDataLakeFilesystem (adl://) v prostředích Hadoop (k dispozici s clusterem HDInsight). Aplikace a služby, které adl://, mohou využít další optimalizace výkonu, které nejsou aktuálně dostupné ve WebHDFS. Díky tomu vám Data Lake Storage Gen1 umožňuje flexibilně využívat nejlepší výkon s doporučenou možností používat adl:// nebo udržovat stávající kód tím, že pokračuje v přímém používání rozhraní API WebHDFS. Azure HDInsight plně využívá AzureDataLakeFilesystem k zajištění nejlepšího výkonu ve službě Data Lake Storage Gen1.

K datům v Data Lake Storage Gen1 můžete přistupovat pomocí adl://<data_lake_storage_gen1_name>.azuredatalakestore.net . Další informace o přístupu k datům ve službě Data Lake Storage Gen1 najdete v tématu Zobrazení vlastností uložených dat.

Další kroky