Omówienie usługi Azure Data Lake Storage Gen1 w usłudze HDInsight

Usługa Azure Data Lake Storage Gen1 to repozytorium hiperskala dla całego przedsiębiorstwa dla obciążeń analitycznych danych big data. Za pomocą usługi Azure Data Lake można przechwytywać dane o dowolnym rozmiarze, typie i szybkości pozyskiwania. I w jednym miejscu na potrzeby analizy operacyjnej i eksploracyjnej.

Uzyskaj dostęp do usługi Data Lake Storage Gen1 z usługi Hadoop (dostępnej w klastrze usługi HDInsight) przy użyciu interfejsów API REST zgodnych z systemem Plików WebHDFS. Usługa Data Lake Storage Gen1 została zaprojektowana w celu umożliwienia analizy przechowywanych danych i jest dostrojona pod kątem wydajności w scenariuszach analizy danych. Gen1 obejmuje możliwości, które są niezbędne dla rzeczywistych przypadków użycia przedsiębiorstwa. Te możliwości obejmują zabezpieczenia, możliwości zarządzania, adaptację, niezawodność i dostępność.

Aby uzyskać więcej informacji na temat usługi Azure Data Lake Storage Gen1, zobacz szczegółowe omówienie usługi Azure Data Lake Storage Gen1.

Najważniejsze możliwości usługi Data Lake Storage Gen1 obejmują następujące elementy.

Zgodność z usługą Hadoop

Data Lake Storage Gen1 to system plików Apache Hadoop zgodny ze środowiskiem HDFS i Hadoop. Aplikacje lub usługi HDInsight korzystające z interfejsu API WebHDFS można łatwo zintegrować z usługą Data Lake Storage Gen1. Usługa Data Lake Storage Gen1 udostępnia również interfejs REST zgodny z systemem plików WebHDFS dla aplikacji.

Dane przechowywane w usłudze Data Lake Storage Gen1 można łatwo analizować przy użyciu struktur analitycznych hadoop. Struktury, takie jak MapReduce lub Hive. Klastry usługi Azure HDInsight można aprowizować i konfigurować pod kątem bezpośredniego uzyskiwania dostępu do danych przechowywanych w usłudze Data Lake Storage Gen1.

Nieograniczony magazyn, petabajtowe pliki

Usługa Data Lake Storage Gen1 zapewnia nieograniczony magazyn i nadaje się do przechowywania różnych rodzajów danych na potrzeby analizy. Nie nakłada limitów na rozmiary konta ani rozmiary plików. Lub ilość danych, które mogą być przechowywane w usłudze Data Lake. Poszczególne pliki mają rozmiar od kilobajtów do petabajtów, dzięki czemu usługa Data Lake Storage Gen1 jest doskonałym wyborem do przechowywania dowolnego typu danych. Dane są przechowywane trwale przez tworzenie wielu kopii. Nie ma żadnych ograniczeń dotyczących tego, jak długo dane mogą być przechowywane w usłudze Data Lake.

Dostrajanie wydajności na potrzeby analizy danych big data

Usługa Data Lake Storage Gen1 jest przeznaczona dla systemów analitycznych. Systemy wymagające ogromnej przepływności do wykonywania zapytań i analizowania dużych ilości danych. Usługa Data Lake rozkłada części pliku na kilka pojedynczych serwerów magazynu. Podczas analizowania danych ta konfiguracja poprawia przepływność odczytu, gdy plik jest odczytywany równolegle.

Gotowość dla przedsiębiorstw: wysoka dostępność i bezpieczeństwo

Usługa Data Lake Storage Gen1 zapewnia standardową dostępność i niezawodność w branży. Zasoby danych są przechowywane trwale: nadmiarowe kopie chronią przed nieoczekiwanymi awariami. Przedsiębiorstwa mogą używać usługi Data Lake Storage Gen1 w swoich rozwiązaniach jako ważnej części istniejącej platformy danych.

Usługa Data Lake Storage Gen1 zapewnia również zabezpieczenia klasy korporacyjnej dla przechowywanych danych. Aby uzyskać więcej informacji, zobacz Zabezpieczanie danych w usłudze Azure Data Lake Storage Gen1.

Elastyczne struktury danych

Usługa Data Lake Storage Gen1 może przechowywać dowolne dane w formacie natywnym, podobnie jak w przypadku wcześniejszych przekształceń. Usługa Data Lake Storage Gen1 nie wymaga zdefiniowania schematu przed załadowaniem danych. Pojedyncza struktura analizy interpretuje dane i definiuje schemat w czasie analizy. Usługa Data Lake Storage Gen1 może obsługiwać dane ustrukturyzowane. Dane częściowo i nieustrukturyzowane.

Kontenery usługi Data Lake Storage Gen1 dla danych to zasadniczo foldery i pliki. Dane są przechowywane przy użyciu zestawów SDK, witryny Azure Portal i programu Azure PowerShell. Dane umieszczane w magazynie za pomocą tych interfejsów i kontenerów mogą przechowywać dowolny typ danych. Usługa Data Lake Storage Gen1 nie wykonuje żadnej specjalnej obsługi danych na podstawie typu danych.

Bezpieczeństwo danych w usłudze Data Lake Storage Gen1

Usługa Data Lake Storage Gen1 używa identyfikatora Entra firmy Microsoft do uwierzytelniania i używa list kontroli dostępu (ACL) do zarządzania dostępem do danych.

Funkcja Opis
Uwierzytelnianie Usługa Data Lake Storage Gen1 integruje się z usługą Microsoft Entra ID na potrzeby zarządzania tożsamościami i dostępem dla wszystkich danych przechowywanych w usłudze Data Lake Storage Gen1. Ze względu na integrację usługa Data Lake Storage Gen1 korzysta ze wszystkich funkcji firmy Microsoft Entra. Te funkcje obejmują uwierzytelnianie wieloskładnikowe, dostęp warunkowy i kontrolę dostępu opartą na rolach platformy Azure. Ponadto monitorowanie użycia aplikacji, monitorowanie zabezpieczeń i alerty itd. Usługa Data Lake Storage Gen1 obsługuje protokół OAuth 2.0 na potrzeby uwierzytelniania w interfejsie REST. Zobacz Uwierzytelnianie w usłudze Azure Data Lake Storage Gen1 przy użyciu identyfikatora Entra firmy Microsoft
Kontrola dostępu Usługa Data Lake Storage Gen1 zapewnia kontrolę dostępu, obsługując uprawnienia w stylu POSIX, które są udostępniane przez protokół WebHDFS. Listy kontroli dostępu można włączyć dla folderu głównego, podfolderów i poszczególnych plików. Aby uzyskać więcej informacji na temat sposobu działania list ACL w kontekście usługi Data Lake Storage Gen1, zobacz Kontrola dostępu w usłudze Data Lake Storage Gen1.
Szyfrowanie Usługa Data Lake Storage Gen1 zapewnia również szyfrowanie danych przechowywanych na koncie. Podczas tworzenia konta usługi Data Lake Storage Gen1 należy określić ustawienia szyfrowania. Możesz wybrać szyfrowanie danych lub wybrać opcję braku szyfrowania. Aby uzyskać więcej informacji, zobacz Szyfrowanie w usłudze Data Lake Storage Gen1. Aby uzyskać instrukcje dotyczące zapewniania konfiguracji związanej z szyfrowaniem, zobacz Rozpoczynanie pracy z usługą Azure Data Lake Storage Gen1 przy użyciu witryny Azure Portal.

Aby dowiedzieć się więcej na temat zabezpieczania danych w usłudze Data Lake Storage Gen1, zobacz Zabezpieczanie danych przechowywanych w usłudze Azure Data Lake Storage Gen1.

Aplikacje zgodne z usługą Data Lake Storage Gen1

Usługa Data Lake Storage Gen1 jest zgodna z większością składników typu open source w środowisku hadoop. Bardzo dobrze integruje się również z innymi usługami Azure. Skorzystaj z poniższych linków, aby dowiedzieć się więcej o tym, jak usługa Data Lake Storage Gen1 może być używana zarówno ze składnikami typu open source, jak i innymi usługami platformy Azure.

System plików usługi Data Lake Storage Gen1 (adl://)

W środowiskach Hadoop dostęp do usługi Data Lake Storage Gen1 można uzyskać za pośrednictwem nowego systemu plików AzureDataLakeFilesystem (adl://). Wydajność aplikacji i usług, które używają adl:// , można zoptymalizować w sposób, który nie jest obecnie dostępny w systemie plików WebHDFS. W związku z tym uzyskasz elastyczność, aby uzyskać najlepszą wydajność przy użyciu zalecanego adl://. Możesz też zachować istniejący kod, kontynuując bezpośrednie korzystanie z interfejsu API webHDFS. Usługa Azure HDInsight w pełni korzysta z systemu AzureDataLakeFilesystem, aby zapewnić najlepszą wydajność usługi Data Lake Storage Gen1.

Uzyskaj dostęp do danych w usłudze Data Lake Storage Gen1 przy użyciu następującego identyfikatora URI:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Aby uzyskać więcej informacji na temat uzyskiwania dostępu do danych w usłudze Data Lake Storage Gen1, zobacz Akcje dostępne na przechowywanych danych.

Następne kroki