Azure Data Lake Storage Gen1이란?What is Azure Data Lake Storage Gen1?

참고

이제 Azure Data Lake Storage Gen2가 일반 공급됩니다.Azure Data Lake Storage Gen2 is now generally available. 오늘부터 사용을 시작하는 것이 좋습니다.We recommend that you start using it today. 자세한 내용은 제품 페이지를 참조하세요.For more information, see the product page.

Azure Data Lake Storage Gen1은 빅 데이터 분석 작업을 위한 엔터프라이즈 수준 하이퍼 스케일 리포지토리입니다.Azure Data Lake Storage Gen1 is an enterprise-wide hyper-scale repository for big data analytic workloads. Azure 데이터 레이크를 사용하면 작동 및 예비 분석에 대해 한 곳에서 모든 크기, 형식 및 수집 속도의 데이터를 캡처할 수 있습니다.Azure Data Lake enables you to capture data of any size, type, and ingestion speed in one single place for operational and exploratory analytics.

Data Lake Storage Gen1은 WebHDFS 호환 REST API를 사용하여 Hadoop(HDInsight 클러스터에서 사용 가능)에서 액세스할 수 있습니다.Data Lake Storage Gen1 can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs. 저장된 데이터에 대한 분석을 지원하도록 설계되었으며, 데이터 분석 시나리오에 필요한 성능에 맞게 튜닝되었습니다.It's designed to enable analytics on the stored data and is tuned for performance for data analytics scenarios. Data Lake Storage Gen1에는 보안, 관리 효율성, 확장성, 안정성 및 가용성과 같은 모든 엔터프라이즈급 기능이 포함됩니다.Data Lake Storage Gen1 includes all enterprise-grade capabilities: security, manageability, scalability, reliability, and availability.

Azure 데이터 레이크

주요 기능Key capabilities

Data Lake Storage Gen1의 주요 기능 중 일부는 다음과 같습니다.Some of the key capabilities of Data Lake Storage Gen1 include the following.

Hadoop용으로 작성Built for Hadoop

Data Lake Storage Gen1은 HDFS(Hadoop 분산 파일 시스템)와 호환되고 Hadoop 에코시스템에서 작동하는 Apache Hadoop 파일 시스템입니다.Data Lake Storage Gen1 is an Apache Hadoop file system that's compatible with Hadoop Distributed File System (HDFS), and works with the Hadoop ecosystem. WebHDFS API를 사용하는 기존 HDInsight 애플리케이션 또는 서비스는 Data Lake Storage Gen1과 쉽게 통합할 수 있습니다.Your existing HDInsight applications or services that use the WebHDFS API can easily integrate with Data Lake Storage Gen1. Data Lake Storage Gen1은 또한 애플리케이션에 대한 WebHDFS 호환 REST 인터페이스를 노출합니다.Data Lake Storage Gen1 also exposes a WebHDFS-compatible REST interface for applications.

MapReduce 또는 Hive와 같은 Hadoop 분석 프레임워크를 사용하여 Data Lake Storage Gen1에 저장된 데이터를 쉽게 분석할 수 있습니다.You can easily analyze data stored in Data Lake Storage Gen1 using Hadoop analytic frameworks such as MapReduce or Hive. Azure HDInsight 클러스터를 프로비저닝하고 Data Lake Storage Gen1에 저장된 데이터에 직접 액세스하도록 구성할 수 있습니다.You can provision Azure HDInsight clusters and configure them to directly access data stored in Data Lake Storage Gen1.

무제한 스토리지, 페타바이트 파일Unlimited storage, petabyte files

Data Lake Storage Gen1은 무제한 스토리지를 제공하며, 다양한 분석 데이터를 저장하는 데 적합합니다.Data Lake Storage Gen1 provides unlimited storage and can store a variety of data for analytics. 데이터 레이크에 저장할 수 있는 계정 크기, 파일 크기 또는 데이터 양을 제한하지 않습니다.It doesn't impose any limits on account sizes, file sizes, or the amount of data that can be stored in a data lake. 개별 파일의 크기는 킬로바이트에서 페타바이트까지 다양합니다.Individual files can range from kilobyte to petabytes in size. 데이터는 여러 복사본을 만들어 영구적으로 저장됩니다.Data is stored durably by making multiple copies. 데이터를 데이터 레이크에 저장할 수 있는 기간에는 제한이 없습니다.There is no limit on the duration of time for which the data can be stored in the data lake.

빅 데이터 분석에 대한 성능 조정Performance-tuned for big data analytics

Data Lake Storage Gen1은 대량의 데이터를 쿼리하고 분석하기 위해 대규모 처리량이 필요한 대규모 분석 시스템을 실행할 수 있도록 빌드되었습니다.Data Lake Storage Gen1 is built for running large-scale analytic systems that require massive throughput to query and analyze large amounts of data. 데이터 레이크는 개별 스토리지 서버의 수 이상으로 파일의 일부분을 배포합니다.The data lake spreads parts of a file over a number of individual storage servers. 데이터 분석을 수행하기 위해 병렬로 파일을 읽을 때 읽기 처리량이 향상됩니다.This improves the read throughput when reading the file in parallel for performing data analytics.

엔터프라이즈 지원: 고가용성 및 보안Enterprise ready: Highly available and secure

Data Lake Storage Gen1은 업계 표준 가용성과 안정성을 제공합니다.Data Lake Storage Gen1 provides industry-standard availability and reliability. 데이터 자산은 모든 예기치 않은 오류로부터 보호하도록 중복 복사본을 만들어 영구적으로 저장됩니다.Your data assets are stored durably by making redundant copies to guard against any unexpected failures.

또한 Data Lake Storage Gen1은 저장된 데이터에 대한 엔터프라이즈급 보안을 제공합니다.Data Lake Storage Gen1 also provides enterprise-grade security for the stored data. 자세한 내용은 Azure Data Lake Storage Gen1의 데이터 보안을 참조하세요.For more information, see Securing data in Azure Data Lake Storage Gen1.

모든 데이터All data

Data Lake Storage Gen1은 사전에 변환하지 않고도 모든 데이터를 네이티브 형식으로 저장할 수 있습니다.Data Lake Storage Gen1 can store any data in its native format, without requiring any prior transformations. Data Lake Storage Gen1은 데이터가 로드되기 전에 정의되어야 하는 스키마가 필요하지 않으므로 개별 분석 프레임워크가 데이터를 해석하고 분석 시 스키마를 정의할 때까지 그대로 둡니다.Data Lake Storage Gen1 does not require a schema to be defined before the data is loaded, leaving it up to the individual analytic framework to interpret the data and define a schema at the time of the analysis. 임의 크기 및 형식의 파일을 저장할 수 있는 기능을 통해 Data Lake Storage Gen1에서 정형, 반정형 및 비정형 데이터를 처리할 수 있습니다.The ability to store files of arbitrary sizes and formats makes it possible for Data Lake Storage Gen1 to handle structured, semi-structured, and unstructured data.

데이터에 대한 Data Lake Storage Gen1 컨테이너는 기본적으로 폴더 및 파일입니다.Data Lake Storage Gen1 containers for data are essentially folders and files. SDK, Azure Portal 및 Azure Powershell을 사용하여 저장된 데이터에 대한 작업을 수행합니다.You operate on the stored data using SDKs, the Azure portal, and Azure Powershell. 이러한 인터페이스와 적절한 컨테이너를 사용하여 데이터를 저장소에 저장하면 모든 형식의 데이터를 저장할 수 있습니다.If you put your data into the store using these interfaces and using the appropriate containers, you can store any type of data. Data Lake Storage Gen1은 저장하는 데이터의 형식에 따라 데이터의 특수한 처리를 수행하지 않습니다.Data Lake Storage Gen1 does not perform any special handling of data based on the type of data it stores.

데이터 보안Securing data

Data Lake Storage Gen1은 Azure AD(Azure Active Directory)를 인증 및 ACL(액세스 제어 목록)에 사용하여 데이터에 대한 액세스를 관리합니다.Data Lake Storage Gen1 uses Azure Active Directory (Azure AD) for authentication, and access control lists (ACLs) to manage access to your data.

기능Feature 설명Description
인증Authentication Data Lake Storage Gen1은 Data Lake Storage Gen1에 저장된 모든 데이터에 대한 ID 및 액세스를 관리할 수 있도록 Azure AD와 통합됩니다.Data Lake Storage Gen1 integrates with Azure AD for identity and access management for all the data stored in Data Lake Storage Gen1. 통합에 따라 Data Lake Storage Gen1에서 다단계 인증, 조건부 액세스, Azure 역할 기반 액세스 제어, 애플리케이션 사용 현황 모니터링, 보안 모니터링 및 경고 등과 같은 모든 Azure AD 기능을 활용할 수 있습니다.Because of the integration, Data Lake Storage Gen1 benefits from all Azure AD feature such as multi-factor authentication, Conditional Access, Azure role-based access control, application usage monitoring, security monitoring and alerting, and so on. Data Lake Storage Gen1은 REST 인터페이스에서 인증을 위한 OAuth 2.0 프로토콜을 지원합니다.Data Lake Storage Gen1 supports the OAuth 2.0 protocol for authentication within the REST interface. Data Lake Storage Gen1 인증을 참조하세요.See Data Lake Storage Gen1 authentication.
Access ControlAccess control Data Lake Storage Gen1은 WebHDFS 프로토콜에 의해 노출되는 POSIX 스타일 권한을 지원하여 액세스 제어를 제공합니다.Data Lake Storage Gen1 provides access control by supporting POSIX-style permissions exposed by the WebHDFS protocol. 루트 폴더, 하위 폴더 및 개별 파일에서 ACL을 사용하도록 설정할 수 있습니다.You can enable ACLs on the root folder, on subfolders, and on individual files. Data Lake Storage Gen1의 컨텍스트에서 ACL이 작동하는 방법에 대한 자세한 내용은 Data Lake Storage Gen1의 액세스 제어를 참조하세요.For more information about how ACLs work in the context of Data Lake Storage Gen1, see Access control in Data Lake Storage Gen1.
암호화Encryption Data Lake Storage Gen1은 계정에 저장된 데이터에 대한 암호화도 제공합니다.Data Lake Storage Gen1 also provides encryption for data that's stored in the account. Data Lake Storage Gen1 계정을 만드는 동안 암호화 설정을 지정합니다.You specify the encryption settings while creating a Data Lake Storage Gen1 account. 암호화된 데이터 또는 암호화 없음을 선택할 수 있습니다.You can choose to have your data encrypted or opt for no encryption. 자세한 내용은 Data Lake Storage Gen1의 암호화를 참조하세요.For more information, see Encryption in Data Lake Storage Gen1. 암호화 관련 구성을 제공하는 방법에 대한 자세한 내용은 Azure Portal을 사용하여 Data Lake Storage Gen1 시작을 참조하세요.For instructions on how to provide encryption-related configuration, see Get started with Data Lake Storage Gen1 using the Azure portal.

Data Lake Storage Gen1의 데이터 보안 방법에 대한 지침은 Azure Data Lake Storage Gen1의 데이터 보안을 참조하세요.For instructions on how to secure data in Data Lake Storage Gen1, see Securing data in Azure Data Lake Storage Gen1.

애플리케이션 호환성Application compatibility

Data Lake Storage Gen1은 Hadoop 에코시스템의 오픈 소스 구성 요소 대부분과 호환됩니다.Data Lake Storage Gen1 is compatible with most open-source components in the Hadoop ecosystem. 또한 다른 Azure 서비스와도 원활하게 통합됩니다.It also integrates well with other Azure services. 오픈 소스 구성 요소 및 기타 Azure 서비스에서 Data Lake Storage Gen1을 사용하는 방법에 대한 자세한 내용은 다음 링크를 사용하세요.To learn more about how you can use Data Lake Storage Gen1 with open-source components and other Azure services, use the following links:

Data Lake Storage Gen1 파일 시스템Data Lake Storage Gen1 file system

Data Lake Storage Gen1은 Hadoop 환경(HDInsight 클러스터에서 사용 가능)에서 AzureDataLakeFilesystem(adl://) 파일 시스템을 통해 액세스할 수 있습니다.Data Lake Storage Gen1 can be accessed via the filesystem AzureDataLakeFilesystem (adl://) in Hadoop environments (available with HDInsight cluster). adl://을 사용하는 애플리케이션 및 서비스는 현재 WebHDFS에서 사용할 수 없는 추가 성능 최적화를 활용할 수 있습니다.Applications and services that use adl:// can take advantage of further performance optimizations that aren't currently available in WebHDFS. 이에 따라 Data Lake Storage Gen1은 권장되는 adl://을 사용하는 데 추천되는 옵션을 사용하여 최상의 성능을 활용하거나 WebHDFS API를 직접 계속 사용하여 기존 코드를 유지할 수 있는 유연성을 제공합니다.As a result, Data Lake Storage Gen1 gives you the flexibility to either make use of the best performance with the recommended option of using adl:// or maintain existing code by continuing to use the WebHDFS API directly. Azure HDInsight는 Data Lake Storage Gen1에서 최상의 성능을 제공하도록 AzureDataLakeFilesystem을 완벽하게 활용합니다.Azure HDInsight fully leverages the AzureDataLakeFilesystem to provide the best performance on Data Lake Storage Gen1.

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net을 사용하여 Data Lake Storage Gen1의 데이터에 액세스할 수 있습니다.You can access your data in Data Lake Storage Gen1 using adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Data Lake Storage Gen1의 데이터에 액세스하는 방법에 대한 자세한 내용은 저장된 데이터의 속성 보기를 참조하세요.For more information about how to access the data in Data Lake Storage Gen1, see View properties of the stored data.

다음 단계Next steps