Общие сведения о хранилище Azure Data Lake Storage 2-го поколенияIntroduction to Azure Data Lake Storage Gen2

Azure Data Lake Storage 2-го поколения — это набор возможностей аналитики больших данных, созданных на основе хранилища BLOB-объектов Azure.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage.

Data Lake Storage 2-го поколения объединяет возможности Azure Data Lake Storage 1-го поколения и хранилища BLOB-объектов Azure.Data Lake Storage Gen2 converges the capabilities of Azure Data Lake Storage Gen1 with Azure Blob storage. Например, Data Lake Storage 2-го поколения поддерживает семантику файловой системы, защиту на уровне файлов и масштабирование.For example, Data Lake Storage Gen2 provides file system semantics, file-level security, and scale. Так как эти возможности созданы на основе хранилища BLOB-объектов, вы также получаете экономичное многоуровневое хранилище с высоким уровнем доступности и возможностью аварийного восстановления.Because these capabilities are built on Blob storage, you'll also get low-cost, tiered storage, with high availability/disaster recovery capabilities.

Возможности аналитики больших данных организацийDesigned for enterprise big data analytics

Data Lake Storage 2-го поколения использует службу хранилища Azure в качестве основы для создания корпоративных хранилищ данных в Azure.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Разработанное с целью обработки нескольких петабайт информации и с поддержкой сотен гигабит пропускной способности хранилище Data Lake Storage 2-го поколения позволяет с легкостью управлять огромным количеством данных.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Основная часть Data Lake Storage 2-го поколения — это добавление иерархического пространства имен в хранилище BLOB-объектов.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. Иерархическое пространство имен позволяет упорядочивать объекты и файлы в иерархии каталогов для эффективного доступа к данным.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. Согласно общему соглашению об именовании объектов имитация иерархической структуры каталогов в хранилище объектов выполняется за счет косой черты в имени.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Эта структура реализована в Data Lake Storage Gen2.This structure becomes real with Data Lake Storage Gen2. Задачи, такие как переименование или удаление каталога, стали атомарными операциями с метаданными в каталоге.Operations such as renaming or deleting a directory, become single atomic metadata operations on the directory. Больше не нужно перечислять или обрабатывать все объекты с общим префиксом имени каталога.There's no need to enumerate and process all objects that share the name prefix of the directory.

В основе Data Lake Storage 2-го поколения лежит хранилище BLOB-объектов. Решение обеспечивает повышенный уровень производительности и безопасности, а также улучшенное управление следующим образом:Data Lake Storage Gen2 builds on Blob storage and enhances performance, management, and security in the following ways:

  • Производительность оптимизирована, так как больше не нужно копировать или передавать данные, чтобы проанализировать их.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. В сравнении с неструктурированным пространством имен в хранилище BLOB-объектов иерархическое пространство имен значительно ускоряет выполнение операций управления каталогом, что повышает общую производительность задания.Compared to the flat namespace on Blob storage, the hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • Управление стало проще, так как вы можете упорядочивать файлы в каталогах и подкаталогах и так с ними работать.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • Безопасность соблюдается неукоснительно, поскольку можно определить разрешения POSIX для каталогов или отдельных файлов.Security is enforceable because you can define POSIX permissions on directories or individual files.

Azure Data Lake Storage 2-го поколения — очень экономичное решение, так как оно создано на основе недорогого хранилища BLOB-объектов Azure.Also, Data Lake Storage Gen2 is very cost effective because it is built on top of the low-cost Azure Blob storage. Дополнительные функции еще более снижают совокупную стоимость владения при выполнении аналитики больших данных в Azure.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Основные функции Data Lake Storage Gen2Key features of Data Lake Storage Gen2

  • Доступ, совместимый с Hadoop. Хранилище Data Lake Storage 2-го поколения позволяет получать доступ к данным и управлять ими так же, как и в распределенной файловой системе Hadoop (HDFS).Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). Новый драйвер ABFS (используемый для доступа к данным) доступен во всех средах Apache Hadoop,The new ABFS driver (used to access data) is available within all Apache Hadoop environments. в том числе Azure HDInsight , Azure Databricks и Azure Synapse Analytics.These environments include Azure HDInsight, Azure Databricks, and Azure Synapse Analytics.

  • Супермножество разрешений POSIX. Модель безопасности Data Lake 2-го поколения поддерживает разрешения ACL и POSIX, а также некоторую дополнительную детализацию, относящуюся к Data Lake Storage 2-го поколения.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. Параметры могут быть настроены через Обозреватель службы хранилища или с помощью платформ, таких как Hive и Spark.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Экономичность. Data Lake Storage 2-го поколения обеспечивает недорогие транзакции и емкость хранилища.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. За счет таких встроенных функций, как Жизненный цикл хранилища BLOB-объектов Azure, в ходе жизненного цикла данных затраты оптимизируются.Features such as Azure Blob storage lifecycle optimize costs as data transitions through its lifecycle.

  • Оптимизированный драйвер. Драйвер ABFS оптимизирован специально для аналитики больших данных.Optimized driver: The ABFS driver is optimized specifically for big data analytics. Соответствующие интерфейсы REST API подключены через конечную точку dfs.core.windows.net.The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

МасштабируемостьScalability

Служба хранилища Azure поддерживает возможности масштабирования по умолчанию вне зависимости от того, получаете вы доступ к данным через интерфейсы Data Lake Storage Gen2 или хранилища BLOB-объектов.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. Вы можете хранить и обрабатывать множество эксабайтов данных.It is able to store and serve many exabytes of data. Этот объем хранилища предоставляется с высокой пропускной способностью (Гбит/с) и большим количеством операций ввода-вывода в секунду (IOPS).This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Обработка выполняется с практически постоянными задержками запроса, которые измеряются на уровне службы, учетной записи и файла.Processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

ЭкономичностьCost effectiveness

Так как Data Lake Storage 2-го поколения создано на основе хранилища BLOB-объектов Azure, стоимость емкости хранилища и выполнения транзакций значительно ниже.Because Data Lake Storage Gen2 is built on top of Azure Blob storage, storage capacity and transaction costs are lower. В отличие от других облачных служб хранения, вам не нужно перемещать или преобразовывать данные перед выполнением анализа.Unlike other cloud storage services, you don't have to move or transform your data before you can analyze it. Дополнительные сведения о ценах см. на странице цен на службу хранилища Azure.For more information about pricing, see Azure Storage pricing.

Кроме того, такие возможности, как иерархическое пространство имен, значительно повышают общую производительность большинства аналитических заданий.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Это улучшение означает, что для обработки такого же объема данных требуется меньше вычислительной мощности, что снижает совокупную стоимость владения комплексных заданий аналитики.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

Одна служба, несколько основных понятийOne service, multiple concepts

Так как Data Lake Storage 2-го поколения создано на основе хранилища BLOB-объектов Azure, несколько основных понятий могут описывать одно и то же.Because Data Lake Storage Gen2 is built on top of Azure Blob storage, multiple concepts can describe the same, shared things.

Ниже приведены эквивалентные сущности, описанные разными понятиями.The following are the equivalent entities, as described by different concepts. Если не указано иное, эти сущности являются синонимами.Unless specified otherwise these entities are directly synonymous:

КонцепцияConcept Организация верхнего уровняTop Level Organization Организация нижнего уровняLower Level Organization Контейнер данныхData Container
Большие двоичные объекты — хранилище объектов общего назначенияBlobs – General purpose object storage КонтейнерContainer Виртуальный каталог (только пакет SDK — не поддерживает атомарное управление)Virtual directory (SDK only – does not provide atomic manipulation) BLOB-объектBlob
Azure Data Lake Storage 2-го поколения — Хранилище для аналитикиAzure Data Lake Storage Gen2 – Analytics Storage КонтейнерContainer КаталогDirectory ФайлFile

Поддерживаемые функции хранилища BLOB-объектовSupported Blob storage features

Такие функции хранилища BLOB-объектов, как журнал ведения диагностики, уровни доступа и политики управления жизненным циклом хранилища BLOB-объектов, теперь работают с учетными записями.Blob storage features such as diagnostic logging, access tiers, and Blob Storage lifecycle management policies are available to your account.

Список поддерживаемых функций хранилища BLOB-объектов см. в разделе Функции хранилища BLOB-объектов, доступные в Azure Data Lake Storage 2-го поколения.For a list of supported Blob storage features, see Blob Storage features available in Azure Data Lake Storage Gen2.

Интеграции поддерживаемых служб AzureSupported Azure service integrations

Data Lake Storage 2-го поколения поддерживает несколько служб Azure.Data Lake Storage gen2 supports several Azure services. Их можно использовать для приема данных, выполнения аналитики и создания визуальных представлений.You can use them to ingest data, perform analytics, and create visual representations. Список поддерживаемых служб Azure см. в статье Службы Azure, которые поддерживают Azure Data Lake Storage 2-го поколения.For a list of supported Azure services, see Azure services that support Azure Data Lake Storage Gen2.

Поддерживаемые платформы с открытым исходным кодомSupported open source platforms

Несколько платформ с открытым исходным кодом, которые поддерживают Data Lake Storage 2-го поколения.Several open source platforms support Data Lake Storage Gen2. Полный список см. в статье Платформы с открытым кодом, поддерживающие Azure Data Lake Storage 2-го поколения.For a complete list, see Open source platforms that support Azure Data Lake Storage Gen2.

См. также разделSee also