Общие сведения о хранилище Azure Data Lake Storage 2-го поколения

Azure Data Lake Storage 2-го поколения — это набор возможностей аналитики больших данных, созданных на основе Хранилища BLOB-объектов Azure.

Data Lake Storage 2-го поколения объединяет возможности Azure Data Lake Storage 1-го поколения и Хранилища BLOB-объектов Azure. Например, Data Lake Storage 2-го поколения поддерживает семантику файловой системы, защиту на уровне файлов и масштабирование. Так как эти возможности созданы на основе хранилища BLOB-объектов, вы также получаете экономичное многоуровневое хранилище с высоким уровнем доступности и возможностью аварийного восстановления.

Возможности аналитики больших данных организаций

Data Lake Storage 2-го поколения использует службу хранилища Azure в качестве основы для создания корпоративных хранилищ данных в Azure. Разработанное с целью обработки нескольких петабайт информации и с поддержкой сотен гигабит пропускной способности хранилище Data Lake Storage 2-го поколения позволяет с легкостью управлять огромным количеством данных.

Основная часть Data Lake Storage 2-го поколения — это добавление иерархического пространства имен в хранилище BLOB-объектов. Иерархическое пространство имен позволяет упорядочивать объекты и файлы в иерархии каталогов для эффективного доступа к данным. Согласно общему соглашению об именовании объектов имитация иерархической структуры каталогов в хранилище объектов выполняется за счет косой черты в имени. Эта структура реализована в Data Lake Storage Gen2. Задачи, такие как переименование или удаление каталога, стали атомарными операциями с метаданными в каталоге. Больше не нужно перечислять или обрабатывать все объекты с общим префиксом имени каталога.

В основе Data Lake Storage 2-го поколения лежит хранилище BLOB-объектов. Решение обеспечивает повышенный уровень производительности и безопасности, а также улучшенное управление следующим образом:

  • Производительность оптимизирована, так как больше не нужно копировать или передавать данные, чтобы проанализировать их. В сравнении с неструктурированным пространством имен в хранилище BLOB-объектов иерархическое пространство имен значительно ускоряет выполнение операций управления каталогом, что повышает общую производительность задания.

  • Управление стало проще, так как вы можете упорядочивать файлы в каталогах и подкаталогах и так с ними работать.

  • Безопасность соблюдается неукоснительно, поскольку можно определить разрешения POSIX для каталогов или отдельных файлов.

Azure Data Lake Storage 2-го поколения — очень экономичное решение, так как оно создано на основе недорогого Хранилища BLOB-объектов Azure. Дополнительные функции еще более снижают совокупную стоимость владения при выполнении аналитики больших данных в Azure.

Основные функции Data Lake Storage Gen2

  • Доступ, совместимый с Hadoop. Хранилище Data Lake Storage 2-го поколения позволяет получать доступ к данным и управлять ими так же, как и в распределенной файловой системе Hadoop (HDFS). Новый драйвер ABFS (используемый для доступа к данным) доступен во всех средах Apache Hadoop, в том числе Azure HDInsight,Azure Databricks и Azure Synapse Analytics.

  • Надмножество разрешений POSIX. Модель безопасности Data Lake Storage 2-го поколения поддерживает разрешения ACL и POSIX, а также некоторую дополнительную детализацию, разработанную специально для к Data Lake Storage 2-го поколения. Параметры могут быть настроены через Обозреватель службы хранилища или с помощью платформ, таких как Hive и Spark.

  • Экономичность. Data Lake Storage 2-го поколения предлагает низкую стоимость приобретения емкости хранилища и выполнения транзакций. За счет таких встроенных функций, как Жизненный цикл Хранилища BLOB-объектов Azure, в ходе жизненного цикла данных затраты оптимизируются.

  • Оптимизированный драйвер. Драйвер ABFS оптимизирован специально для аналитики больших данных. Соответствующие интерфейсы REST API подключены через конечную точку dfs.core.windows.net.

Масштабируемость

Служба хранилища Azure поддерживает возможности масштабирования по умолчанию вне зависимости от того, получаете вы доступ к данным через интерфейсы Data Lake Storage Gen2 или хранилища BLOB-объектов. Вы можете хранить и обрабатывать множество эксабайтов данных. Этот объем хранилища предоставляется с высокой пропускной способностью (Гбит/с) и большим количеством операций ввода-вывода в секунду (IOPS). Обработка выполняется с практически постоянными задержками запроса, которые измеряются на уровне службы, учетной записи и файла.

Экономичность

Так как Data Lake Storage 2-го поколения создано на основе Хранилища BLOB-объектов Azure, стоимость емкости хранилища и выполнения транзакций значительно ниже. В отличие от других облачных служб хранения, вам не нужно перемещать или преобразовывать данные перед выполнением анализа. Дополнительные сведения о ценах см. на странице цен на службу хранилища Azure.

Кроме того, такие возможности, как иерархическое пространство имен, значительно повышают общую производительность большинства аналитических заданий. Это улучшение означает, что для обработки такого же объема данных требуется меньше вычислительной мощности, что снижает совокупную стоимость владения комплексных заданий аналитики.

Одна служба, несколько основных понятий

Так как Data Lake Storage 2-го поколения создано на основе Хранилища BLOB-объектов Azure, несколько основных понятий могут описывать одно и то же.

Ниже приведены эквивалентные сущности, описанные разными понятиями. Если не указано иное, эти сущности являются синонимами.

Концепция Организация верхнего уровня Организация нижнего уровня Контейнер данных
Большие двоичные объекты — хранилище объектов общего назначения Контейнер Виртуальный каталог (только пакет SDK — не поддерживает атомарное управление) BLOB-объект
Azure Data Lake Storage 2-го поколения — Хранилище для аналитики Контейнер Каталог Файл

Поддерживаемые функции хранилища BLOB-объектов

Такие функции хранилища BLOB-объектов, как журнал ведения диагностики, уровни доступа и политики управления жизненным циклом хранилища BLOB-объектов, теперь работают с учетными записями. Большинство функций службы хранилища BLOB-объектов поддерживаются полностью, но некоторые функции поддерживаются только на уровне предварительной версии или пока не поддерживаются.

Сведения о поддержке каждой функции службы хранилища BLOB-объектов в Data Lake Storage 2-го поколения см. в статье Поддержка функций службы хранилища BLOB-объектов в учетных записях службы хранилища Azure.

Интеграции поддерживаемых служб Azure

Data Lake Storage 2-го поколения поддерживает несколько служб Azure. Их можно использовать для приема данных, выполнения аналитики и создания визуальных представлений. Список поддерживаемых служб Azure см. в статье Службы Azure, которые поддерживают Azure Data Lake Storage 2-го поколения.

Поддерживаемые платформы с открытым исходным кодом

Несколько платформ с открытым исходным кодом, которые поддерживают Data Lake Storage 2-го поколения. Полный список см. в статье Платформы с открытым кодом, поддерживающие Azure Data Lake Storage 2-го поколения.

См. также раздел