Настройка уровней HDFS наSQL Server кластеров больших данныхSQL Server Big Data ClustersConfigure HDFS tiering on SQL Server кластеров больших данныхSQL Server Big Data Clusters

Этот раздел применим к: ДаSQL Server НетБаза данных SQL Azure НетХранилище данных SQL Azure НетParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server noAzure SQL DatabasenoAzure SQL Data Warehouse noParallel Data Warehouse

Распределение по уровням HDFS дает возможность подключить внешнюю файловую систему, совместимую с HDFS, к HDFS.HDFS Tiering provides the ability to mount external, HDFS-compatible file system in HDFS. В этой статье описывается настройка уровней HDFS для Кластеры больших данных SQL Server 2019SQL Server 2019 Big Data Clusters (Предварительная версия).This article explains how to configure HDFS tiering for Кластеры больших данных SQL Server 2019SQL Server 2019 Big Data Clusters (preview). В настоящее время мы поддерживаем подключение к Azure Data Lake Storage 2-го поколения и Amazon S3.At this time, we support connecting to Azure Data Lake Storage Gen2, and Amazon S3.

Общие сведения о распределении по уровням HDFSHDFS tiering overview

Благодаря распределению по уровням приложения могут легко получать доступ к данным в различных внешних хранилищах так, как будто данные находятся в локальной системе HDFS.With tiering, applications can seamlessly access data in a variety of external stores as though the data resides in the local HDFS. Подключение — это операция с метаданными, предполагающая копирование метаданных, описывающих пространство имен во внешней файловой системе, в локальную систему HDFS.Mounting is a metadata operation, where the metadata that describes the namespace on the external file system is copied over to your local HDFS. Метаданные включают в себя сведения о внешних каталогах и файлах, а также их разрешения и списки управления доступом.This metadata includes information about the external directories and files along with their permissions and ACLs. Соответствующие данные копируются по требованию, когда к ним осуществляется доступ, например с помощью запроса.The corresponding data is only copied on-demand, when the data itself is accessed through for example a query. К данным во внешней файловой системе теперь можно обращаться из кластера больших данных SQL Server.The external file-system data can now be accessed from the SQL Server big data cluster. Вы можете выполнять задания Spark и запросы SQL к этим данным так же, как к любым локальным данным, хранящимся в системе HDFS в кластере.You can run Spark jobs and SQL queries on this data in the same way that you would run them on any local data stored in HDFS on the cluster.

КэшированиеCaching

В настоящее время 1 % общего объема хранилища HDFS по умолчанию резервируется для кэширования подключенных данных.Today, by default, 1% of the total HDFS storage will be reserved for caching of mounted data. Кэширование настраивается глобально для всех подключенных ресурсов.Caching is a global setting across mounts.

Примечание

Распределение по уровням HDFS — это функция, разработанная корпорацией Майкрософт. Ее более ранняя версия была выпущена в составе дистрибутива Apache Hadoop 3.1.HDFS Tiering is a feature developed by Microsoft, and an earlier version of it has been released as part of Apache Hadoop 3.1 distribution. Подробные сведения см. на странице https://issues.apache.org/jira/browse/HDFS-9806.For more information, see https://issues.apache.org/jira/browse/HDFS-9806 for details.

В следующих разделах приводится пример настройки распределения по уровням HDFS для источника данных Azure Data Lake Storage 2-го поколения.The following sections provide an example of how to configure HDFS tiering with an Azure Data Lake Storage Gen2 data source.

ОбновитьRefresh

Распределение по уровням HDFS поддерживает обновление.HDFS tiering supports refresh. Обновите существующий подключенный ресурс, чтобы получить последний моментальный снимок удаленных данных.Refresh an existing mount for the latest snapshot of the remote data.

Предварительные требованияPrerequisites

Инструкции по подключениюMounting instructions

Мы поддерживаем подключение к Azure Data Lake Storage 2-го поколения и Amazon S3.We support connecting to Azure Data Lake Storage Gen2 and Amazon S3. Инструкции по подключению для этих типов хранилища см. в следующих статьях:Instructions on how to mount against these storage types can be found in the following articles:

Известные проблемы и ограниченияKnown issues and limitations

В следующем списке приведены известные проблемы и текущие ограничения при использовании уровней HDFS в SQL Server кластеров больших данныхSQL Server Big Data Clusters.The following list provides known issues and current limitations when using HDFS tiering in SQL Server кластеров больших данныхSQL Server Big Data Clusters:

  • Если подключенный ресурс долго остается в состоянии CREATING, скорее всего, произошел сбой.If the mount is stuck in a CREATING state for a long time, it has most likely failed. В этом случае отмените команду и при необходимости удалите подключенный ресурс.In this situation, cancel the command and delete the mount if necessary. Перед повторной попыткой проверьте правильность параметров и учетных данных.Verify that your parameters and credentials are correct before retrying.

  • Подключенные ресурсы нельзя создавать в существующих каталогах.Mounts cannot be created on existing directories.

  • Подключенные ресурсы нельзя создавать в существующих подключенных ресурсах.Mounts cannot be created within existing mounts.

  • Если какие-либо из предков точки подключения не существуют, они будут созданы с разрешениями по умолчанию r-xr-xr-x (555).If any of the ancestors of the mount-point do not exist, they will be created with the permissions defaulted to r-xr-xr-x (555).

  • Создание подключения может потребовать некоторого времени в зависимости от количества и размера подключаемых файлов.Mount creation can take some time depending on the number and size of files being mounted. Во время этого процесса файлы в подключаемом ресурсе не доступны пользователям.During this process, the files under the mount aren't visible to users. Во время создания подключаемого ресурса все файлы добавляются во временную папку, которая по умолчанию находится по пути /_temporary/_mounts/<mount-location>.While the mount is created, all files will be added to a temporary path, which defaults to /_temporary/_mounts/<mount-location>.

  • Команда создания подключаемого ресурса выполняется асинхронно.The mount creation command is asynchronous. После выполнения команды можно проверить состояние подключаемого ресурса.After the command is run, the mount status can be checked to understand the state of the mount.

  • При создании подключаемого ресурса аргумент, используемый для --mount-path, представляет собой уникальный идентификатор подключаемого ресурса.When creating the mount, the argument used for --mount-path is essentially a unique identifier of the mount. В последующих командах следует использовать ту же строку (включая символ "/" в конце, если он имеется).The same string (including the "/" in the end if present) must be used in subsequent commands.

  • Подключаемые ресурсы доступны только для чтения.The mounts are read-only. В подключаемом ресурсе нельзя создавать каталоги или файлы.You cannot create any directories or files under a mount.

  • Мы не рекомендуем подключать каталоги или файлы, которые могут меняться.We do not recommend mounting directories and files that can change. После создания подключаемого ресурса любые изменения, вносимые в удаленном расположении, не отражаются в подключаемом ресурсе в HDFS.After the mount is created, any changes or updates to the remote location will not be reflected in the mount in HDFS. Если в удаленном расположении есть изменения, вы можете удалить и повторно создать подключаемый ресурс, чтобы обновить состояние.If changes do occur in the remote location, you can choose to delete and recreate the mount to reflect the updated state.

Следующие шагиNext steps

Дополнительные сведения о Кластеры больших данных SQL Server 2019SQL Server 2019 Big Data Clustersсм. в разделе что Кластеры больших данных SQL Server 2019SQL Server 2019 Big Data Clustersтакое?.For more information about Кластеры больших данных SQL Server 2019SQL Server 2019 Big Data Clusters, see What are Кластеры больших данных SQL Server 2019SQL Server 2019 Big Data Clusters?.