Configurer la hiérarchisation HDFS surSQL Server les clusters Big DataSQL Server Big Data ClustersConfigure HDFS tiering on SQL Server les clusters Big DataSQL Server Big Data Clusters

CETTE RUBRIQUE S’APPLIQUE À : ouiSQL Server nonAzure SQL DatabasenonAzure SQL Data Warehouse nonParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server noAzure SQL DatabasenoAzure SQL Data Warehouse noParallel Data Warehouse

La hiérarchisation HDFS offre la possibilité de monter un système de fichiers externe et compatible HDFS dans HDFS.HDFS Tiering provides the ability to mount external, HDFS-compatible file system in HDFS. Cet article explique comment configurer la hiérarchisation HDFS pour Clusters de Big Data SQL Server 2019SQL Server 2019 Big Data Clusters (version préliminaire).This article explains how to configure HDFS tiering for Clusters de Big Data SQL Server 2019SQL Server 2019 Big Data Clusters (preview). À ce stade, nous prenons en charge la connexion à Azure Data Lake Storage Gen2 et à Amazon S3.At this time, we support connecting to Azure Data Lake Storage Gen2, and Amazon S3.

Vue d’ensemble de la hiérarchisation HDFSHDFS tiering overview

Avec la hiérarchisation, les applications peuvent accéder de manière fluide aux données d’un grand nombre de magasins externes comme si ces données se trouvaient dans le HDFS local.With tiering, applications can seamlessly access data in a variety of external stores as though the data resides in the local HDFS. Le montage est une opération de métadonnées, consistant à copier sur votre HDFS local les métadonnées qui décrivent l’espace de noms sur le système de fichiers externe.Mounting is a metadata operation, where the metadata that describes the namespace on the external file system is copied over to your local HDFS. Ces métadonnées incluent des informations sur les répertoires et les fichiers externes, ainsi que les autorisations et listes de contrôle d’accès associées.This metadata includes information about the external directories and files along with their permissions and ACLs. Les données correspondantes sont copiées uniquement à la demande, lors de l’accès aux données par l’intermédiaire d’une requête, par exemple.The corresponding data is only copied on-demand, when the data itself is accessed through for example a query. Vous pouvez désormais accéder aux données du système de fichiers externe à partir du cluster Big Data SQL Server.The external file-system data can now be accessed from the SQL Server big data cluster. Vous pouvez exécuter des travaux Spark et des requêtes SQL sur ces données de la même façon que vous les exécutez sur toutes données locales stockées dans HDFS sur le cluster.You can run Spark jobs and SQL queries on this data in the same way that you would run them on any local data stored in HDFS on the cluster.

Mise en cacheCaching

Aujourd’hui, par défaut, 1 % du stockage HDFS total est réservé à la mise en cache des données montées.Today, by default, 1% of the total HDFS storage will be reserved for caching of mounted data. La mise en cache est un paramètre global sur les montages.Caching is a global setting across mounts.

Notes

La hiérarchisation HDFS est une fonctionnalité développée par Microsoft, dont une version antérieure a été publiée dans le cadre de la distribution d’Apache Hadoop 3.1.HDFS Tiering is a feature developed by Microsoft, and an earlier version of it has been released as part of Apache Hadoop 3.1 distribution. Pour plus d’informations, consultez https://issues.apache.org/jira/browse/HDFS-9806.For more information, see https://issues.apache.org/jira/browse/HDFS-9806 for details.

Les sections suivantes fournissent un exemple de configuration de la hiérarchisation HDFS avec une source de données Azure Data Lake Storage Gen2.The following sections provide an example of how to configure HDFS tiering with an Azure Data Lake Storage Gen2 data source.

ActualiserRefresh

La hiérarchisation HDFS prend en charge l’actualisation.HDFS tiering supports refresh. Actualisez un montage existant pour la dernière capture instantanée des données distantes.Refresh an existing mount for the latest snapshot of the remote data.

PrérequisPrerequisites

Instructions de montageMounting instructions

Nous prenons en charge la connexion à Azure Data Lake Storage Gen2 et à Amazon S3.We support connecting to Azure Data Lake Storage Gen2 and Amazon S3. Vous trouverez des instructions sur la façon de procéder à un montage sur ces types de stockage dans les articles suivants :Instructions on how to mount against these storage types can be found in the following articles:

Problèmes connus et limitationsKnown issues and limitations

La liste suivante répertorie les problèmes connus et les limitations actuelles lors de l' SQL Server les clusters Big DataSQL Server Big Data Clustersutilisation de la hiérarchisation HDFS dans:The following list provides known issues and current limitations when using HDFS tiering in SQL Server les clusters Big DataSQL Server Big Data Clusters:

  • Si le montage est bloqué dans un état CREATING pendant une longue période, il a probablement échoué.If the mount is stuck in a CREATING state for a long time, it has most likely failed. Dans ce cas, annulez la commande et supprimez le montage, si nécessaire.In this situation, cancel the command and delete the mount if necessary. Vérifiez que vos paramètres et informations d’identification sont corrects avant de réessayer.Verify that your parameters and credentials are correct before retrying.

  • Les montages ne peuvent pas être créés sur des répertoires existants.Mounts cannot be created on existing directories.

  • Les montages ne peuvent pas être créés dans des montages existants.Mounts cannot be created within existing mounts.

  • Si un ou plusieurs ancêtres du point de montage n’existent pas, ils sont créés avec des autorisations définies par défaut sur r-xr-xr-x (555).If any of the ancestors of the mount-point do not exist, they will be created with the permissions defaulted to r-xr-xr-x (555).

  • La création du montage peut prendre un certain temps en fonction du nombre et de la taille des fichiers montés.Mount creation can take some time depending on the number and size of files being mounted. Pendant ce processus, les fichiers sous le montage ne sont pas visibles par les utilisateurs.During this process, the files under the mount aren't visible to users. Pendant la création du montage, tous les fichiers sont ajoutés à un chemin temporaire, qui est par défaut /_temporary/_mounts/<mount-location>.While the mount is created, all files will be added to a temporary path, which defaults to /_temporary/_mounts/<mount-location>.

  • La commande de création de montage est asynchrone.The mount creation command is asynchronous. Une fois la commande exécutée, vous pouvez vérifier le statut du montage pour comprendre son état.After the command is run, the mount status can be checked to understand the state of the mount.

  • Lors de la création du montage, l’argument utilisé pour --mount-path est essentiellement un identificateur unique du montage.When creating the mount, the argument used for --mount-path is essentially a unique identifier of the mount. La même chaîne (y compris le caractère « / » à la fin, le cas échéant) doit être utilisée dans les commandes suivantes.The same string (including the "/" in the end if present) must be used in subsequent commands.

  • Les montages sont en lecture seule.The mounts are read-only. Vous ne pouvez pas créer de répertoires ou de fichiers sous un montage.You cannot create any directories or files under a mount.

  • Nous vous déconseillons de monter des répertoires et des fichiers qui peuvent changer.We do not recommend mounting directories and files that can change. Une fois le montage créé, les modifications ou mises à jour apportées à l’emplacement distant ne sont pas reflétées dans le montage dans HDFS.After the mount is created, any changes or updates to the remote location will not be reflected in the mount in HDFS. Si des modifications se produisent à l’emplacement distant, vous pouvez choisir de supprimer et de recréer le montage pour refléter l’état mis à jour.If changes do occur in the remote location, you can choose to delete and recreate the mount to reflect the updated state.

Étapes suivantesNext steps

Pour plus d’informations Clusters de Big Data SQL Server 2019SQL Server 2019 Big Data Clusterssur, consultez que Clusters de Big Data SQL Server 2019SQL Server 2019 Big Data Clusterssont?.For more information about Clusters de Big Data SQL Server 2019SQL Server 2019 Big Data Clusters, see What are Clusters de Big Data SQL Server 2019SQL Server 2019 Big Data Clusters?.