Configurer HDFS hiérarchisation sur les clusters de données volumineuses de SQL ServerConfigure HDFS tiering on SQL Server big data clusters

CETTE RUBRIQUE S’APPLIQUE À :ouiSQL Server (à partir de la version 2019)nonAzure SQL DatabasenonAzure SQL Data Warehouse nonParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server (starting with 2019)noAzure SQL DatabasenoAzure SQL Data Warehouse noParallel Data Warehouse

La hiérarchisation HDFS fournit la capacité à monter externe, le système de fichiers compatible HDFS dans HDFS.HDFS Tiering provides the ability to mount external, HDFS-compatible file system in HDFS. Cet article explique comment configurer HDFS réduits pour les clusters de données volumineuses de SQL Server 2019 (version préliminaire).This article explains how to configure HDFS tiering for SQL Server 2019 big data clusters (preview). À ce stade, nous prenons en charge de connexion à Azure Data Lake Storage Gen2 et Amazon S3.At this time, we support connecting to Azure Data Lake Storage Gen2, and Amazon S3.

Vue d’ensemble de la hiérarchisation HDFSHDFS tiering overview

Avec une hiérarchisation, les applications peuvent accéder en toute transparence les données dans un large éventail de magasins externes comme si les données résident dans le stockage HDFS local.With tiering, applications can seamlessly access data in a variety of external stores as though the data resides in the local HDFS. Le montage est une opération de métadonnées, où les métadonnées qui décrivent l’espace de noms sur le système de fichiers externe sont copiée dans votre stockage HDFS local.Mounting is a metadata operation, where the metadata that describes the namespace on the external file system is copied over to your local HDFS. Ces métadonnées incluent des informations sur les répertoires externes et les fichiers, ainsi que leurs autorisations et les ACL.This metadata includes information about the external directories and files along with their permissions and ACLs. Les données correspondantes sont uniquement copié à la demande, lorsque les données lui-même sont accessible via par exemple une requête.The corresponding data is only copied on-demand, when the data itself is accessed through for example a query. Les données de système de fichiers externe sont maintenant accessible à partir du cluster de données volumineuses de SQL Server.The external file-system data can now be accessed from the SQL Server big data cluster. Vous pouvez exécuter Spark travaux et des requêtes SQL sur ces données dans la même façon que les exécuter sur toutes les données locales stockées dans HDFS sur le cluster.You can run Spark jobs and SQL queries on this data in the same way that you would run them on any local data stored in HDFS on the cluster.

Mise en cacheCaching

Aujourd'hui, par défaut, 1 % du stockage HDFS total est réservée pour la mise en cache de données montés.Today, by default, 1% of the total HDFS storage will be reserved for caching of mounted data. La mise en cache est un paramètre global entre les montages.Caching is a global setting across mounts.

Notes

HDFS la hiérarchisation est une fonctionnalité développée par Microsoft, et une version antérieure de celui-ci a été publiée dans le cadre de la distribution d’Apache Hadoop 3.1.HDFS Tiering is a feature developed by Microsoft, and an earlier version of it has been released as part of Apache Hadoop 3.1 distribution. Pour plus d’informations, consultez https://issues.apache.org/jira/browse/HDFS-9806 pour plus d’informations.For more information, see https://issues.apache.org/jira/browse/HDFS-9806 for details.

Les sections suivantes fournissent un exemple de configuration HDFS la hiérarchisation avec une source de données Azure Data Lake Storage Gen2.The following sections provide an example of how to configure HDFS tiering with an Azure Data Lake Storage Gen2 data source.

PrérequisPrerequisites

Instructions de montageMounting instructions

Nous prenons en charge la connexion à Azure Data Lake Storage Gen2 et Amazon S3.We support connecting to Azure Data Lake Storage Gen2 and Amazon S3. Vous trouverez des instructions sur la procédure de montage par rapport à ces types de stockage dans les articles suivants :Instructions on how to mount against these storage types can be found in the following articles:

Limitations et problèmes connusKnown issues and limitations

La liste suivante fournit les problèmes connus et limitations actuelles lors de l’utilisation de HDFS la hiérarchisation dans les clusters de données volumineuses de SQL Server :The following list provides known issues and current limitations when using HDFS tiering in SQL Server big data clusters:

  • Si le montage est bloqué dans un CREATING état pendant une longue période, il a probablement échoué.If the mount is stuck in a CREATING state for a long time, it has most likely failed. Dans ce cas, annuler la commande et supprimer le montage si nécessaire.In this situation, cancel the command and delete the mount if necessary. Vérifiez que vos paramètres et les informations d’identification sont correctes avant de réessayer.Verify that your parameters and credentials are correct before retrying.

  • Montages ne peut pas être créés dans les répertoires existants.Mounts cannot be created on existing directories.

  • Impossible de créer les montages au sein de montages existants.Mounts cannot be created within existing mounts.

  • Si un des ancêtres du point de montage n’existent pas, ils seront créés avec les autorisations par défaut la valeur r-xr-xr-x (555).If any of the ancestors of the mount-point do not exist, they will be created with the permissions defaulted to r-xr-xr-x (555).

  • La création de montage peut prendre un certain temps selon le nombre et la taille des fichiers qui est monté.Mount creation can take some time depending on the number and size of files being mounted. Pendant ce processus, les fichiers sous le montage ne sont pas visibles aux utilisateurs.During this process, the files under the mount aren't visible to users. Pendant la création, le montage tous les fichiers seront ajoutés à un chemin d’accès temporaire, qui utilise par défaut /_temporary/_mounts/<mount-location>.While the mount is created, all files will be added to a temporary path, which defaults to /_temporary/_mounts/<mount-location>.

  • La commande de création de montage est asynchrone.The mount creation command is asynchronous. Une fois que la commande est exécutée, l’état de montage peut être vérifié à comprendre l’état du montage.After the command is run, the mount status can be checked to understand the state of the mount.

  • Lorsque vous créez le montage, l’argument utilisé pour --chemin de montage est essentiellement un identificateur unique du montage.When creating the mount, the argument used for --mount-path is essentially a unique identifier of the mount. La même chaîne (y compris la « / » en fin de compte, le cas échéant) doit être utilisée dans les commandes suivantes.The same string (including the "/" in the end if present) must be used in subsequent commands.

  • Les montages sont en lecture seule.The mounts are read-only. Impossible de créer les répertoires ou les fichiers sous un montage.You cannot create any directories or files under a mount.

  • Nous ne recommandons pas de fichiers et répertoires de montage qui peuvent changer.We do not recommend mounting directories and files that can change. Une fois le montage est créé, les modifications ou les mises à jour vers l’emplacement distant seront répercutées dans le montage dans HDFS.After the mount is created, any changes or updates to the remote location will not be reflected in the mount in HDFS. Si les modifications se produisent dans l’emplacement distant, vous pouvez choisir de supprimer et recréer le montage pour refléter l’état mis à jour.If changes do occur in the remote location, you can choose to delete and recreate the mount to reflect the updated state.

Étapes suivantesNext steps

Pour plus d’informations sur les clusters de données volumineuses de SQL Server 2019, consultez que sont les clusters de données volumineuses de SQL Server 2019 ?.For more information about SQL Server 2019 big data clusters, see What are SQL Server 2019 big data clusters?.