Présentation d'Azure Data Lake Storage Gen2

Article
04/03/2023

Azure Data Lake Storage Gen2 est un ensemble de fonctionnalités dédiées à l’analytique du Big Data, s’appuyant sur le service Stockage Blob Azure.

Data Lake Storage Gen2 fait converger les fonctionnalités d’Azure Data Lake Storage Gen1 avec le service Stockage Blob Azure. Par exemple, Data Lake Storage Gen2 fournit une sémantique du système de fichiers, une sécurité au niveau des fichiers et la mise à l’échelle. Comme ces fonctionnalités sont basées sur le Stockage Blob, vous bénéficiez également d’un stockage hiérarchisé à faible coût avec des fonctionnalités de haute disponibilité et de récupération d’urgence.

Data Lake Storage Gen2 fait du stockage Azure la base pour créer des dépôts Data Lake d’entreprise sur Azure. Conçu dès le départ pour traiter plusieurs téraoctets d’informations tout en assurant des centaines de gigaoctets de débit, Data Lake Storage Gen2 vous permet de facilement gérer d'importants volumes de données.

Qu’est-ce que Data Lake ?

Un lac de données est un référentiel centralisé unique dans lequel vous pouvez stocker toutes vos données, structurées et non structurées. Un lac de données permet à votre organisation de stocker, d’accéder et d’analyser rapidement et facilement un large éventail de données dans un même emplacement. Avec un lac de données, vous n’avez pas besoin de vous conformer à vos données pour les adapter à une structure existante. Au lieu de cela, vous pouvez stocker vos données dans un format brut ou natif, généralement sous la forme de fichiers ou d’objets BLOB (Binary Large Object).

Azure Data Lake Storage est une solution de lac de données d’entreprise basée sur le Cloud. Il est conçu pour stocker de gros volumes de données dans n’importe quel format et pour faciliter les charges de travail analytiques Big Data. Vous l’utilisez pour capturer des données de tout type et une vitesse d’ingestion dans un emplacement unique, afin de faciliter l’accès et l’analyse à l’aide de différentes infrastructures.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 fait référence à l’implémentation actuelle de la solution Data Lake Storage d’Azure. L’implémentation précédente, Azure Data Lake Storage Gen1, sera mise hors service le 29 février 2024.

Contrairement à Data Lake Storage Gen1, Data Lake Storage Gen2 n’est ni un service ni un type de compte dédié. Il est en revanche implémenté sous la forme d’un ensemble de fonctionnalités que vous utilisez avec le service de stockage Blob de votre compte de stockage Azure. Vous pouvez déverrouiller ces fonctionnalités en activant le paramètre de l’espace de noms hiérarchique.

Data Lake Storage Gen2 inclut les fonctionnalités suivantes.

✓ Accès compatible Hadoop

✓ Structure hiérarchique de répertoires

✓ Coût et performances optimisés

✓ Modèle de sécurité plus fin

✓ Scalabilité massive

Accès compatible Hadoop

Azure Data Lake Storage Gen2 est principalement conçu pour fonctionner avec Hadoop et toutes les infrastructures qui utilisent le système de fichiers DFS Hadoop (HDFS)d’ Apache comme couche d’accès aux données. Les distributions Hadoop incluent le pilote Azure Blob File System (ABFS)), qui permet à de nombreuses applications et infrastructures d’accéder directement aux données du stockage Blob Azure. Le pilote ABFS est optimisé spécifiquement pour l’analytique Big Data. Les API REST correspondantes sont exposées par le biais du point de terminaison dfs.core.windows.net.

Les infrastructures d’analyse de données qui utilisent HDFS comme couche d’accès à leurs données peuvent accéder directement aux données Azure Data Lake Storage Gen2 via ABFS. Le moteur d’analyse Apache Spark et le moteur de requête Presto SQL sont des exemples de ces infrastructures.

Pour plus d’informations sur les services et plateformes pris en charge, consultez Services Azure qui prennent en charge Azure Data Lake Storage Gen2 et les plateformes open source qui prennent en charge Azure Data Lake Storage Gen2.

Structure hiérarchique de répertoires

L’espace de noms hiérarchique est une fonctionnalité clé qui permet à Azure Data Lake Storage Gen2 de fournir un accès aux données de hautes performances à l’échelle et au prix d’un stockage d’objets. Vous pouvez utiliser cette fonctionnalité pour organiser tous les objets et fichiers de votre compte de stockage dans une hiérarchie de répertoires et de sous-répertoires imbriqués. En d’autres termes, vos données Azure Data Lake Storage Gen2 sont organisées de façon très similaire à celle des fichiers de votre ordinateur.

Des opérations telles que le renommage ou la suppression d’un répertoire deviennent des opérations individuelles de métadonnées atomiques sur le répertoire. Il n’est pas nécessaire d’énumérer et de traiter tous les objets qui partagent le préfixe du nom du répertoire.

Coût et performances optimisés

Azure Data Lake Storage Gen2 est facturé à tous les niveaux du stockage Blob Azure. Il s’appuie sur les fonctionnalités du stockage Blob Azure, telles que la gestion automatisée de la stratégie du cycle de vie et la hiérarchisation au niveau objet, pour gérer les coûts de stockage Big Data.

Les performances sont optimisées, car vous n’avez pas besoin de copier ou transformer les données avant l’analyse. La fonctionnalité d’espace de noms hiérarchique d’Azure Data Lake Storage permet un accès et une navigation efficaces. Cette architecture signifie que le traitement des données nécessite moins de ressources de calcul, ce qui réduit à la fois la vitesse et le coût d’accès aux données.

Modèle de sécurité plus fin

Le modèle de contrôle d’accès Azure Data Lake Storage Gen2 prend en charge le contrôle d’accès en fonction du rôle (RBAC) Azure et les listes de contrôle d’accès (ACL) POSIX (Portable Operating System Interface for UNIX). Certains paramètres de sécurité supplémentaires sont également spécifiques à Azure Data Lake Storage Gen2. Vous pouvez définir des autorisations au niveau du répertoire ou au niveau du fichier. Toutes les données stockées sont chiffrées au repos à l’aide de clés de chiffrement gérées par Microsoft ou par le client.

Scalabilité massive

Azure Data Lake Storage Gen2 offre un stockage massif et accepte de nombreux types de données à des fins d’analyse. Il n’impose aucune limite de taille de compte, de taille de fichier ou de quantité de données stockées dans un lac de données. Les fichiers individuels peuvent avoir des tailles allant de quelques kilo-octets (Ko) à quelques pétaoctets (Po). Le traitement est exécuté à des latences par demande quasi constantes, qui sont mesurées au niveau du service, du compte et du fichier.

Cette conception signifie qu’Azure Data Lake Storage Gen2 peut facilement et rapidement effectuer un scale-up afin de répondre aux charges de travail les plus exigeantes. De même, il peut également être facile à mettre à l’échelle en cas de chute de la demande.

Basé sur le stockage Blob Azure

Les données que vous ingérez sont conservées en tant qu’objets blob dans le compte de stockage. Le service qui gère les objets blob est le service de stockage Blob Azure. Data Lake Storage Gen2 décrit les fonctionnalités ou les « améliorations » de ce service qui répondent aux exigences des charges de travail d’analyse du Big Data.

Ces fonctionnalités étant basées sur le stockage Blob, des éléments tels que la journalisation des diagnostics, les niveaux d’accès et les stratégies de gestion du cycle de vie sont disponibles sur votre compte. La plupart des fonctionnalités de stockage Blob sont entièrement prises en charge, mais certaines peuvent être prises en charge uniquement au niveau de la préversion et d’autres ne sont pas encore prises en charge. Pour obtenir une liste complète des instructions de support, consultez Prise en charge des fonctionnalités de stockage Blob dans des comptes de stockage Azure. L’état de chaque fonctionnalité répertoriée évoluera au fil du temps, car la prise en charge continue de se développer.

Documentation et terminologie

La table des matières du stockage Blob Azure comporte deux sections. La section Data Lake Storage Gen2 fournit les meilleures pratiques et des conseils d’utilisation des fonctionnalités de Data Lake Storage Gen2. La section Stockage Blob fournit des conseils sur les fonctionnalités de compte non spécifiques à Data Lake Storage Gen2.

Lorsque vous passez d’une section à l’autre, il est possible que vous remarquiez quelques légères différences terminologiques. Par exemple, le contenu proposé dans la documentation du stockage Blob utilise le terme blobplutôt que le terme fichier. Techniquement, les fichiers que vous ingérez dans votre compte de stockage deviennent des objets Blob dans votre compte. Par conséquent, le terme est correct. Toutefois, le terme blob peut prêter à confusion si vous êtes habitué au terme fichier. Vous verrez également le terme conteneur, utilisé pour faire référence à un système de fichiers. Considérez ces termes comme des synonymes.