Comprendre les concepts clés

Effectué

Azure Databricks est une fusion de plusieurs technologies qui vous permettent d’utiliser des données à grande échelle. Avant d’utiliser Azure Databricks, vous devez comprendre certains concepts clés.

Diagramme montrant les éléments clés d’une solution Databricks.

  1. Clusters Apache Spark : Spark est une solution de traitement de données distribuée qui utilise des clusters pour mettre à l’échelle le traitement sur plusieurs nœuds de calcul. Chaque cluster Spark a un nœud pilote pour coordonner les travaux de traitement, et un ou plusieurs nœuds worker sur lesquels est exécuté le traitement. Ce modèle distribué permet à chaque nœud d’agir sur un sous-ensemble du travail en parallèle, ce qui réduit le temps global d’exécution du travail. Pour en savoir plus sur les clusters dans Azure Databricks, consultez Clusters dans la documentation Azure Databricks.
  2. Stockage de lac de données : chaque nœud de cluster a son propre système de fichiers local (sur lequel le système d’exploitation et d’autres fichiers propres au nœud sont stockés), mais les nœuds d’un cluster ont également accès à un système de fichiers partagé et distribué dans lequel ils peuvent accéder aux fichiers de données et les utiliser. Ce stockage de données partagé, appelé lac de données, vous permet de monter le stockage cloud, tel qu’Azure Data Lake Storage ou un magasin de données Microsoft OneLake, et de l’utiliser pour travailler avec et conserver des données basées sur des fichiers sous n’importe quel format.
  3. Metastore : Azure Databricks utilise un metastore afin de définir un schéma relationnel de tables pour des données basées sur des fichiers. Les tables sont basées sur le format Delta Lake et peuvent être interrogées à l’aide de la syntaxe SQL pour accéder aux données des fichiers sous-jacents. Les définitions de table et les détails des emplacements des systèmes de fichiers sur lesquels elles sont basées sont stockés dans le metastore, ce qui permet de séparer les objets de données que vous pouvez utiliser à des fins d’analyse et de traitement de données, de l’emplacement de stockage physique des fichiers de données. Les metastores Azure Databricks sont gérés dans le catalogue Unity, qui fournit un stockage de données centralisé, une gestion des accès et une gouvernance (bien que, selon la configuration de votre espace de travail Azure Databricks, vous pouvez également utiliser un metastore Hive hérité avec des fichiers de données stockés dans un lac de données Databricks File System (DBFS)).
  4. Notebooks : une des méthodes les plus courantes pour les analystes données, les scientifiques des données, les ingénieurs données et les développeurs quand ils travaillent avec Spark est d’écrire du code dans des notebooks. Les notebooks fournissent un environnement interactif dans lequel vous pouvez combiner du texte et des graphiques au format Markdown avec des cellules contenant du code que vous exécutez de manière interactive dans la session de notebook. Pour en savoir plus sur les notebooks, consultez Notebooks dans la documentation Azure Databricks.
  5. Entrepôts SQL - Les entrepôts SQL sont des ressources de calcul relationnelles avec des points de terminaison qui permettent aux applications clientes de se connecter à un espace de travail Azure Databricks et d’utiliser SQL pour agir sur des données dans des tables. Les résultats des requêtes SQL peuvent être utilisés pour créer des visualisations de données et des tableaux de bord afin de prendre en charge l’analytique métier et la prise de décision. Les entrepôts SQL sont disponibles uniquement dans les espaces de travail Azure Databricks de niveau Premium. Pour en savoir plus sur les entrepôts SQL, consultez Entrepôts SQL dans la documentation Azure Databricks.