Bien démarrer avec Azure Databricks

Effectué

Azure Databricks est une plateforme distribuée basée sur le cloud pour le traitement et l’analyse des données dans un data lakehouse. Databricks s’appuie sur Apache Spark et sur des technologies open source associées, et il a été conçu pour unifier la science des données, l’engineering données et l’analytique données métier dans un environnement facile à utiliser, qui permet aux utilisateurs de consacrer plus de temps à travailler efficacement avec les données, et moins de temps à gérer les clusters et l’infrastructure. Au fur et à mesure que la plateforme a évolué, elle a intégré les dernières avancées du runtime Spark et d’autres technologies, et des fonctionnalités d’utilisabilité lui ont été ajoutées, qui permettent de prendre en charge les charges de travail de données courantes dans une même interface gérée de façon centralisée.

Azure Databricks est hébergé sur la plateforme cloud Microsoft Azure et intégré à des services Azure comme Microsoft Entra ID, Stockage Azure, Azure Synapse Analytics et Azure Machine Learning. Les organisations peuvent appliquer leurs fonctionnalités existantes à la plateforme Databricks et créer des solutions d’analytique données entièrement intégrées qui fonctionnent avec l’infrastructure cloud utilisée par d’autres applications d’entreprise.

Création d’un espace de travail Azure Databricks

Pour utiliser Azure Databricks, vous devez créer un espace de travail Azure Databricks dans votre abonnement Azure. Pour cela :

  • Utilisez l’interface utilisateur du portail Azure.
  • Utilisation d’un modèle Azure Resource Manager (ARM) ou Bicep.
  • Utilisation de l’applet de commande Azure PowerShell New-AzDatabricksWorkspace
  • Utilisation de la commande de l’interface de ligne de commande (CLI) Azure az databricks workspace create.

Lorsque vous créez un espace de travail, vous devez spécifier l’un des niveaux tarifaires suivants :

  • Standard : Fonctionnalités d’Apache Spark de base avec l’intégration de Microsoft Entra.
  • Premium - Contrôles d’accès en fonction du rôle et autres fonctionnalités au niveau de l’entreprise.
  • Essai - Version d’essai gratuit de 14 jours d’un espace de travail de niveau Premium

Capture d’écran de la page Créer un espace de travail Azure Databricks dans le portail Azure.

Utilisation du portail Azure Databricks

Une fois que vous avez provisionné un espace de travail Azure Databricks, vous pouvez utiliser le portail Azure Databricks pour vous servir des données et des ressources de calcul. Le portail Azure Databricks est une interface utilisateur basée sur le Web à travers laquelle vous pouvez créer et gérer des ressources d'espace de travail (comme des clusters Spark) et utiliser des notebooks et des requêtes pour travailler avec des données dans des fichiers et des tables.

Capture d’écran du portail Azure Databricks.