Qu’est-ce qu’Azure Databricks Workspace ?

Azure Databricks Workspace est une plateforme d’analytique basée sur Apache Spark. Azure Databricks Workspace est intégré à Azure pour fournir une configuration en un clic, des workflows simplifiés et un espace de travail interactif permettant aux ingénieurs des données, aux scientifiques des données et aux ingénieurs de machine learning de collaborer.

Présentation d’Azure Databricks

Pour un pipeline de Big Data, les données (brutes ou structurées) sont ingérées en lots dans Azure par le biais d’Azure Data Factory ou envoyées en streaming en quasi-temps réel avec Apache Kafka, Event Hub ou IoT Hub. Elles aboutissent dans un lac de données en vue d’un stockage persistant à long terme, dans le Stockage Blob Azure ou Azure Data Lake Storage. Dans le cadre de votre workflow analytique, utilisez Azure Databricks pour lire des données issues de plusieurs sources de données, comme le Stockage Blob Azure, Azure Data Lake Storage, Azure Cosmos DB ou Azure SQL Data Warehouse, et les transformer en insights novateurs avec Spark.

Pipeline Databricks

Plateforme d’analytique Apache Spark

Azure Databricks Workspace comprend toutes les technologies et fonctionnalités du cluster Apache Spark open source. Spark dans Azure Databricks Workspace inclut les composants suivants :

Apache Spark dans Azure Databricks

  • Spark SQL et DataFrames : Spark SQL est le module Spark permettant d’utiliser des données structurées. Une trame de données est une collection distribuée de données organisées en colonnes nommées. D’un point de vue conceptuel, elle équivaut à une table d’une base de données relationnelle ou à une trame de données dans R/Python.

  • Streaming : Traitement et analyse des données en temps réel pour des applications analytiques et interactives. S’intègre à HDFS, Flume et Kafka.

  • MLlib : Bibliothèque de Machine Learning constituée d’utilitaires et d’algorithmes d’apprentissage courants, notamment la classification, la régression, le clustering, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que les primitives d’optimisation sous-jacentes.

  • GraphX : Graphes et calcul de graphes pour des cas d’usage très divers qui vont de l’analytique cognitive à l’exploration de données.

  • API Spark Core : Inclut la prise en charge de R, SQL, Python, Scala et Java.

Apache Spark dans Azure Databricks Workspace

Azure Databricks Workspace s’appuie sur les fonctionnalités de Spark en fournissant une plateforme cloud sans administration, qui inclut :

  • Des clusters Spark entièrement gérés
  • Un espace de travail interactive pour l’exploration et la visualisation
  • Une plateforme pour tirer parti de vos applications Spark favorites

Des clusters Apache Spark entièrement gérés dans le cloud

Azure Databricks a un environnement de production sécurisé et fiable dans le cloud, géré et pris en charge par des experts Spark. Vous pouvez :

  • Créer des clusters en quelques secondes.
  • Mettre à l’échelle dynamiquement des clusters et les partager entre plusieurs équipes.
  • Utiliser des clusters programmatiquement en appelant des API REST.
  • Utiliser les fonctionnalités d’intégration des données sécurisées s’appuyant sur Spark, qui vous permettent d’unifier vos données sans centralisation.
  • Accéder immédiatement aux dernières fonctionnalités d’Apache Spark avec chaque version.

Databricks Runtime

Databricks Runtime s’appuie sur Apache Spark et est conçu en natif pour le cloud Azure.

Azure Databricks masque complètement la complexité de l’infrastructure et vous évite de devoir recourir à une expertise spécialisée pour installer et configurer votre infrastructure de données.

Pour les ingénieurs des données, qui sont concernés par les performances des travaux de production, Azure Databricks fournit un moteur Spark qui est plus rapide et performant grâce à différentes optimisations au niveau de la couche des E/S et de la couche de traitement (E/S Databricks).

Espace de travail pour la collaboration

Via un environnement collaboratif et intégré, Azure Databricks simplifie le processus d’exploration des données, de prototypage et d’exécution des applications pilotées par les données dans Spark.

  • Déterminez comment utiliser les données avec une exploration des données facilitée.
  • Documentez votre progression dans des notebooks en R, Python, Scala ou SQL.
  • Visualisez les données en quelques clics et utilisez des outils répandus comme Matplotlib, ggplot ou d3.
  • Utilisez des tableaux de bord interactifs pour créer des rapports dynamiques.
  • Utilisez Spark et interagissez avec les données simultanément.

Sécurité d’entreprise

Azure Databricks Workspace offre une sécurité Azure de niveau entreprise, notamment l’intégration d’Azure Active Directory, des contrôles basés sur les rôles et des contrats SLA qui protègent vos données et votre entreprise.

  • L’intégration à Azure Active Directory vous permet d’appliquer des solutions Azure complètes avec Azure Databricks.
  • L’accès basé sur les rôles d’Azure Databricks permet de définir des autorisations utilisateur précises sur les notebooks, les clusters, les travaux et les données.
  • Contrats SLA de niveau entreprise.

Important

Azure Databricks Workspace est un service Microsoft Azure interne déployé sur l’infrastructure mondiale du cloud public Azure. Toutes les communications entre les composants du service, notamment entre les adresses IP publiques dans le plan de contrôle et le plan de données client, restent dans le segment principal du réseau Microsoft Azure. Voir aussi Réseau Microsoft mondial.

Intégration aux services Azure

Azure Databricks Workspace s’intègre étroitement aux magasins et aux bases de données Azure : Synapse Analytics, Cosmos DB, Data Lake Store et Stockage Blob.

Intégration avec Power BI

Grâce à une intégration étroite avec Power BI, Azure Databricks Workspace vous permet de découvrir et de partager de manière simple et rapide des insights importants. Vous pouvez aussi utiliser d’autres outils décisionnels comme Tableau Software.

Étapes suivantes