Présentation d’Azure Databricks

Article
03/07/2024

Azure Databricks est une plateforme d’analyse ouverte unifiée permettant de générer, déployer, partager et gérer des données de niveau entreprise, des analyses et des solutions d’IA à grande échelle. La plateforme Databricks Data Intelligence s’intègre au stockage cloud et à la sécurité dans votre compte cloud, et gère et déploie l’infrastructure cloud en votre nom.

Comment fonctionne une plateforme d’intelligence des données ?

Azure Databricks utilise l’IA générative avec le data lakehouse pour comprendre la sémantique unique de vos données. Ensuite, il optimise automatiquement le niveau de performance et gère l’infrastructure pour répondre aux besoins de votre entreprise.

Le traitement du langage naturel apprend la langue de votre entreprise, afin que vous puissiez rechercher et découvrir des données en posant une question en vos propres mots. L’assistance en langage naturel vous aide à écrire du code, à résoudre les erreurs et à trouver des réponses dans la documentation.

Enfin, vos applications de données et d’IA peuvent s’appuyer sur une gouvernance et une sécurité fortes. Vous pouvez intégrer des API telles qu’OpenAI sans compromettre la confidentialité des données et le contrôle IP.

Pourquoi utiliser Azure Databricks ?

Azure Databricks fournit des outils qui vous aident à connecter vos sources de données à une plateforme pour traiter, stocker, partager, analyser, modéliser et monétiser des jeux de données avec des solutions de BI à l’IA générative.

L’espace de travail Azure Databricks fournit une interface unifiée et des outils pour la plupart des tâches de données, notamment :

Planification et gestion de traitement des données, en particulier l’extraction, transformation et chargement (ETL)
Génération de tableaux de bord et de visualisations
Gestion de la sécurité, de la gouvernance, de la haute disponibilité et de la récupération d’urgence
Découverte, annotation et exploration des données
Modélisation, suivi et mise en service du modèle Machine Learning (ML)
Solutions d’IA générative

Intégration managée avec l’open source

Databricks a un engagement fort pour la communauté open source. Databricks gère les mises à jour des intégrations open source dans les versions de Databricks Runtime. Les technologies suivantes sont des projets open source créés à l’origine par les employés de Databricks :

Outils et accès par programmation

Azure Databricks gère un certain nombre d’outils propriétaires qui intègrent et développent ces technologies pour ajouter des performances optimisées et une facilité d’utilisation, telles que les suivantes :

En plus de l’interface utilisateur de l’espace de travail, vous pouvez interagir avec Azure Databricks par programmation avec les outils suivants :

API REST
Interface de ligne de commande
Terraform

Comment Azure Databricks fonctionne-t-il avec Azure ?

L’architecture de la plateforme Azure Databricks comprend deux parties principales :

Infrastructure utilisée par Azure Databricks pour déployer, configurer et gérer la plateforme et les services.
Infrastructure appartenant au client gérée en collaboration par Azure Databricks et votre entreprise.

Contrairement à de nombreuses entreprises de données d’entreprise, Azure Databricks ne vous force pas à migrer vos données dans des systèmes de stockage propriétaires afin d’utiliser la plateforme. Vous configurez plutôt un espace de travail Azure Databricks en configurant des intégrations sécurisées entre la plateforme Azure Databricks et votre compte cloud, puis Azure Databricks déploie des clusters de calcul à l’aide de ressources cloud dans votre compte pour traiter et stocker des données dans le stockage d’objets et d’autres services intégrés que vous contrôlez.

Unity Catalog étend davantage cette relation, ce qui vous permet de gérer les autorisations d’accès aux données à l’aide de la syntaxe SQL familière à partir d’Azure Databricks.

Les espaces de travail Azure Databricks répondent aux exigences de sécurité et de mise en réseau de certaines des entreprises les plus grandes et les plus axées sur la sécurité au monde. Azure Databricks facilite la prise en main de la plateforme par les nouveaux utilisateurs. Il supprime un grand nombre des charges et des préoccupations liées à l’utilisation de l’infrastructure cloud, sans limiter les personnalisations et le contrôle des données, des opérations et de la sécurité des équipes de sécurité.

Quels sont les cas d’utilisation courants pour Azure Databricks ?

Les cas d’usage sur Azure Databricks sont aussi variés que les données traitées sur la plateforme et que les nombreux personnages des employés qui travaillent avec des données dans le cadre de leur travail. Les cas d’usage suivants mettent en évidence la façon dont les utilisateurs de votre organisation peuvent tirer parti d’Azure Databricks pour accomplir des tâches essentielles au traitement, au stockage et à l’analyse des données qui sous-tendent les fonctions et les décisions critiques de l'entreprise.

Générer un data lakehouse d’entreprise

Le data lakehouse combine des séries d’entrepôts de entreprises de données et des lacs de données pour accélérer, simplifier et unifier les solutions de données d’entreprise. Les ingénieurs de données, les scientifiques des données, les analystes et les systèmes de production peuvent utiliser data lakehouse comme leur source unique de vérité. Cela permet d'accéder en temps voulu aux données cohérentes et de réduire la complexité de la création, de la maintenance et de la synchronisation de nombreux systèmes de données distribués. Consultez Qu’est-ce qu’un data lakehouse ?.

ETL et engineering données

Que vous génériez des tableaux de bord ou que vous alimentiez des applications d’intelligence artificielle, l’engineering données fournit la base de données pour les entreprises centrées sur les données en veillant à ce que les données soient disponibles, propres et stockées dans des modèles de données qui permettent une découverte et une utilisation efficaces. Azure Databricks combine la puissance d’Apache Spark avec Delta Lake et les outils personnalisés pour fournir une expérience ETL (extraction, transformation et chargement) inégalée. Vous pouvez utiliser SQL, Python et Scala pour composer la logique ETL, puis orchestrer le déploiement de travaux planifiés en quelques clics.

Delta Live Tables simplifie l’ETL encore plus en gérant intelligemment les dépendances entre les jeux de données, et le déploiement et la mise à l’échelle automatiques de l’infrastructure de production pour garantir une livraison rapide et précise des données selon vos spécifications.

Azure Databricks fournit un certain nombre d’outils personnalisés pour l’ingestion des données, notamment le chargeur automatique, un outil efficace et évolutif pour charger de manière incrémentielle et idempotente des données à partir du stockage d’objets cloud et des lacs de données dans data lakehouse.

Apprentissage automatique, IA et science des données

Azure Databricks Machine Learning étend les fonctionnalités principales de la plateforme avec une suite d’outils adaptés aux besoins des scientifiques des données et des ingénieurs ML, notamment MLflow et Databricks Runtime pour Machine Learning.

Modèles de langage volumineux et IA générative

Databricks Runtime pour Machine Learning inclut des bibliothèques, telles que Hugging Face Transformers, qui vous permettent d’intégrer des modèles pré-entraînés existants ou d’autres bibliothèques open source dans votre flux de travail. L’intégration Databricks MLflow facilite l’utilisation du service de suivi MLflow avec des pipelines de transformateur, des modèles et des composants de traitement. En outre, vous pouvez intégrer des modèles ou des solutions OpenAI de partenaires tels que John Snow Labs dans vos flux de travail avec Databricks.

Avec Azure Databricks, vous pouvez personnaliser un LLM sur vos données pour votre tâche spécifique. Grâce à la prise en charge d’outils open source, tels que Hugging Face et DeepSpeed, vous pouvez utiliser efficacement un LLM de base et commencer à vous entraîner avec vos propres données pour avoir plus de précision pour votre domaine et votre charge de travail.

En outre, Azure Databricks fournit des fonctions IA que les analystes de données SQL peuvent utiliser pour accéder aux modèles LLM, y compris à partir d’OpenAI, directement dans leurs pipelines de données et flux de travail. Consultez Functions de l’IA sur Azure Databricks.

Entreposage de données, analyse et décisionnel

Azure Databricks combine des interfaces utilisateur conviviales avec des ressources de calcul rentables et un stockage infiniment évolutif et abordable pour fournir une plateforme puissante pour exécuter des requêtes analytiques. Les administrateurs configurent des clusters de calcul évolutifs en tant qu’entrepôts SQL, ce qui permet aux utilisateurs finaux d’exécuter des requêtes sans se soucier de la complexité de l’utilisation dans le cloud. Les utilisateurs SQL peuvent exécuter des requêtes sur des données dans lakehouse à l’aide de l’éditeur de requête SQL ou dans les notebooks. Les notebooks prennent en charge Python, R et Scala en plus de SQL et permettent aux utilisateurs d’incorporer les mêmes visualisations disponibles dans les tableaux de bord, ainsi que les liens, les images et les commentaires écrits dans le fichier markdown.

Unity Catalog fournit un modèle de gouvernance des données unifié pour le data lakehouse. Les administrateurs cloud configurent et intègrent des autorisations de contrôle d’accès grossiers pour Unity Catalog, puis les administrateurs Azure Databricks peuvent gérer les autorisations pour les équipes et les individus. Les privilèges sont gérés avec des listes de contrôle d’accès (ACL) via des interfaces utilisateur conviviales ou une syntaxe SQL, ce qui facilite l’accès aux données par les administrateurs de base de données sans avoir à effectuer une mise à l’échelle sur la gestion de l’accès aux identités (IAM) natives cloud et la mise en réseau.

Unity Catalog facilite l’exécution d’analyses sécurisées dans le cloud et fournit une division de responsabilité qui permet de limiter la requalification ou la mise à niveau nécessaire pour les administrateurs et les utilisateurs finaux de la plateforme. Consultez Qu’est-ce que Unity Catalog ?.

Le lakehouse rend le partage de données au sein de votre organisation aussi simple que l’octroi de l’accès aux requêtes à une table ou à une vue. Pour le partage en dehors de votre environnement sécurisé, Unity Catalog propose une version managée de Delta Sharing.

DevOps, CI/CD et orchestration de tâches

Les cycles de vie de développement pour les pipelines ETL, les modèles ML et les tableaux de bord d’analyse présentent chacun leurs propres défis uniques. Azure Databricks permet à tous vos utilisateurs de tirer parti d’une seule source de données, ce qui réduit les efforts redondants et les rapports hors synchronisation. En fournissant en outre une suite d’outils courants pour le contrôle de version, l’automatisation, la planification, le déploiement de ressources de code et de production, vous pouvez simplifier votre surcharge pour la supervision, l’orchestration et les opérations. Les workflows planifient des notebooks Azure Databricks, des requêtes SQL et d’autres codes arbitraires. Les référentiels vous permettent de synchroniser des projets Azure Databricks avec un certain nombre de fournisseurs Git populaires. Pour obtenir une vue d’ensemble complète des outils, consultez Outils de développement et conseils.

Analyse de streaming et en temps réel

Azure Databricks tire parti d’Apache Spark Structured Streaming pour travailler avec les données de streaming et les modifications de données incrémentielles. Structured Streaming s’intègre étroitement à Delta Lake, et ces technologies fournissent les bases des tables delta live et du chargeur automatique. Voir Streaming sur Azure Databricks.