Terminologie Azure Synapse Analytics

Article
03/25/2023

Ce document présente les concepts de base d’Azure Synapse Analytics.

Espace de travail Synapse

Un espace de travail Synapse est une limite de collaboration sécurisable pour l’analytique d’entreprise basée sur le cloud dans Azure. Un espace de travail est déployé dans une région spécifique et est associé à un compte ADLS Gen2 et à un système de fichiers (pour le stockage des données temporaires). Un espace de travail se trouve sous un groupe de ressources.

Un espace de travail vous permet d’effectuer des analyses avec SQL et Apache Spark. Les ressources disponibles pour les analyses SQL et Spark sont organisées en pools SQL et Spark.

Services liés

Un espace de travail peut contenir un nombre quelconque de services liés, essentiellement des chaînes de connexion qui définissent les informations de connexion nécessaires à l’espace de travail pour se connecter à des ressources externes.

SQL Synapse

Synapse SQL permet d’effectuer des analyses basées sur T-SQL dans un espace de travail Synapse. Synapse SQL dispose de deux modèles de consommation : dédié et serverless. Pour le modèle dédié, utilisez des pools SQL dédiés. Un espace de travail peut avoir un nombre quelconque de ces pools. Pour utiliser le modèle serverless, utilisez les pools SQL serverless. Chaque espace de travail possède un de ces pools.

À l’intérieur de Synapse Studio, vous pouvez travailler avec des pools SQL en exécutant des scripts SQL.

Notes

Les pools SQL dédiés dans Azure Synapse diffèrent du pool SQL dédié (anciennement SQL DW). Toutes les fonctionnalités du pool SQL dédié dans les espaces de travail Azure Synapse ne s’appliquent pas au pool SQL dédié (anciennement SQL DW), et inversement. Pour activer les fonctionnalités de l’espace de travail pour un pool SQL dédié (anciennement SQL DW) existant, consultez le guide pratique pour activer un espace de travail pour votre pool SQL dédié (anciennement SQL DW).

Apache Spark pour Synapse

Pour utiliser les analyses Spark, créez et utilisez des pools Apache Spark serverless dans votre espace de travail Synapse. Quand vous commencez à utiliser un pool Spark, les espaces de travail créent une session Spark pour gérer les ressources associées à cette session.

Il existe deux façons d’utiliser Spark dans Synapse :

Notebooks Spark pour l’ingénierie et la science des données avec Scala, PySpark, C# et SparkSQL
Définitions de travaux Spark pour l’exécution de travaux Spark par lots à l’aide de fichiers jar.

SynapseML

SynapseML (auparavant appelé MMLSpark), est une bibliothèque open source qui simplifie la création de pipelines Machine Learning (ML) massivement évolutifs. Il s’agit d’un écosystème d’outils utilisés pour étendre le framework Apache Spark dans plusieurs nouvelles directions. SynapseML réunit plusieurs infrastructures de Machine Learning existantes et de nouveaux algorithmes Microsoft pour former une API unique et évolutive utilisable en Python, R, Scala, .NET et Java. Pour en savoir plus, consultez les principales fonctionnalités de SynapseML.

Pipelines

Les pipelines représente la manière dont Azure Synapse assure l’intégration de données, ce qui vous permet de déplacer des données entre les services et d’orchestrer des activités.

Pipeline – Regroupement logique d’activités qui effectuent une tâche ensemble.
Activités – Définition des actions à effectuer sur des données au sein d’un pipeline, telles que la copie de données, l’exécution d’un notebook ou d’un script SQL.
Flux de données – Type spécifique d’activité qui fournit une expérience sans code permettant d’effectuer une transformation de données qui utilise Synapse Spark en arrière-plan.
Déclencheur : Exécute un pipeline. Il peut être exécuté manuellement ou automatiquement (planification, fenêtre bascule ou événement).
Jeu de données d’intégration : Vue de données nommée qui pointe ou référence simplement les données à utiliser dans une activité en guise d’entrée et de sortie. Elle appartient à un service lié.

Data Explorer (préversion)

L'explorateur de données Azure Synapse offre aux clients une expérience d'interrogation interactive permettant de dégager des informations à partir des données de journal et de télémétrie.

Les pools Data Explorer sont des clusters dédiés qui incluent au moins deux nœuds de calcul avec un stockage SSD local (cache chaud) pour optimiser les performances des requêtes, et un stockage de plusieurs objets blob (cache froid) pour la persistance.
Les bases de données Data Explorer sont hébergées dans des pools Data Explorer. Il s’agit d’entités logiques composées de collections de tables et d’autres objets de base de données. Vous pouvez avoir plusieurs bases de données par pool.
Les tables sont des objets de base de données qui contiennent des données organisées à l’aide d’un modèle de données relationnelles classique. Les données sont stockées dans des enregistrements qui adhèrent au schéma de table bien défini de Data Explorer qui définit une liste triée de colonnes, chaque colonne ayant un nom et un type de données scalaires. Les types de données scalaires peuvent être structurés (int, real, datetime ou timespan), semi-structurés (dynamic) ou en texte libre (string). Le type dynamic est semblable au JSON car il peut contenir une valeur scalaire unique, un tableau ou un dictionnaire de ces valeurs.
Les tables externes sont des tables qui référencent une source de données de stockage ou SQL située en dehors de la base de données Data Explorer. Tout comme les tables non externes, les tables externes ont un schéma bien défini (une liste triée de paires Nom de colonne/Type de données). Cependant, contrairement aux tables Data Explorer où les données sont ingérées dans des pools Data Explorer, les tables externes opèrent sur les données qui sont stockées et gérées en dehors des pools. Les tables externes ne conservent pas de données et sont utilisées pour interroger ou exporter des données vers un magasin de données externe.