Pool SQL serverless dans Azure Synapse Analytics

Article
04/27/2023

Chaque espace de travail Azure Synapse Analytics comprend des points de terminaison de pool SQL serverless que vous pouvez utiliser pour interroger des données dans Azure Data Lake (formats Parquet, Delta Lake, texte délimité), Azure Cosmos DB ou Dataverse.

Le pool SQL serverless est un service de requête sur les données de votre lac de données. Il vous permet d’accéder à vos données par le biais des fonctionnalités suivantes :

Une syntaxe T-SQL familière pour interroger des données sur place sans avoir besoin de les copier ou de les charger dans un magasin spécialisé. Pour plus d’informations, consultez la section Prise en charge de T-SQL.
Une connectivité intégrée via l’interface T-SQL qui offre un large éventail d’outils décisionnels et d’outils de requête ad hoc, y compris les pilotes les plus populaires Pour plus d’informations, consultez la section Outils clients. Pour en savoir plus, consultez la vidéo Présentation des pools SQL serverless Synapse.

Le pool SQL serverless est un système de traitement de données distribué, conçu pour des fonctions de calcul et de données à grande échelle. Le pool SQL serverless vous permet d’analyser vos données Big Data en quelques secondes ou quelques minutes, selon la charge de travail. Grâce à la tolérance de panne de l’exécution intégrée des requêtes, le système fournit des taux de réussite et de fiabilité élevés, même pour les requêtes longues qui impliquent des jeux de données volumineux.

Le pool SQL serverless est serverless : il n’y a donc pas d’infrastructure à configurer ni de clusters à gérer. Pour ce service, un point de terminaison par défaut est fourni dans chaque espace de travail Azure Synapse. Vous pouvez donc commencer à interroger les données dès que l’espace de travail est créé.

Les ressources réservées n’impliquent aucuns frais. Seules les données traitées par les requêtes que vous exécutez vous sont facturées. Par conséquent, ce modèle est un véritable modèle de paiement à l’utilisation.

Si vous utilisez Apache Spark pour Azure Synapse dans votre pipeline de données, pour la préparation, le nettoyage ou l’enrichissement des données, vous pouvez interroger les tables externes Spark que vous avez créées durant ce processus, directement à partir du pool SQL serverless. Utilisez Private Link pour placer votre point de terminaison de pool SQL serverless dans le réseau virtuel de votre espace de travail managé.

Avantages du pool SQL serverless

Si vous devez explorer les données du lac de données, obtenir des insights à partir de celles-ci ou optimiser votre pipeline de transformation de données existant, vous pouvez tirer parti de l’utilisation du pool SQL serverless. Il convient aux scénarios suivants :

Découverte et exploration de base : comprenez rapidement les données de différents formats (Parquet, CSV, JSON) présentes dans votre lac de données, afin de planifier l’extraction d’insights à partir de celles-ci.
Entrepôt de données logique : fournissez une abstraction relationnelle pour les données brutes ou disparates, sans déplacer ni transformer ces données, afin de toujours avoir une vue de vos données qui soit actuelle. Apprenez-en davantage sur la création d’un entrepôt de données logique.
Transformation des données : méthode simple, scalable et performante pour transformer les données d’un lac à l’aide de T-SQL, en vue de les envoyer vers des outils décisionnels ou autre, ou en vue de les charger dans un magasin de données relationnelles (bases de données Synapse SQL, Azure SQL Database, etc.).

Différents rôles professionnels peuvent tirer parti du pool SQL serverless :

Les ingénieurs des données peuvent explorer le lac, transformer et préparer les données à l’aide de ce service, et simplifier leurs pipelines de transformation des données. Pour plus d’informations, consultez ce tutoriel.
Les scientifiques des données peuvent rapidement comprendre le contenu et la structure des données du lac, grâce à des fonctionnalités telles que OPENROWSET et l’inférence de schéma automatique.
Les analystes de données peuvent explorer les données et les tables externes Spark créées par les scientifiques des données ou les ingénieurs de données en utilisant le langage T-SQL bien connu ou leurs outils favoris qui peuvent se connecter au pool SQL serverless.
Les professionnels du décisionnel peuvent rapidement créer des rapports Power BI à partir des données du lac et des tables Spark.

Comment commencer à utiliser un pool SQL serverless

Un point de terminaison de pool SQL serverless est fourni dans chacun des espaces de travail Azure Synapse. Vous pouvez créer un espace de travail et commencer à interroger les données instantanément à l’aide des outils que vous connaissez.

Veillez à appliquer les meilleures pratiques pour obtenir des performances optimales.

Outils clients

Le pool SQL serverless permet aux outils de requêtes SQL ad hoc et aux outils décisionnels existants d’exploiter les données du lac. Étant donné qu’il fournit une syntaxe T-SQL que vous connaissez déjà, tous les outils capables d’établir des connexions TDS aux offres SQL peuvent se connecter à Synapse SQL et l’interroger. Vous pouvez vous connecter avec Azure Data Studio et exécuter des requêtes ad hoc, ou vous connecter avec Power BI pour obtenir des insights en quelques minutes.

Prise en charge de T-SQL

Le pool SQL serverless offre une surface d’exposition de requête T-SQL qui a été légèrement améliorée et étendue sur certains points afin de prendre en charge l’interrogation des données semi-structurées et non structurées. De plus, certains aspects du langage T-SQL ne sont pas pris en charge en raison de la conception du pool SQL serverless ; par exemple, la fonctionnalité DML n’est pas prise en charge.

La charge de travail peut être organisée à l’aide de concepts familiers :
Bases de données : le point de terminaison du pool SQL serverless peut avoir plusieurs bases de données.
Schémas : dans une base de données, il existe un ou plusieurs groupes d’appropriation d’objets appelés « schémas ».
Vues, procédures stockées, fonctions de valeur de table incluse
Ressources externes : sources de données, formats de fichiers et tables

La sécurité peut être appliquée à l’aide des éléments suivants :

Connexions et utilisateurs
Informations d’identification pour contrôler l’accès aux comptes de stockage
Autorisations Grant, Deny et Revoke au niveau de chaque objet
Intégration de Microsoft Entra

T-SQL pris en charge :

L’intégralité de la surface d’exposition SELECT est prise en charge, y compris la majorité des fonctions SQL
CETAS - CREATE EXTERNAL TABLE AS SELECT
Instructions DDL relatives aux vues et à la sécurité uniquement

Le pool SQL serverless n’a pas de stockage local : seuls les objets de métadonnées sont stockés dans les bases de données. Par conséquent, le langage T-SQL qui est associé aux concepts suivants n’est pas pris en charge :

Tables
Déclencheurs
Vues matérialisées
Instructions DDL autres que celles relatives aux vues et à la sécurité
Instructions DML

Notes

Les requêtes de pool SQL serverless ont un délai d’expiration. Pour plus d’informations sur le délai de requête qui peut affecter votre charge de travail, consultez Contraintes des systèmes de pool SQL serverless. Actuellement, vous ne pouvez pas modifier le délai d’expiration.

Extensions

Pour faciliter l’interrogation sur place des données qui se trouvent dans des fichiers du lac de données, le pool SQL serverless étend la fonction OPENROWSET existante en y ajoutant les fonctionnalités suivantes :

Interrogation de plusieurs fichiers ou dossiers

Interrogation de format de fichier PARQUET

Interrogation de format DELTA

Différents formats de texte délimité (avec marque de fin de champ, marque de fin de ligne, caractère d’échappement personnalisés)

Magasin analytique Azure Cosmos DB

Lire un sous-ensemble choisi de colonnes

Inférence de schéma

Fonction filename

Fonction filepath

Utilisation de types complexes et de structures de données imbriquées ou répétées

Sécurité

Le pool SQL serverless offre des mécanismes permettant de sécuriser l’accès à vos données.

Intégration à Microsoft Entra et authentification multifacteur

Le pool SQL serverless vous permet de gérer de manière centralisée les identités des utilisateurs de bases de données et d’autres services Microsoft avec l’intégration à Microsoft Entra. Cette fonctionnalité simplifie la gestion des autorisations et améliore la sécurité. Microsoft Entra ID prend en charge l’authentification multifacteur (MFA) pour augmenter la sécurité des données et des applications, ainsi qu’un processus d’authentification unique.

Authentification

L’authentification du pool SQL serverless fait référence à la façon dont les utilisateurs prouvent leur identité quand ils se connectent au point de terminaison. Deux types d’authentifications sont pris en charge :

Authentification SQL

Cette méthode d’authentification utilise un nom d’utilisateur et un mot de passe.
Authentification Microsoft Entra :

Cette méthode d’authentification utilise les identités managées par Microsoft Entra ID. Pour les utilisateurs Microsoft Entra, l’authentification multifacteur peut être activée. Utilisez l’authentification Active Directory (sécurité intégrée) dans la mesure du possible.

Autorisation

Le terme « autorisation » fait référence aux actions qu’un utilisateur peut exécuter dans une base de données du pool SQL serverless ; elle est contrôlée par les appartenances aux rôles et par les autorisations au niveau objet de la base de données de votre compte d’utilisateur.

Quand l’authentification SQL est utilisée, l’utilisateur SQL existe seulement dans le pool SQL serverless et les autorisations sont limitées aux objets présents dans le pool SQL serverless. L’accès aux objets sécurisables d’autres services (comme Stockage Azure) ne peut pas être accordé directement à l’utilisateur SQL, car il n’existe que dans l’étendue du pool SQL serverless. Pour accéder aux fichiers, l’utilisateur SQL doit utiliser l’un des types d’autorisations pris en charge.

Si l’authentification Microsoft Entra est utilisée, un utilisateur peut se connecter au pool SQL serverless et à d’autres services, comme Stockage Azure, et accorder des autorisations à l’utilisateur Microsoft Entra.

Accès aux comptes de stockage

Un utilisateur connecté au service de pool SQL serverless doit être autorisé à accéder aux fichiers présents dans Stockage Azure et à les interroger. Le pool SQL serverless prend en charge les types d’autorisation suivants :

Une signature d’accès partagé (SAP) fournit un accès délégué aux ressources du compte de stockage. Avec une signature d’accès partagé, vous pouvez accorder aux clients l’accès aux ressources d’un compte de stockage sans partager les clés du compte. Une signature d’accès partagé vous fournit un contrôle précis sur le type d’accès que vous accordez aux clients qui disposent de la signature SAS : intervalle de validité, autorisations accordées, plage d’adresses IP acceptée, protocole accepté (https/http).
L’identité de l’utilisateur (également appelée « pass-through ») est un type d’autorisation où l’identité de l’utilisateur Microsoft Entra qui s’est connecté au pool SQL serverless est utilisée pour autoriser l’accès aux données. Avant d’accéder aux données, l’administrateur du stockage Azure doit accorder des autorisations à l’utilisateur Microsoft Entra pour accéder aux données. Ce type d’autorisation utilisant l’utilisateur Microsoft Entra qui s’est connecté au pool SQL serverless, il n’est donc pas pris en charge pour les types d’utilisateurs SQL.
L’identité de l’espace de travail est un type d’autorisation où l’identité de l’espace de travail Synapse est utilisée pour autoriser l’accès aux données. Avant d’accéder aux données, l’administrateur du Stockage Azure doit accorder des autorisations à l’identité de l’espace de travail pour accéder aux données.

Accéder à Azure Cosmos DB

Vous devez créer des informations d’identification au niveau du serveur ou incluses dans l’étendue de la base de données avec la clé en lecture seule du compte Azure Cosmos DB pour accéder au magasin analytique Azure Cosmos DB.

Étapes suivantes

Pour plus d’informations sur la connexion aux points de terminaison et sur l’interrogation des fichiers, consultez les articles suivants :