Se connecter à StreamSets

Important

Cette fonctionnalité est disponible en préversion publique.

StreamSets vous aide à gérer et à surveiller votre flux de données tout au long de son cycle de vie. L’intégration native de StreamSets avec Azure Databricks et Delta Lake vous permet d’extraire des données de diverses sources et de gérer facilement vos pipelines.

Pour une démonstration générale de StreamSets, regardez la vidéo YouTube suivante (10 minutes).

Voici les étapes à suivre pour utiliser StreamSets avec Azure Databricks.

Étape 1 : Générer un jeton d’accès personnel Databricks

StreamSets s’authentifie auprès d’Azure Databricks à l’aide d’un jeton d’accès personnel Azure Databricks.

Notes

En guise de bonne pratique de sécurité, quand vous vous authentifiez avec des outils, systèmes, scripts et applications automatisés, Databricks recommande d’utiliser des jetons d’accès personnels appartenant à des principaux de service et non des utilisateurs de l’espace de travail. Pour créer des jetons d’accès pour des principaux de service, consultez la section Gérer les jetons pour un principal de service.

Étape 2 : Configurer un cluster pour prendre en charge les besoins de l’intégration

StreamSets écrit des données dans un chemin Azure Data Lake Storage et le cluster d’intégration Azure Databricks lit les données à partir de cet emplacement. Par conséquent, le cluster d’intégration nécessite un accès sécurisé au chemin Azure Data Lake Storage.

Sécuriser l’accès à un chemin Azure Data Lake Storage

Pour sécuriser l’accès aux données dans Azure Data Lake Storage (ADLS), vous pouvez utiliser une clé d’accès au compte de stockage Azure (recommandé) ou un principal de service Microsoft Entra ID.

Utiliser une clé d’accès au compte de stockage Azure

Vous pouvez configurer une clé d’accès au compte de stockage dans le cluster d’intégration dans le cadre d’une configuration Spark. Vérifiez que le compte de stockage a accès au conteneur ADLS et au système de fichiers qui sont utilisés pour les données intermédiaires, ainsi qu’au conteneur ADLS et au système de fichiers dans lesquels vous souhaitez écrire les tables Delta Lake. Pour configurer le cluster d’intégration afin qu’il utilise la clé, suivez les étapes décrites dans Se connecter à Azure Data Lake Storage Gen2 et au Stockage Blob.

Utiliser un principal de service Microsoft Entra ID

Vous pouvez configurer un principal de service dans le cluster d’intégration Azure Databricks dans le cadre de la configuration Spark. Vérifiez que le principal de service a accès au conteneur ADLS qui est utilisé pour les données intermédiaires, ainsi qu’au conteneur ADLS dans lequel vous souhaitez écrire les tables Delta. Pour configurer le cluster d’intégration afin qu’il utilise le principal de service, suivez les étapes décrites dans Accéder à ADLS Gen2 à l’aide d’un principal de service.

Spécifier la configuration du cluster

  1. Définissez le mode de cluster sur Standard.

  2. Définissez Databricks Runtime Version (Version de Databricks Runtime) sur 6.3 ou une version ultérieure.

  3. Activez les écritures optimisées et le compactage automatique en ajoutant les propriétés suivantes à votre configuration Spark :

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configurez votre cluster en fonction de vos besoins en matière d’intégration et de mise à l’échelle.

Pour plus d’informations sur la configuration du cluster, consultez Informations de référence sur la configuration de calcul.

Pour connaître les étapes à suivre pour obtenir l’URL JDBC et le chemin d’accès HTTP, consultez Obtenir les détails de connexion pour une ressource de calcul Azure Databricks.

Étape 3 : Obtenir les détails des connexions JDBC et ODBC pour se connecter à un cluster

Pour connecter un cluster Azure Databricks à StreamSets, vous avez besoin des propriétés de connexion JDBC/ODBC suivantes :

  • URL JDBC
  • HTTP Path

Étape 4 : Obtenir StreamSets pour Azure Databricks

Inscrivez-vous à StreamSets pour Databricks, si vous n’avez pas encore de compte StreamSets. Vous pouvez commencer gratuitement et procéder à une mise à niveau lorsque vous êtes prêt. Consultez la tarification de la plateforme StreamSets DataOps.

Étape 5 : Apprendre à utiliser StreamSets pour charger des données dans Delta Lake

Commencez avec un exemple de pipeline ou consultez les solutions StreamSets pour apprendre à créer un pipeline qui ingère les données dans Delta Lake.

Ressources supplémentaires

Support