Infoworks

Important

Cette fonctionnalité est disponible en préversion publique.

InfoWorks DataFoundry est un système d’orchestration et d’opérations de données d’entreprise automatisé qui s’exécute en mode natif sur Azure Databricks et tire parti de toute la puissance de Azure Databricks pour fournir une solution simple pour l’intégration des données, une première étape importante dans la mise en place de votre Data Lake. DataFoundry automatise non seulement l’ingestion des données, mais automatise également les fonctionnalités clés qui doivent accompagner l’ingestion afin d’établir une base pour l’analyse. L’intégration de données avec DataFoundry automatise :

  • Ingestion de données : à partir de toutes les sources de données d’entreprise et externes
  • Synchronisation des données : CDC pour conserver les données synchronisées avec la source
  • Gouvernance des données : catalogue, lignage, gestion des métadonnées, audit et historique

Voici les étapes à suivre pour utiliser InfoWorks avec Azure Databricks.

Étape 1 : générer un jeton d’accès personnel Databricks

InfoWorks s’authentifie auprès de Azure Databricks à l’aide d’un jeton d’accès personnel Azure Databricks. Pour générer un jeton d’accès personnel, suivez les instructions de la procédure générer un jeton d’accès personnel.

Étape 2 : configurer un cluster pour prendre en charge les besoins d’intégration

Infoworks écrit des données dans un chemin d’accès Azure Data Lake Storage et le cluster d’intégration Azure Databricks lit les données à partir de cet emplacement. par conséquent, le cluster d’intégration requiert un accès sécurisé au chemin d’accès Azure Data Lake Storage.

sécuriser l’accès à un chemin d’accès Azure Data Lake Storage

pour sécuriser l’accès aux données dans Azure Data Lake Storage (ADLS), vous pouvez utiliser une clé d’accès au compte de stockage azure (recommandé) ou un principal du service azure.

Utiliser une clé d’accès de compte de stockage Azure

Vous pouvez configurer une clé d’accès de compte de stockage sur le cluster d’intégration dans le cadre de la configuration Spark. Assurez-vous que le compte de stockage a accès au conteneur ADLS et au système de fichiers utilisés pour les données intermédiaires et le conteneur ADLS et le système de fichiers où vous souhaitez écrire les tables delta Lake. pour configurer le cluster d’intégration afin d’utiliser la clé, suivez les étapes de la section prise en main de Azure Data Lake Storage Gen2.

Utiliser un principal du service Azure

Vous pouvez configurer un principal de service sur le cluster d’intégration Azure Databricks dans le cadre de la configuration Spark. Assurez-vous que le principal du service a accès au conteneur ADLS utilisé pour les données intermédiaires et au conteneur ADLS dans lequel vous souhaitez écrire les tables delta. Pour configurer le cluster d’intégration afin d’utiliser le principal du service, suivez les étapes décrites dans access ADLS Gen2 with service principal ou Access ADLS Gen1 with service principal.

Spécifier la configuration du cluster

  1. Définissez le mode de cluster sur standard.

  2. Définissez Databricks Runtime version sur une version du runtime Databricks.

  3. Activez l' optimisation automatique en ajoutant les propriétés suivantes à votre configuration Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configurez votre cluster en fonction de vos besoins en matière d’intégration et de mise à l’échelle.

Pour plus d’informations sur la configuration du cluster, consultez Configurer des clusters.

Pour connaître les étapes permettant d’obtenir l’URL JDBC et le chemin d’accès HTTP , consultez obtenir le nom d’hôte du serveur, le port, le chemin d’accès http et l’URL JDBC .

Étape 3 : obtenir les détails de connexion JDBC et ODBC pour la connexion à un cluster

Pour connecter un cluster Azure Databricks à InfoWorks, vous avez besoin des propriétés de connexion JDBC/ODBC suivantes :

  • URL JDBC
  • HTTP Path

Étape 4 : obtenir InfoWorks pour Azure Databricks

Accédez à InfoWorks pour en savoir plus et obtenir une démonstration.