Partager via


Lire les données partagées à l'aide du partage ouvert Delta Sharing (pour les destinataires)

Cet article explique comment lire les données qui ont été partagées avec vous à l’aide du protocole de partage ouvert Delta Sharing. Il inclut des instructions pour lire des données partagées à l’aide de Databricks, Apache Spark, pandas, PowerBI et Tableau.

Dans le partage ouvert, vous utilisez un fichier d’informations d’identification partagé avec un membre de votre équipe par le fournisseur de données pour obtenir un accès en lecture sécurisé aux données partagées. L’accès persiste tant que les informations d’identification sont valides et que le fournisseur continue de partager les données. Les fournisseurs gèrent l’expiration et la rotation des informations d’identification. Les mises à jour des données sont disponibles en quasi temps réel. Vous pouvez lire et créer des copies des données partagées, mais vous ne pouvez pas modifier les données sources.

Remarque

Si des données ont été partagées avec vous en utilisant le protocole Delta Sharing Databricks à Databricks, vous n’avez pas besoin d’un fichier d’informations d’identification pour accéder aux données, et cet article ne s’applique dans votre cas. Pour obtenir des instructions, consultez Lire les données partagées à l’aide du partage Delta Databricks-to-Databricks (pour les destinataires).

Les sections suivantes décrivent comment utiliser Azure Databricks, Apache Spark, pandas et Power BI pour accéder et lire des données partagées à l’aide du fichier d’informations d’identification. Pour obtenir la liste complète des connecteurs Delta Sharing et les informations sur leur utilisation, consultez la documentation open source sur Delta Sharing. Si vous rencontrez des difficultés pour accéder aux données partagées, contactez le fournisseur de données.

Notes

Sauf indication contraire, les intégrations de partenaires sont fournies par des tiers. Vous devez donc disposer d’un compte chez le fournisseur approprié pour utiliser ses produits et ses services. Databricks fait de son mieux pour tenir à jour ce contenu. Toutefois, nous ne pouvons en aucun cas être tenus responsables des intégrations ou de la justesse du contenu des pages d’intégration des partenaires. Pour les intégrations, contactez les fournisseurs concernés.

Avant de commencer

Un membre de votre équipe doit télécharger le fichier d’informations d’identification partagé par le fournisseur de données. Consultez Obtenir l’accès dans le modèle de partage ouvert.

Il doit utiliser un canal sécurisé pour partager ce fichier ou cet emplacement de fichier avec vous.

Azure Databricks : lire des données partagées à l’aide de connecteurs de partage ouvert

Cette section explique comment utiliser un connecteur de partage ouvert pour accéder aux données partagées à l’aide d’un notebook dans votre espace de travail Azure Databricks. Vous, ou un autre membre de votre équipe, stockez le fichier d’informations d’identification dans DBFS, puis vous l’utilisez pour vous authentifier auprès du compte Azure Databricks du fournisseur de données et pour lire les données partagées avec vous par le fournisseur de données.

Remarque

Si le fournisseur de données utilise le partage Databricks à Databricks et n’a pas partagé un fichier d’informations d’identification avec vous, vous devez accéder aux données en utilisant Unity Catalog. Pour obtenir des instructions, consultez Lire les données partagées à l’aide du partage Delta Databricks-to-Databricks (pour les destinataires).

Dans cet exemple, vous créez un notebook avec plusieurs cellules que vous pouvez exécuter indépendamment. Au lieu de cela, vous pourriez ajouter les commandes notebook à la même cellule et les exécuter dans une séquence.

Étape 1 : stocker le fichier d’informations d’identification dans DBFS (instructions Python)

Dans cette étape, vous utilisez un notebook Python dans Azure Databricks pour stocker le fichier d’informations d’identification afin que les utilisateurs de votre équipe puissent accéder aux données partagées.

Passez à l’étape suivante si vous, ou un membre de votre équipe, avez déjà stocké le fichier d’informations d’identification dans DBFS.

  1. Dans un éditeur de texte, ouvrez le fichier d’informations d’identification.

  2. Dans votre espace de travail Azure Databricks, cliquez sur Nouveau > Notebook.

    • Entrez un nom.
    • Affectez Python comme langage par défaut du notebook.
    • Sélectionnez un cluster à attacher au notebook.
    • Cliquez sur Créer.

    Le notebook s’ouvre dans l’éditeur de notebook.

  3. Pour utiliser Python ou pandas afin d’accéder aux données partagées, installez le connecteur Python delta-sharing. Dans l’éditeur de notebook, collez la commande suivante :

    %sh pip install delta-sharing
    
  4. Exécutez la cellule.

    La bibliothèque Python delta-sharing est installée dans le cluster si ce n’est pas déjà fait.

  5. Dans une nouvelle cellule, collez la commande suivante, qui charge le contenu du fichier d’informations d’identification dans un dossier dans DBFS. Remplacez les variables comme suit :

    • <dbfs-path> : chemin du dossier ou vous souhaitez enregistrer le fichier d’informations d’identification.

    • <credential-file-contents> : contenu du fichier d’informations d’identification. Il ne s’agit pas d’un chemin d’accès au fichier, mais du contenu copié du fichier.

      Le fichier d’informations d’identification contient du code JSON qui définit trois champs : shareCredentialsVersion, endpoint et bearerToken.

      %scala
      dbutils.fs.put("<dbfs-path>/config.share","""
      <credential-file-contents>
      """)
      
  6. Exécutez la cellule.

    Une fois le fichier d’informations d’identification chargé, vous pouvez supprimer cette cellule. Tous les utilisateurs d’espace de travail peuvent lire le fichier d’informations d’identification à partir de DBFS, et le fichier d’informations d’identification est disponible dans DBFS sur tous les clusters et entrepôts SQL dans votre espace de travail. Pour supprimer la cellule, cliquez sur x dans le menu Cell actions tout à droite.

Étape 2 : utiliser un notebook pour répertorier et lire des tables partagées

Au cours de cette étape, vous répertoriez les tables dans le partage ou l’ensemble de tables et partitions partagées, et vous interrogez une table.

  1. À l’aide de Python, listez les tables dans le partage.

    Dans la nouvelle cellule, collez la commande suivante. Remplacez <dbfs-path> par le chemin qui a été créé à l’étape 1 : stocker le fichier d’informations d’identification dans DBFS (instructions Python).

    Lorsque le code s’exécute, Python lit le fichier d’informations d’identification à partir de DBFS sur le cluster. Accédez aux données stockées dans DBFS au niveau du chemin /dbfs/.

    import delta_sharing
    
    client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share")
    
    client.list_all_tables()
    
  2. Exécutez la cellule.

    Le résultat est un tableau de tables et des métadonnées pour chaque table. La sortie suivante montre deux tables :

    Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
    

    Si la sortie est vide ou ne contient pas les tables attendues, contactez le fournisseur de données.

  3. Interroger une table partagée.

    • Utilisation de Scala :

      Dans la nouvelle cellule, collez la commande suivante. Lorsque le code s’exécute, le fichier d’informations d’identification est lu à partir de DBFS via JVM.

      Remplacez les variables comme suit :

      • <profile-path> : chemin DBFS du fichier d’informations d’identification. Par exemple : /<dbfs-path>/config.share.
      • <share-name> : valeur de share= pour la table.
      • <schema-name> : valeur de schema= pour la table.
      • <table-name> : valeur de name= pour la table.
      %scala
          spark.read.format("deltaSharing")
          .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
      

      Exécutez la cellule. Chaque fois que vous chargez la table partagée, vous voyez les données actualisées à partir de la source.

    • Avec SQL :

      Pour interroger les données à l’aide de SQL, vous devez créer une table locale dans l’espace de travail à partir de la table partagée, puis interroger la table locale. Les données partagées ne sont pas stockées ou mises en cache dans la table locale. Chaque fois que vous interrogez la table locale, vous voyez l’état actuel des données partagées.

      Dans la nouvelle cellule, collez la commande suivante.

      Remplacez les variables comme suit :

      • <local-table-name> : nom de la table locale.
      • <profile-path> : emplacement du fichier d’informations d’identification.
      • <share-name> : valeur de share= pour la table.
      • <schema-name> : valeur de schema= pour la table.
      • <table-name> : valeur de name= pour la table.
      %sql
      DROP TABLE IF EXISTS table_name;
      
      CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>";
      
      SELECT * FROM <local-table-name> LIMIT 10;
      

      Lorsque vous exécutez la commande, les données partagées sont interrogées directement. En guise de test, la table est interrogée et les dix premiers résultats sont retournés.

    Si la sortie est vide ou ne contient pas les données attendues, contactez le fournisseur de données.

Apache Spark : lire des données partagées

Effectuez ces étapes pour accéder à des données partagées dans Apache Spark 3. x ou version ultérieure.

Ces instructions supposent que vous avez accès au fichier d’informations d’identification partagé par le fournisseur de données. Consultez Obtenir l’accès dans le modèle de partage ouvert.

Installez les connecteurs Delta Sharing Python et Spark

Pour accéder aux métadonnées relatives aux données partagées, telles que la liste des tables partagées avec vous, suivez les étapes suivantes. Cet exemple utilise Python.

  1. Installez le connecteur Delta Sharing Python :

    pip install delta-sharing
    
  2. Installez le connecteur Apache Spark.

Répertoriez les tables partagées à l’aide de Spark

Listez les tables dans le partage. Dans l’exemple suivant, remplacez <profile-path> par l’emplacement du fichier d’informations d’identification.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Le résultat est un tableau de tables et des métadonnées pour chaque table. La sortie suivante montre deux tables :

Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]

Si la sortie est vide ou ne contient pas les tables attendues, contactez le fournisseur de données.

Accédez aux données partagées à l’aide de Spark

Exécutez la commande suivante, en remplaçant ces variables :

  • <profile-path> : emplacement du fichier d’informations d’identification.
  • <share-name> : valeur de share= pour la table.
  • <schema-name> : valeur de schema= pour la table.
  • <table-name> : valeur de name= pour la table.
  • <version-as-of> : facultatif. Version de la table pour charger les données. Fonctionne uniquement si le fournisseur de données partage l’historique de la table. Nécessite delta-sharing-spark la version 0.5.0 ou ultérieure.
  • <timestamp-as-of> : facultatif. Chargez les données à la version avant ou à l’horodatage donné. Fonctionne uniquement si le fournisseur de données partage l’historique de la table. Nécessite delta-sharing-spark la version 0.6.0 ou ultérieure.

Python

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)

spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)

spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

Scala

Exécutez la commande suivante, en remplaçant ces variables :

  • <profile-path> : emplacement du fichier d’informations d’identification.
  • <share-name> : valeur de share= pour la table.
  • <schema-name> : valeur de schema= pour la table.
  • <table-name> : valeur de name= pour la table.
  • <version-as-of> : facultatif. Version de la table pour charger les données. Fonctionne uniquement si le fournisseur de données partage l’historique de la table. Nécessite delta-sharing-spark la version 0.5.0 ou ultérieure.
  • <timestamp-as-of> : facultatif. Chargez les données à la version avant ou à l’horodatage donné. Fonctionne uniquement si le fournisseur de données partage l’historique de la table. Nécessite delta-sharing-spark la version 0.6.0 ou ultérieure.
spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

Accéder au flux de données modifiées partagées à l’aide de Spark

Si l’historique de la table a été partagé avec vous et que le flux de données modifiées (CDF) est activé sur la table source, vous pouvez accéder au flux de données modifiées en exécutant ce qui suit, en remplaçant ces variables. Nécessite delta-sharing-spark la version 0.5.0 ou ultérieure.

Un seul paramètre de début doit être fourni.

  • <profile-path> : emplacement du fichier d’informations d’identification.
  • <share-name> : valeur de share= pour la table.
  • <schema-name> : valeur de schema= pour la table.
  • <table-name> : valeur de name= pour la table.
  • <starting-version> : facultatif. Version de départ de la requête, inclusive. Spécifiez comme long.
  • <ending-version> : facultatif. Version de fin de la requête, inclusive. Si la version de fin n’est pas fournie, l’API utilise la dernière version de table.
  • <starting-timestamp> : facultatif. Le timestamp de début de la requête est converti en version créée supérieure ou égale à ce timestamp. Spécifiez-le sous forme de chaîne au format yyyy-mm-dd hh:mm:ss[.fffffffff].
  • <ending-timestamp> : facultatif. Le timestamp de fin de la requête est converti en version créée antérieurement ou égale à ce timestamp. Spécifiez-le sous forme de chaîne au format yyyy-mm-dd hh:mm:ss[.fffffffff]

Python

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<ending-version>)

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Scala

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Si la sortie est vide ou ne contient pas les données attendues, contactez le fournisseur de données.

Accéder à une table partagée à l’aide de Spark Structured Streaming

Si l’historique de la table est partagé avec vous, vous pouvez lire en continu les données partagées. Nécessite delta-sharing-spark la version 0.6.0 ou ultérieure.

Options prises en charge :

  • ignoreDeletes : ignorer les transactions qui suppriment des données.
  • ignoreChanges : retraiter les mises à jour si les fichiers ont dû être réécrits dans la table source en raison d’une opération de modification des données telle que UPDATE, MERGE INTO, DELETE (dans les partitions) ou OVERWRITE. Des lignes inchangées peuvent toujours être émises. Par conséquent, vos consommateurs en aval doivent être en mesure de gérer les doublons. Les suppressions ne sont pas propagées en aval. ignoreChanges englobe ignoreDeletes. Par conséquent, si vous utilisez ignoreChanges, votre flux n’est pas interrompu par des suppressions ou des mises à jour de la table source.
  • startingVersion : version de table partagée à partir de laquelle démarrer. Toutes les modifications de table à partir de cette version (incluse) seront lues par la source de streaming.
  • startingTimestamp : Timestamp de départ. Toutes les modifications de table validées à partir de ce timestamp (inclus) seront lues par la source de streaming. Exemple : "2023-01-01 00:00:00.0".
  • maxFilesPerTrigger : nombre de nouveaux fichiers à prendre en compte dans chaque micro-lot.
  • maxBytesPerTrigger : quantité de données traitées dans chaque micro-lot. Cette option définit une valeur « soft max », qui signifie qu’un lot traite approximativement cette quantité de données et peut traiter plus que la limite afin de faire avancer la requête de streaming dans les cas où la plus petite unité d’entrée est supérieure à cette limite.
  • readChangeFeed : diffuser en continu le flux de changements de données de la table partagée.

Options non prises en charge :

  • Trigger.availableNow

Exemples de requêtes Structured Streaming

Scala
spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Python
spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Consultez aussi l’article Streaming sur Azure Databricks.

Lire les tables avec un mappage de colonnes ou des vecteurs de suppression activés

Important

Cette fonctionnalité est disponible en préversion publique.

Les vecteurs de suppression sont une fonctionnalité d’optimisation du stockage que votre fournisseur peut activer sur les tables Delta partagées. Consultez Que sont les vecteurs de suppression ?.

Azure Databricks prend également en charge le mappage de colonnes pour des tables Delta. Cf. Renommage et suppression des colonnes avec le mappage de colonnes Delta Lake.

Si votre fournisseur a partagé une table avec un mappage de colonne ou des vecteurs de suppression activés, vous pouvez lire la table à l’aide du calcul qui exécute delta-sharing-spark 3.1 ou une version ultérieure. Si vous utilisez des clusters Databricks, vous pouvez effectuer des lectures par lots à l’aide d’un cluster exécutant Databricks Runtime 14.1 ou version ultérieure. Les requêtes CDF et de streaming nécessitent Databricks Runtime 14.2 ou version ultérieure.

Vous pouvez effectuer des requêtes par lots telles quelles, car elles peuvent résoudre automatiquement responseFormat en fonction des fonctionnalités de table de la table partagée.

Pour lire un flux des changements de données (CDF) ou pour effectuer des requêtes de streaming sur des tables partagées avec des vecteurs de suppression ou un mappage de colonnes activé, vous devez définir l’option supplémentaire responseFormat=delta.

Les exemples suivants montrent les requêtes batch, CDF et de streaming :

import org.apache.spark.sql.SparkSession

val spark = SparkSession
        .builder()
        .appName("...")
        .master("...")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .getOrCreate()

val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"

// Batch query
spark.read.format("deltaSharing").load(tablePath)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .load(tablePath)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)

Pandas : lire les données partagées

Effectuez ces étapes pour accéder à des données partagées dans pandas 0.25.3 ou version ultérieure.

Ces instructions supposent que vous avez accès au fichier d’informations d’identification partagé par le fournisseur de données. Consultez Obtenir l’accès dans le modèle de partage ouvert.

Installer le connecteur Delta Sharing Python

Pour accéder aux métadonnées relatives aux données partagées, telles que la liste des tables partagées avec vous, vous devez installer le connecteur Delta Sharing Python.

pip install delta-sharing

Répertorier les tables partagées à l’aide de pandas

Pour répertorier les tables dans le partage, exécutez la commande suivante, en remplaçant <profile-path>/config.share par l’emplacement du fichier d’informations d’identification.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Si la sortie est vide ou ne contient pas les tables attendues, contactez le fournisseur de données.

Accéder aux données partagées à l’aide de pandas

Pour accéder aux données partagées dans pandas à l’aide de Python, exécutez la commande suivante, en remplaçant les variables comme suit :

  • <profile-path> : emplacement du fichier d’informations d’identification.
  • <share-name> : valeur de share= pour la table.
  • <schema-name> : valeur de schema= pour la table.
  • <table-name> : valeur de name= pour la table.
import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")

Accéder à un flux de données modifiées partagé à l’aide de pandas

Pour accéder au flux de données de modification d’une table partagée dans pandas à l’aide de Python, exécutez la commande suivante, en remplaçant les variables comme suit. Un flux de données modifiées peut ne pas être disponible, selon que le fournisseur de données a partagé ou non le flux de données modifiées pour la table.

  • <starting-version> : facultatif. Version de départ de la requête, inclusive.
  • <ending-version> : facultatif. Version de fin de la requête, inclusive.
  • <starting-timestamp> : facultatif. Timestamp de début de la requête. Il est converti en version créée supérieure ou égale à ce timestamp.
  • <ending-timestamp> : facultatif. Timestamp de fin de la requête. Il est converti en version créée antérieurement ou égale à ce timestamp.
import delta_sharing
delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<starting-version>)

delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

Si la sortie est vide ou ne contient pas les données attendues, contactez le fournisseur de données.

Power BI : lire des données partagées

Le connecteur Delta Sharing Power BI vous permet de découvrir, d’analyser et de visualiser les jeux de données partagés avec vous via le protocole ouvert Delta Sharing.

Spécifications

Se connecter à Databricks

Pour vous connecter à Azure Databricks à l’aide du connecteur Delta Sharing, suivez les étapes suivantes :

  1. Ouvrez le fichier d’informations d’identification à l’aide d’un éditeur de texte pour récupérer l’URL du point de terminaison ainsi que le jeton.
  2. Ouvrez Power BI Desktop.
  3. Dans le menu Obtenir des données, recherchez Delta Sharing.
  4. Sélectionnez le connecteur et cliquez sur Se connecter.
  5. Entrez l’URL du point de terminaison que vous avez copiée à partir du fichier d’informations d’identification dans le champ Delta Sharing Server URL (URL du serveur Delta Sharing).
  6. Sous l’onglet Options avancées, vous pouvez également définir une limite de lignes afin de limiter le nombre maximal de lignes qu’il est possible de télécharger. Par défaut, cette valeur est définie sur 1 million de lignes.
  7. Cliquez sur OK.
  8. Pour Authentification, copiez le jeton que vous avez récupéré à partir du fichier d’informations d’identification dans le champ Jeton du porteur.
  9. Cliquez sur Connecter.

Limitations du connecteur Delta Sharing Power BI

Le connecteur Delta Sharing Power BI présente les limitations suivantes :

  • Les données qui sont chargées par le connecteur doivent pouvoir toutes être contenues dans la mémoire de votre ordinateur. Pour gérer cette exigence, le connecteur limite le nombre de lignes importées à la limite de lignes que vous définissez sous l’onglet Options avancées dans Power BI Desktop.

Tableau : lire les données partagées

Le connecteur Tableau Delta Sharing vous permet de découvrir, d’analyser et de visualiser les jeux de données qui sont partagés avec vous via le protocole ouvert Delta Sharing.

Spécifications

Se connecter à Azure Databricks

Pour vous connecter à Azure Databricks à l’aide du connecteur Delta Sharing, suivez les étapes suivantes :

  1. Accédez à Tableau Exchange, suivez les instructions pour télécharger le connecteur de partage Delta et placez-le dans un dossier de bureau approprié.
  2. Ouvrez Tableau Desktop.
  3. Dans la page Connecteurs, recherchez « Partage delta par Databricks ».
  4. Sélectionnez Charger un fichier de partage, puis choisissez le fichier d’informations d’identification partagé par le fournisseur.
  5. Cliquez sur Get Data (Obtenir les données).
  6. Dans l’Explorateur de données, sélectionnez la table.
  7. Ajoutez éventuellement des filtres SQL ou des limites de ligne.
  8. Cliquez sur Obtenir des données de table.

Limitations du connecteur Tableau Delta Sharing

Le connecteur Tableau Delta Sharing présente les limitations suivantes :

  • Les données qui sont chargées par le connecteur doivent pouvoir toutes être contenues dans la mémoire de votre ordinateur. Pour gérer cette exigence, le connecteur limite le nombre de lignes importées à la limite de lignes que vous avez définie dans Tableau.
  • Toutes les colonnes sont retournées en tant que type String.
  • Le filtre SQL fonctionne uniquement si votre serveur de partage Delta prend en charge le predicateHint.

Demander de nouvelles informations d’identification

Si l’URL d’activation de vos informations d’identification ou vos informations d’identification téléchargées sont perdues, endommagées ou compromises, ou si vos informations d’identification expirent sans que votre fournisseur ne vous en envoie de nouvelles, contactez votre fournisseur pour demander de nouvelles informations d’identification.