Échantillon de jeux de données

Article
03/01/2024

Il existe divers exemples de jeux de données fournis par Azure Databricks et mis à disposition par des tiers que vous pouvez utiliser dans votre espace de travail Azure Databricks.

Jeux de données de catalogue Unity

Unity Catalog fournit un accès à un certain nombre d’exemples de jeux de données dans le catalogue samples. Vous pouvez passer en revue ces jeux de données dans l’Interface utilisateur de Catalog Explorer et directement y faire référence dans un notebook ou dans l’éditeur SQL en utilisant le modèle <catalog-name>.<schema-name>.<table-name>.

Le schéma nyctaxi (également appelé base de données) contient la table trips, qui contient des informations sur les courses de taxi à New York. L’instruction suivante retourne les 10 premiers enregistrements de cette table :

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Le schéma tpch contient des données du Benchmark TPC-H. Pour répertorier les tables de ce schéma, exécutez :

SHOW TABLES IN samples.tpch

Jeu de données Databricks (databricks-datasets)

Azure Databricks comprend un large éventail d’exemples de jeux de données montés sur DBFS.

Notes

La disponibilité et l’emplacement des jeux de données Databricks sont susceptibles de changer sans préavis.

Parcourir les jeux de données Databricks

Pour parcourir ces fichiers à partir d'un notebook Python, Scala ou R, vous pouvez utiliser la référence Databricks Utilities (dbutils). Le code suivant répertorie tous les jeux de données Databricks disponibles.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Obtenir des informations sur les jeux de données Databricks

Pour obtenir plus d’informations sur un jeu de données Databricks, vous pouvez utiliser une API de fichier local pour imprimer le jeu de données README (s’il y en a un disponible) en utilisant un notebook Python, R ou Scala, comme indiqué dans cet exemple de code.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Créer une table basée sur un jeu de données Databricks

Cet exemple de code montre comment utiliser SQL dans l’éditeur SQL ou comment utiliser des notebooks SQL, Python, Scala ou R pour créer une table basée sur un jeu de données Databricks :

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Exemples de jeux de données tiers au format CSV

Azure Databricks dispose d’outils intégrés pour charger rapidement des échantillons de jeux de données tiers en tant que fichiers CSV (valeurs séparées par des virgules) dans des espaces de travail Azure Databricks. Certains échantillons de jeux de données tiers populaires disponibles au format CSV :

Exemple de jeu de données	Pour télécharger l’échantillon de jeu de données en tant que fichier CSV...
Le recensement de l’écureuil	Dans la page web Données, cliquez sur Données parc, Données écureuils ou Histoires.
Collection de jeux de données OWID	Dans le référentiel GitHub, cliquez sur le dossier jeux de données. Cliquez sur le sous-dossier qui contient le jeu de données cible, puis cliquez sur le fichier CSV du jeu de données.
Jeux de données CSV Data.gov	Dans la page web des résultats de la recherche, cliquez sur le résultat de recherche cible, puis à côté de l’icôneCSV, cliquez sur Télécharger.
Diamants (nécessite un compte Kaggle)	Sur la page web du jeu de données, sous l’onglet Données, sous l’onglet Données, à côté dediamonds.csv, cliquez sur l’icône Télécharger.
Durée du trajet de taxi NYC (nécessite un compte Kaggle )	Sur la page web du jeu de données, sous l’onglet Donnéesà côté desample_submission.zip, cliquez sur l’icône Téléchargement. Pour rechercher les fichiers CSV du jeu de données, extraire le contenu du fichier ZIP téléchargé.
Observations d’OVNI (nécessite un compte data.world )	Sur la page web du jeu de données, à côté de nuforc_reports.csv, cliquez sur l’icône Télécharger

Pour utiliser des échantillons de jeux de données tiers dans votre espace de travail Azure Databricks, procédez comme suit :

Suivez les instructions du tiers pour télécharger le jeu de données en tant que fichier CSV sur votre ordinateur local.
Chargez le fichier CSV à partir de votre ordinateur local dans votre espace de travail Azure Databricks.
Pour utiliser les données importées, utilisez Databricks SQL pour interroger les données. Vous pouvez également utiliser un notebook pour charger les données en tant que DataFrame.

Exemples de jeux de données tiers dans des bibliothèques

Certains tiers incluent des exemples de jeux de données dans des bibliothèques, tels que les packages PyPI (Python Package Index) ou les packages CRAN (Comprehensive R Archive Network). Si vous souhaitez obtenir plus d’informations, consultez la documentation du fournisseur de la bibliothèque.

Pour installer une bibliothèque sur un cluster Azure Databricks en utilisant l’interface utilisateur du cluster, consultez Bibliothèques de cluster.
Pour installer une bibliothèque Python à l’aide d’un notebook Azure Databricks, consultez Bibliothèques Python délimitées aux notebooks.
Pour installer une bibliothèque R en utilisant un notebook Azure Databricks, consultez Bibliothèques R délimitées aux notebooks.

Échantillon de jeux de données

Jeux de données de catalogue Unity

Jeu de données Databricks (databricks-datasets)

Parcourir les jeux de données Databricks

Python

Scala

R

Obtenir des informations sur les jeux de données Databricks

Python

Scala

R

Créer une table basée sur un jeu de données Databricks

SQL

Python

Scala

R

Exemples de jeux de données tiers au format CSV

Exemples de jeux de données tiers dans des bibliothèques

Ressources supplémentaires