Set di dati di esempio

Articolo
05/03/2024

Esistono diversi set di dati di esempio forniti da Azure Databricks e resi disponibili da terze parti che è possibile usare nell'area di lavoro di Azure Databricks.

Set di dati del catalogo Unity

Il catalogo unity consente di accedere a diversi set di dati di esempio nel samples catalogo. È possibile esaminare questi set di dati nell'interfaccia utente di Esplora cataloghi e farvi riferimento direttamente in un notebook o nell'editor SQL usando il <catalog-name>.<schema-name>.<table-name> modello .

Lo nyctaxi schema (noto anche come database) contiene la tabella trips, che contiene informazioni dettagliate sulle corse in taxi a New York City. L'istruzione seguente restituisce i primi 10 record in questa tabella:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Lo tpch schema contiene i dati del benchmark TPC-H. Per elencare le tabelle in questo schema, eseguire:

SHOW TABLES IN samples.tpch

Set di dati di Databricks (databricks-datasets)

Azure Databricks include un'ampia gamma di set di dati di esempio montati in DBFS.

Nota

La disponibilità e la posizione dei set di dati di Databricks sono soggetti a modifiche senza preavviso.

Esplorare i set di dati di Databricks

Per esplorare questi file da un notebook Python, Scala o R, è possibile usare le utilità di Databricks (dbutils). Il codice seguente elenca tutti i set di dati di Databricks disponibili.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Ottenere informazioni sui set di dati di Databricks

Per ottenere altre informazioni su un set di dati di Databricks, è possibile usare un'API di file locale per stampare il set di dati README (se disponibile) usando un notebook Python, R o Scala, come illustrato in questo esempio di codice.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Creare una tabella basata su un set di dati di Databricks

Questo esempio di codice illustra come usare SQL nell'editor SQL o come usare notebook SQL, Python, Scala o R per creare una tabella basata su un set di dati Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")