Exempeldatauppsättningar

Artikel
03/01/2024

Det finns en mängd olika exempeldatauppsättningar som tillhandahålls av Azure Databricks och görs tillgängliga av tredje part som du kan använda på din Azure Databricks-arbetsyta.

Unity Catalog-datauppsättningar

Unity Catalog ger åtkomst till ett antal exempeldatauppsättningar i samples katalogen. Du kan granska dessa datauppsättningar i katalogutforskarens användargränssnitt och referera till dem direkt i en notebook-fil eller i SQL-redigeraren med hjälp <catalog-name>.<schema-name>.<table-name> av mönstret.

Schemat nyctaxi (även kallat en databas) innehåller tabellen trips, som innehåller information om taxiresor i New York City. Följande instruktion returnerar de första 10 posterna i den här tabellen:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schemat tpch innehåller data från TPC-H Benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:

SHOW TABLES IN samples.tpch

Databricks-datauppsättningar (databricks-datauppsättningar)

Azure Databricks innehåller en mängd olika exempeldatauppsättningar som monterats på DBFS.

Kommentar

Tillgängligheten och platsen för Databricks-datauppsättningar kan komma att ändras utan föregående meddelande.

Bläddra bland Databricks-datamängder

Om du vill bläddra bland dessa filer från en Python-, Scala- eller R-notebook-fil kan du använda databricks Utilities-referens (dbutils). Följande kod visar alla tillgängliga Databricks-datamängder.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Hämta information om Databricks-datauppsättningar

Om du vill få mer information om en Databricks-datauppsättning kan du använda ett lokalt fil-API för att skriva ut datamängden README (om en är tillgänglig) med hjälp av en Python-, R- eller Scala-notebook-fil, som du ser i det här kodexemplet.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Skapa en tabell baserat på en Databricks-datauppsättning

Det här kodexemplet visar hur du använder SQL i SQL-redigeraren eller hur du använder SQL-, Python-, Scala- eller R-notebook-filer för att skapa en tabell baserat på en Databricks-datauppsättning:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")