Exempeldatauppsättningar

Det finns en mängd olika exempeldatauppsättningar som tillhandahålls av Azure Databricks och görs tillgängliga av tredje part som du kan använda på din Azure Databricks-arbetsyta.

Unity Catalog-datauppsättningar

Unity Catalog ger åtkomst till ett antal exempeldatauppsättningar i samples katalogen. Du kan granska dessa datauppsättningar i katalogutforskarens användargränssnitt och referera till dem direkt i en notebook-fil eller i SQL-redigeraren med hjälp <catalog-name>.<schema-name>.<table-name> av mönstret.

Schemat nyctaxi (även kallat en databas) innehåller tabellen trips, som innehåller information om taxiresor i New York City. Följande instruktion returnerar de första 10 posterna i den här tabellen:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schemat tpch innehåller data från TPC-H Benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:

SHOW TABLES IN samples.tpch

Databricks-datauppsättningar (databricks-datauppsättningar)

Azure Databricks innehåller en mängd olika exempeldatauppsättningar som monterats på DBFS.

Kommentar

Tillgängligheten och platsen för Databricks-datauppsättningar kan komma att ändras utan föregående meddelande.

Bläddra bland Databricks-datamängder

Om du vill bläddra bland dessa filer från en Python-, Scala- eller R-notebook-fil kan du använda databricks Utilities-referens (dbutils). Följande kod visar alla tillgängliga Databricks-datamängder.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Hämta information om Databricks-datauppsättningar

Om du vill få mer information om en Databricks-datauppsättning kan du använda ett lokalt fil-API för att skriva ut datamängden README (om en är tillgänglig) med hjälp av en Python-, R- eller Scala-notebook-fil, som du ser i det här kodexemplet.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Skapa en tabell baserat på en Databricks-datauppsättning

Det här kodexemplet visar hur du använder SQL i SQL-redigeraren eller hur du använder SQL-, Python-, Scala- eller R-notebook-filer för att skapa en tabell baserat på en Databricks-datauppsättning:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Exempeldatauppsättningar från tredje part i CSV-format

Azure Databricks har inbyggda verktyg för att snabbt ladda upp exempeldatauppsättningar från tredje part som kommaavgränsade värden (CSV)-filer till Azure Databricks-arbetsytor. Några populära exempeldatauppsättningar från tredje part som är tillgängliga i CSV-format:

Exempeldatauppsättning Så här laddar du ned exempeldatauppsättningen som en CSV-fil...
Ekorreräkningen På webbsidan Data klickar du på Parkera data,
Ekorredata eller berättelser.
OWID-datauppsättningssamling Klicka på mappen datamängderGitHub-lagringsplatsen. Klicka på den undermapp som innehåller måldatauppsättningen och klicka sedan på datauppsättningens CSV-fil.
Data.gov CSV-datauppsättningar På webbsidan för sökresultat klickar du på sökresultatet och bredvid CSV-ikonen klickar du på Ladda ned.
Diamanter (kräver ett Kaggle-konto ) På datauppsättningens webbsida går du till fliken Data och klickar på ikonen Ladda ned bredvid diamonds.csvfliken Data.
Varaktighet för nyc taxiresa (kräver ett Kaggle-konto ) På datauppsättningens webbsida går du till fliken Data bredvid sample_submission.zip och klickar på
Nedladdningsikon . Om du vill hitta datauppsättningens CSV-filer extraherar du innehållet i den nedladdade ZIP-filen.
UFO-observationer (kräver ett data.world konto) På datauppsättningens webbsida bredvid
nuforc_reports.csv klickar du på ikonen Ladda ned.

Om du vill använda exempeldatauppsättningar från tredje part på din Azure Databricks-arbetsyta gör du följande:

  1. Följ instruktionerna från tredje part för att ladda ned datamängden som en CSV-fil till den lokala datorn.
  2. Ladda upp CSV-filen från den lokala datorn till din Azure Databricks-arbetsyta.
  3. Om du vill arbeta med importerade data använder du Databricks SQL för att fråga efter data. Eller så kan du använda en notebook-fil för att läsa in data som en DataFrame.

Exempeldatauppsättningar från tredje part i bibliotek

Vissa tredje parter inkluderar exempeldatauppsättningar i bibliotek, till exempel PyPI-paket (Python Package Index) eller CRAN-paket (Comprehensive R Archive Network). Mer information finns i biblioteksleverantörens dokumentation.

  • Information om hur du installerar ett bibliotek i ett Azure Databricks-kluster med hjälp av klustrets användargränssnitt finns i Klusterbibliotek.
  • Information om hur du installerar ett Python-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i Python-bibliotek med notebook-omfattning.
  • Information om hur du installerar ett R-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i R-bibliotek med notebook-omfattning.