Exempeldatauppsättningar
Det finns en mängd olika exempeldatauppsättningar som tillhandahålls av Azure Databricks och görs tillgängliga av tredje part som du kan använda på din Azure Databricks-arbetsyta.
Unity Catalog-datauppsättningar
Unity Catalog ger åtkomst till ett antal exempeldatauppsättningar i samples
katalogen. Du kan granska dessa datauppsättningar i katalogutforskarens användargränssnitt och referera till dem direkt i en notebook-fil eller i SQL-redigeraren med hjälp <catalog-name>.<schema-name>.<table-name>
av mönstret.
Schemat nyctaxi
(även kallat en databas) innehåller tabellen trips
, som innehåller information om taxiresor i New York City. Följande instruktion returnerar de första 10 posterna i den här tabellen:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Schemat tpch
innehåller data från TPC-H Benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:
SHOW TABLES IN samples.tpch
Databricks-datauppsättningar (databricks-datauppsättningar)
Azure Databricks innehåller en mängd olika exempeldatauppsättningar som monterats på DBFS.
Kommentar
Tillgängligheten och platsen för Databricks-datauppsättningar kan komma att ändras utan föregående meddelande.
Bläddra bland Databricks-datamängder
Om du vill bläddra bland dessa filer från en Python-, Scala- eller R-notebook-fil kan du använda databricks Utilities-referens (dbutils). Följande kod visar alla tillgängliga Databricks-datamängder.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Hämta information om Databricks-datauppsättningar
Om du vill få mer information om en Databricks-datauppsättning kan du använda ett lokalt fil-API för att skriva ut datamängden README
(om en är tillgänglig) med hjälp av en Python-, R- eller Scala-notebook-fil, som du ser i det här kodexemplet.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Skapa en tabell baserat på en Databricks-datauppsättning
Det här kodexemplet visar hur du använder SQL i SQL-redigeraren eller hur du använder SQL-, Python-, Scala- eller R-notebook-filer för att skapa en tabell baserat på en Databricks-datauppsättning:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Exempeldatauppsättningar från tredje part i CSV-format
Azure Databricks har inbyggda verktyg för att snabbt ladda upp exempeldatauppsättningar från tredje part som kommaavgränsade värden (CSV)-filer till Azure Databricks-arbetsytor. Några populära exempeldatauppsättningar från tredje part som är tillgängliga i CSV-format:
Exempeldatauppsättning | Så här laddar du ned exempeldatauppsättningen som en CSV-fil... |
---|---|
Ekorreräkningen | På webbsidan Data klickar du på Parkera data, Ekorredata eller berättelser. |
OWID-datauppsättningssamling | Klicka på mappen datamängder på GitHub-lagringsplatsen. Klicka på den undermapp som innehåller måldatauppsättningen och klicka sedan på datauppsättningens CSV-fil. |
Data.gov CSV-datauppsättningar | På webbsidan för sökresultat klickar du på sökresultatet och bredvid CSV-ikonen klickar du på Ladda ned. |
Diamanter (kräver ett Kaggle-konto ) | På datauppsättningens webbsida går du till fliken Data och klickar på ikonen Ladda ned bredvid diamonds.csv på fliken Data. |
Varaktighet för nyc taxiresa (kräver ett Kaggle-konto ) | På datauppsättningens webbsida går du till fliken Data bredvid sample_submission.zip och klickar på Nedladdningsikon . Om du vill hitta datauppsättningens CSV-filer extraherar du innehållet i den nedladdade ZIP-filen. |
UFO-observationer (kräver ett data.world konto) | På datauppsättningens webbsida bredvid nuforc_reports.csv klickar du på ikonen Ladda ned. |
Om du vill använda exempeldatauppsättningar från tredje part på din Azure Databricks-arbetsyta gör du följande:
- Följ instruktionerna från tredje part för att ladda ned datamängden som en CSV-fil till den lokala datorn.
- Ladda upp CSV-filen från den lokala datorn till din Azure Databricks-arbetsyta.
- Om du vill arbeta med importerade data använder du Databricks SQL för att fråga efter data. Eller så kan du använda en notebook-fil för att läsa in data som en DataFrame.
Exempeldatauppsättningar från tredje part i bibliotek
Vissa tredje parter inkluderar exempeldatauppsättningar i bibliotek, till exempel PyPI-paket (Python Package Index) eller CRAN-paket (Comprehensive R Archive Network). Mer information finns i biblioteksleverantörens dokumentation.
- Information om hur du installerar ett bibliotek i ett Azure Databricks-kluster med hjälp av klustrets användargränssnitt finns i Klusterbibliotek.
- Information om hur du installerar ett Python-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i Python-bibliotek med notebook-omfattning.
- Information om hur du installerar ett R-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i R-bibliotek med notebook-omfattning.