Ukázkové datové sady

Článek
05/03/2024

Azure Databricks poskytuje celou řadu ukázkových datových sad a zpřístupnil je třetí strany, které můžete použít ve svém pracovním prostoru Azure Databricks.

Datové sady katalogu Unity

Katalog Unity poskytuje přístup k řadě ukázkových datových sad v samples katalogu. Tyto datové sady můžete zkontrolovat v uživatelském rozhraní Průzkumníka katalogu a odkazovat na ně přímo v poznámkovém bloku nebo v editoru SQL pomocí <catalog-name>.<schema-name>.<table-name> vzoru.

Schéma nyctaxi (označované také jako databáze) obsahuje tabulku trips, která obsahuje podrobnosti o jízdách taxíkem v New Yorku. Následující příkaz vrátí prvních 10 záznamů v této tabulce:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schéma tpch obsahuje data z srovnávacího testu TPC-H. Pokud chcete zobrazit seznam tabulek v tomto schématu, spusťte:

SHOW TABLES IN samples.tpch

Datové sady Databricks (databricks-datasets)

Azure Databricks zahrnuje celou řadu ukázkových datových sad připojených k DBFS.

Poznámka:

Dostupnost a umístění datových sad Databricks se můžou bez předchozího upozornění změnit.

Procházení datových sad Databricks

K procházení těchto souborů z poznámkového bloku Python, Scala nebo R můžete použít referenční informace k nástrojům Databricks (dbutils). Následující kód obsahuje seznam všech dostupných datových sad Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Získání informací o datových sadách Databricks

Pokud chcete získat další informace o datové sadě Databricks, můžete pomocí místního souborového rozhraní API vytisknout datovou sadu README (pokud je k dispozici) pomocí poznámkového bloku Python, R nebo Scala, jak je znázorněno v tomto příkladu kódu.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Vytvoření tabulky založené na datové sadě Databricks

Tento příklad kódu ukazuje použití SQL v editoru SQL nebo použití poznámkových bloků SQL, Pythonu, Scaly nebo R k vytvoření tabulky založené na datové sadě Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")