Sdílet prostřednictvím


Ukázkové datové sady

Azure Databricks poskytuje celou řadu ukázkových datových sad a zpřístupnil je třetí strany, které můžete použít ve svém pracovním prostoru Azure Databricks.

Datové sady katalogu Unity

Katalog Unity poskytuje přístup k řadě ukázkových datových sad v samples katalogu. Tyto datové sady můžete zkontrolovat v uživatelském rozhraní Průzkumníka katalogu a odkazovat na ně přímo v poznámkovém bloku nebo v editoru SQL pomocí <catalog-name>.<schema-name>.<table-name> vzoru.

Schéma nyctaxi (označované také jako databáze) obsahuje tabulku trips, která obsahuje podrobnosti o jízdách taxíkem v New Yorku. Následující příkaz vrátí prvních 10 záznamů v této tabulce:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schéma tpch obsahuje data z srovnávacího testu TPC-H. Pokud chcete zobrazit seznam tabulek v tomto schématu, spusťte:

SHOW TABLES IN samples.tpch

Datové sady Databricks (databricks-datasets)

Azure Databricks zahrnuje celou řadu ukázkových datových sad připojených k DBFS.

Poznámka:

Dostupnost a umístění datových sad Databricks se můžou bez předchozího upozornění změnit.

Procházení datových sad Databricks

K procházení těchto souborů z poznámkového bloku Python, Scala nebo R můžete použít referenční informace k nástrojům Databricks (dbutils). Následující kód obsahuje seznam všech dostupných datových sad Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Získání informací o datových sadách Databricks

Pokud chcete získat další informace o datové sadě Databricks, můžete pomocí místního souborového rozhraní API vytisknout datovou sadu README (pokud je k dispozici) pomocí poznámkového bloku Python, R nebo Scala, jak je znázorněno v tomto příkladu kódu.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Vytvoření tabulky založené na datové sadě Databricks

Tento příklad kódu ukazuje použití SQL v editoru SQL nebo použití poznámkových bloků SQL, Pythonu, Scaly nebo R k vytvoření tabulky založené na datové sadě Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Ukázkové datové sady třetích stran ve formátu CSV

Azure Databricks má integrované nástroje pro rychlé nahrání ukázkových datových sad třetích stran jako soubory hodnot oddělených čárkami (CSV) do pracovních prostorů Azure Databricks. Některé oblíbené ukázkové datové sady třetích stran dostupné ve formátu CSV:

Ukázková datová sada Stažení ukázkové datové sady jako souboru CSV...
Veverka Sčítání lidu Na webové stránce Data klikněte na Park Data,
Data veverka nebo příběhy.
Kolekce datových sad OWID V úložišti GitHub klikněte na složku datových sad. Klikněte na podsložku obsahující cílovou datovou sadu a potom klikněte na soubor CSV datové sady.
Data.gov datových sad CSV Na webové stránce výsledků hledání klikněte na cílový výsledek hledání a vedle ikony CSV klikněte na Tlačítko Stáhnout.
Kosočtverce (vyžaduje účet Kaggle ) Na webové stránce datové sady klikněte na kartě Data na kartě Data vedle diamonds.csv na ikonu Stáhnout.
NYC Taxi Trip Duration (Vyžaduje účet Kaggle ) Na webové stránce datové sady klikněte na kartě Data vedle sample_submission.zip
Ikona pro stažení Pokud chcete najít soubory CSV datové sady, extrahuje obsah staženého souboru ZIP.
POZOROVÁNÍ CENTRA (vyžaduje účet data.world ) Na webové stránce datové sady vedle
nuforc_reports.csv klikněte na ikonu Stáhnout.

Pokud chcete v pracovním prostoru Azure Databricks použít ukázkové datové sady třetích stran, postupujte takto:

  1. Podle pokynů třetích stran si datovou sadu stáhněte jako soubor CSV do místního počítače.
  2. Nahrajte soubor CSV z místního počítače do pracovního prostoru Azure Databricks.
  3. Pokud chcete pracovat s importovanými daty, použijte Databricks SQL k dotazování dat. Nebo můžete použít poznámkový blok k načtení dat jako datového rámce.

Ukázkové datové sady třetích stran v knihovnách

Některé třetí strany zahrnují ukázkové datové sady v knihovnách, jako jsou balíčky PyPI (Python Package Index) nebo balíčky CRAN (Comprehensive R Archive Network). Další informace najdete v dokumentaci poskytovatele knihovny.