Conjuntos de dados de exemplo

Artigo
03/01/2024

Há uma variedade de conjuntos de dados de exemplo fornecidos pelo Azure Databricks e disponibilizados por terceiros que você pode usar em seu espaço de trabalho do Azure Databricks.

Conjuntos de dados do Catálogo Unity

O Unity Catalog fornece acesso a vários conjuntos de dados de exemplo no samples catálogo. Você pode revisar esses conjuntos de dados na interface do usuário do Catalog Explorer e fazer referência a eles diretamente em um bloco de anotações ou no editor SQL usando o <catalog-name>.<schema-name>.<table-name> padrão.

O nyctaxi esquema (também conhecido como banco de dados) contém a tabela trips, que tem detalhes sobre corridas de táxi na cidade de Nova York. A instrução a seguir retorna os primeiros 10 registros nesta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O tpch esquema contém dados do TPC-H Benchmark. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

Conjuntos de dados Databricks (databricks-datasets)

O Azure Databricks inclui uma variedade de conjuntos de dados de exemplo montados em DBFS.

Nota

A disponibilidade e a localização dos conjuntos de dados Databricks estão sujeitas a alterações sem aviso prévio.

Procurar conjuntos de dados Databricks

Para procurar esses arquivos a partir de um notebook Python, Scala ou R, você pode usar a referência Databricks Utilities (dbutils). O código a seguir lista todos os conjuntos de dados Databricks disponíveis.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Obter informações sobre conjuntos de dados Databricks

Para obter mais informações sobre um conjunto de dados Databricks, você pode usar uma API de arquivo local para imprimir o conjunto README de dados (se estiver disponível) usando um bloco de anotações Python, R ou Scala, conforme mostrado neste exemplo de código.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Criar uma tabela com base em um conjunto de dados Databricks

Este exemplo de código demonstra como usar SQL no editor SQL, ou como usar blocos de anotações SQL, Python, Scala ou R , para criar uma tabela com base em um conjunto de dados Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")