Conjuntos de dados de exemplo

Há uma variedade de conjuntos de dados de exemplo fornecidos pelo Azure Databricks e disponibilizados por terceiros que você pode usar em seu espaço de trabalho do Azure Databricks.

Conjuntos de dados do Catálogo Unity

O Unity Catalog fornece acesso a vários conjuntos de dados de exemplo no samples catálogo. Você pode revisar esses conjuntos de dados na interface do usuário do Catalog Explorer e fazer referência a eles diretamente em um bloco de anotações ou no editor SQL usando o <catalog-name>.<schema-name>.<table-name> padrão.

O nyctaxi esquema (também conhecido como banco de dados) contém a tabela trips, que tem detalhes sobre corridas de táxi na cidade de Nova York. A instrução a seguir retorna os primeiros 10 registros nesta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O tpch esquema contém dados do TPC-H Benchmark. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

Conjuntos de dados Databricks (databricks-datasets)

O Azure Databricks inclui uma variedade de conjuntos de dados de exemplo montados em DBFS.

Nota

A disponibilidade e a localização dos conjuntos de dados Databricks estão sujeitas a alterações sem aviso prévio.

Procurar conjuntos de dados Databricks

Para procurar esses arquivos a partir de um notebook Python, Scala ou R, você pode usar a referência Databricks Utilities (dbutils). O código a seguir lista todos os conjuntos de dados Databricks disponíveis.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Obter informações sobre conjuntos de dados Databricks

Para obter mais informações sobre um conjunto de dados Databricks, você pode usar uma API de arquivo local para imprimir o conjunto README de dados (se estiver disponível) usando um bloco de anotações Python, R ou Scala, conforme mostrado neste exemplo de código.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Criar uma tabela com base em um conjunto de dados Databricks

Este exemplo de código demonstra como usar SQL no editor SQL, ou como usar blocos de anotações SQL, Python, Scala ou R, para criar uma tabela com base em um conjunto de dados Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Conjuntos de dados de exemplo de terceiros em formato CSV

O Azure Databricks tem ferramentas internas para carregar rapidamente conjuntos de dados de exemplo de terceiros como arquivos CSV (valores separados por vírgula) nos espaços de trabalho do Azure Databricks. Alguns conjuntos de dados de exemplo de terceiros populares disponíveis no formato CSV:

Conjunto de dados de exemplo Para baixar o conjunto de dados de exemplo como um arquivo CSV...
O Censo do Esquilo Na página da Web Dados, clique em Estacionar Dados,
Dados do Esquilo, ou Histórias.
Coleção de conjuntos de dados OWID No repositório GitHub, clique na pasta de conjuntos de dados. Clique na subpasta que contém o conjunto de dados de destino e, em seguida, clique no arquivo CSV do conjunto de dados.
Data.gov conjuntos de dados CSV Na página Web de resultados da pesquisa, clique no resultado da pesquisa de destino e, junto ao ícone CSV , clique em Transferir.
Diamantes (Requer uma conta Kaggle ) Na página da Web do conjunto de dados, na guia Dados, na guia Dados, ao lado de diamantes.csv, clique no ícone Download.
Duração da viagem de táxi de NYC (requer uma conta Kaggle ) Na página da Web do conjunto de dados, na guia Dados , ao lado de sample_submission.zip, clique no botão
Ícone de download . Para localizar os arquivos CSV do conjunto de dados, extrai o conteúdo do arquivo ZIP baixado.
Avistamentos de OVNIs (Requer uma conta data.world ) Na página da Web do conjunto de dados, ao lado de
nuforc_reports.csv, clique no ícone Download .

Para usar conjuntos de dados de exemplo de terceiros em seu espaço de trabalho do Azure Databricks, faça o seguinte:

  1. Siga as instruções de terceiros para baixar o conjunto de dados como um arquivo CSV para sua máquina local.
  2. Carregue o arquivo CSV de sua máquina local em seu espaço de trabalho do Azure Databricks.
  3. Para trabalhar com os dados importados, use o Databricks SQL para consultar os dados. Ou você pode usar um bloco de anotações para carregar os dados como um DataFrame.

Conjuntos de dados de exemplo de terceiros em bibliotecas

Alguns terceiros incluem conjuntos de dados de exemplo dentro de bibliotecas, como pacotes Python Package Index (PyPI) ou pacotes Comprehensive R Archive Network (CRAN). Para obter mais informações, consulte a documentação do provedor da biblioteca.

  • Para instalar uma biblioteca em um cluster do Azure Databricks usando a interface do usuário do cluster, consulte Bibliotecas de cluster.
  • Para instalar uma biblioteca Python usando um bloco de anotações do Azure Databricks, consulte Bibliotecas Python com escopo de bloco de anotações.
  • Para instalar uma biblioteca R usando um bloco de anotações do Azure Databricks, consulte Bibliotecas R com escopo de bloco de anotações.